sábado, 20 de setembro de 2014

Método dos Quartile na Representação da Informação

Caros leitores, hoje falaremos sobre representação da informação. Suponhamos que nosso desafio seja representar a densidade populacional dos 5570 municípios brasileiros. Seria impossível uma interpretação correta da realidade através de uma de representação visual (intensidade de cores) se optássemos por representar cada valor único. Nesse contexto se faz necessário agrupar dados segundo padrões de semelhança. Para isso utilizamos um instrumental metodológico.
Na cartografia temática podemos construir representações quantitativa através de vários métodos: intervalos iguais, desvio padrão, quebras manuais, quebras naturais, quartile e outros. Esse post se dedica ao método dos quartile.

Definindo o Número de classes
Primeiramente se faz necessário definir o número de classes em que seus dados serão agrupados, é comum encontrar mapas que tenha de 4 a 8 classes. Entende-se que mapas com mais de 8 agrupamentos não facilitam o entendimento. Existe uma metodologia (STURGER) que equaciona essa questão nos seguintes termos: K= 1 + 3.33LogN
onde K= ao número de classes e N o número de valores não repetidos. 
Ainda que existe uma fórmula proposta para a definição do número de classes seu uso não é obrigatório, a experiência do analista muitas vezes permite a apresentação de soluções mais adequadas para a representação dos fenômenos.

Quartile
O método dos quartiles consiste em agrupar os dados com quantidades iguais de observações. Construímos um conjunto de observações aleatório e organizamos em uma tabela para facilitar o entendimento. Observe o quadro abaixo:

O primeiro quartil representa os 25% das observações, de menor valor, entre o segundo e terceiro quartis temos os valores centrais situados os valores 9 e 34, a mediana se encontra em 16,5. O último quartil inicia-se do 37 e vai até 50. Com esse instrumental analisamos onde e quanto. Onde estão os valores mais próximos da mediana, os valores mais baixos, os mais altos.
Os quartis nos permitem ter conjuntos com uma distribuição de observações mais equilibrado além de poder identificar imediatamente qual a posição de cada observação em relação ao todo. Se o valor associado a uma observação é mais central ou se está nos extremos.
Abaixo uma figura de como o ArcGIS organiza os dados sobre essa perspectiva, nessa figura, extraída do help online, os dados foram divididos em 7 grupos, observe que ele altera a amplitude de alguns agrupamentos a fim de obter conjunto com quantidades de observações semelhantes.
A escolha do método adequado para agrupar seus dados é determinante para o sucesso da sua análise. Situações podem ser postas em evidencia ou ocultadas. Padrões podem evidenciar a necessidade de ações e apontar onde elas devem se concentrar, hoje o GIS é uma realidade nos processos de tomada de decisão, assim a importância e responsabilidade do nosso trabalho só aumenta. 


Do discurso para o mapa
Apresento dois exemplos extraídos do material didático do curso de análise espacial do Inpe. Dois métodos diferentes foram usados para agrupar o mesmo conjunto de dados, no caso a proporção de crianças de 0 a 5 anos residentes em domicílios em que o responsável ou cônjuge é analfabeto e saneamento é inadequado. O primeiro método agrupa os dados dividindo a amplitude pelo número de classes definidas em intervalos iguais.

(Optamos em inserir os mapas em tamanho que permitisse uma leitura de toda a legenda, fonte dessa figura e da seguinte é o material didático do curso de Análise Espacial do INPE)

As cores quentes representam as áreas de maior atenção. Agora a mesmo fenômeno representado pelo método dos quartile, no caso divido em 10 partes, cada uma representando 10% dos dados.

Observe a alteração da quantidade áreas com cores quentes, isso porque o método está focada na distribuição dos dados, pelo tamanho dos agrupamentos não pela rigidez dos intervalos. Observe que a coluna quantidade apresenta valores semelhantes de geometrias associadas.
De forma geral não podemos dizer que o método dos intervalos iguais não seja válido, entendo que ele não é válido para representar esse fenômeno. Várias bibliografias apontam esse método como muito apropriado para fenômenos contínuos, como tipos de solos e distribuição de temperaturas. Mas podemos afirmar que o método dos quartile nos permite observar os 10, 20, 30% mais críticos num primeiro olhar.

quinta-feira, 29 de maio de 2014

Segundo ano da Lei de Acesso à Informação

No mês de maio completa dois anos da regulamentação da Lei de Acesso a Informação. Estando por tanto, ainda numa primeira fase da sua vigência. Nesse primeiro período marca-se também o choque entre uma lei aberta, voltada para a transparência e a cultura do “meu dado” no sentido negativo da expressão. Dados são insumos para a geração de informações relevantes que podem trazer benefícios a sociedade, salvo situações muito particulares devem ser abertos.
Nesse primeiro período é fundamental a apresentação de solicitações, de demandas da sociedade, para que essas barreiras sejam rompidas. Antes de fazer suas solicitações sugiro que leia a lei. Observe bem as delimitações, a lei é bastante generosa quanto aos formatos a serem solicitados e recorra se entender que o órgão fez uma negativa injustificada. A participação da sociedade é importante para garantir uma aplicação da lei favorável ao cidadão.
No portal de dados abertos, o leitor encontrará um conjunto considerável de dados geográficos a disposição. Alguns já catalogados pela INDE (http://dados.gov.br/tag/INDE), IBGE (http://dados.gov.br/tag/IBGE) e dados geográficos de vários Estados como por exemplo do Tocantins (http://dados.gov.br/tag/Tocantins).
A lei ganha importância na medida que se faça uso dela, a cartografia nacional produzida com recursos públicos também é de responsabilidade de órgãos a ela subordinada. A Cidade de São Paulo é um excelente exemplo de aplicação da lei por parte do poder público http://transparencia.prefeitura.sp.gov.br/acesso-a-informacao/Paginas/Dicas-para-fazer-o-pedido.aspx

Em tempo: Parabéns a todos os amigos geógrafos nesse 29 de maio.

domingo, 13 de abril de 2014

Dados geográficos a Commodity


É um consenso em construção a visão que os dados geográficos se tornaram uma commodity. Essa visão presente na fala de executivos de empresas como a Esri e outras grandes do setor. Expõem a perspectiva que na atualidade os dados podem ser produzidos em larga escala e em diferentes partes do mundo. A convergência com essa visão, leva-me a refletir sobre as particularidades, considerar as tendências e as contra tendências.
Minha primeira ponderação. Embora possa ser constatada uma queda nos preços de diferentes bases de dados (matriz e vetor), elas continuam essenciais. Não há processo de tomada de decisão que possa prescindir de dados. Assim tem uma tendência ao equilíbrio de preços em um patamar que permita investimentos na atualização e manutenção das ofertas de dados.

A evolução da tecnologia tem permitido a geração de dados que capturam a dinâmica da realidade. O recebimento de milhões se não bilhões de logs resultantes de GPSs embarcados, põem a demanda da sua análise e interpretação na ordem do dia. Sua resultante é um dado rico sobre a vida nas cidades. Sim, o tráfego mostra muito mais do que o trânsito. Dados embarcados utilizados em processos produtivos também oferecem uma visão do desempenho de equipes, respondendo onde e quando os ápices de produtividade se encontram. Dados que reportam a dinâmica das ações e dos processos no território são de grande importância para modelos preditivos.
A grande oferta de dados e de insumos tem demandado uma crescente preocupação com os processos de qualidade e gestão de dados. Se podemos restituir uma base em qualquer lugar do mundo, continuamos demandando de inteligência local, conhecedora das particularidades e dos processos e regras de negócio do cliente final.
A compreensão do ciclo de atualização do dado é central. Responder por quanto tempo esse dado é confiável para o processo de negócio do cliente é chave. Apontar a escala apropriada e sua extensão. Ofertar metadados completos e confiáveis. Assim as IDEs (Infraestrutura de Dados Espaciais) nunca foram tão necessárias. Na atualidade temos diferentes fontes provedoras e a necessidade de apontar qual a mais aderente aos processos de negócio é crítica.
Por fim, passamos por mais um processo de mudanças e ao meu ver o grande desafio continua sendo compreender o tempo, suas mudanças e se posicionar de forma adequada.

Web Analytics