Escute esse artigo
Tempo de leitura: 4 minutos

 

Instituição de Ensino Superior: ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
Programa: POPULAÇÃO, TERRITÓRIO E ESTATÍSTICAS PÚBLICAS (31045014001P7)
Título: Proposta de Método de Pareamento para Integrar Dados sobre a Agropecuária
Autor: ANDREA DINIZ DA SILVA
Tipo de Trabalho de Conclusão: TESE
Data Defesa: 22/08/2018
Resumo:
Atualmente, vários indicadores importantes e concernentes às condições de vida da população dependem da produção de estatísticas agropecuárias. Do Produto Interno Bruto brasileiro, que em 2015 teve mais de 20% do seu valor atribuído à agropecuária, aos indicadores de desenvolvimento sustentável para o monitoramento da erradicação da fome, do crescimento sustentado e do uso sustentável de recursos naturais; todos dependem de estatísticas agropecuárias de boa qualidade e com produção continuada. A despeito da sua importância, a maior parte das estatísticas agropecuárias brasileiras ainda é produzida com base em censos decenais, cujos dados se tornam obsoletos na medida em que se afastam da data de referência; e em pesquisas por amostragem não probabilística que, por sua vez, não fornecem estimativas de erro ou medida de precisão. Uma alternativa para melhorar a quantidade e a qualidade dessas estatísticas é a integração de dados provenientes de pesquisas e de registros administrativos já existentes; tanto para a produção direta de informações quanto para a construção de um cadastro de unidades para uso em pesquisas por amostragem probabilística. Um levantamento preliminar realizado pelo IBGE mostrou que em 2017 havia mais de 60 fontes de dados sobre produtores ou produção na agropecuária brasileira. Porém, para que seja possível se beneficiar das diversas fontes, é necessário integrar seus dados. Considerando que os métodos de pareamento são ferramentas fundamentais para tal integração, foi realizado um estudo empírico para buscar um com resultados comparativamente melhores. Oito métodos de pareamento foram comparados, utilizando informações de nome e endereço de estabelecimentos agropecuários, registrados no Cadastro Central de Empresas do IBGE (CEMPRE) ou nas Secretarias Estaduais de Fazenda (SEFAZ), nos Estados do Maranhão, da Paraíba e de Santa Catarina. O estudo inclui um método baseado no modelo de decisão Fellegi-Sunter, dois métodos baseados em técnicas de agrupamento utilizando o algoritmo K-Means, quatro métodos utilizando árvore de classificação e um método utilizando o algoritmo Support Vector Machine (SVM). Para comparar a eficácia dos métodos, foram utilizadas as medidas de precisão, de sensibilidade e sua média harmônica (Estatística-F); e para comparar a xi eficiência foram computados o tempo total e a memória máxima utilizada para a realização do pareamento empregando cada método.

Palavras-Chave: pareamento;integração de dados;record linkage;estatísticas agropecuárias;Fellegi-Sunter;aprendizado de máquina

Abstract: Important indicators of the living conditions of the population depend on the production of agricultural statistics. From the Brazilian Gross Domestic Product, which in 2015 had more than 20% attributed to agriculture and livestock, to sustainable development indicators for monitoring the eradication of hunger and malnutrition, sustainable growth and sustainable use of natural resources, all indicators depend on continuous production of good quality agricultural statistics. Despite its importance, most Brazilian agricultural statistics are based on decennial censuses, whose data become obsolete quickly; and non-probabilistic sample surveys, which do not provide error estimates or precision measurement. An alternative to improving quantity and quality of agricultural statistics is integrating data from already existing surveys and administrative registers. Such integration can allow both direct production of information and building a master frame for supporting probabilistic sample surveys. Preliminary study conducted by the IBGE showed that there are more than 60 sources of data on Brazilian agriculture. Nevertheless, in order to benefit from this opportunity, it is necessary to develop and apply a method for integrating the available data. Considering that record linkage methods are important tools for such integration, an empirical study was conducted to search for one with comparatively better results. Eight record linkage methods were compared, using name and address information from agricultural establishments, registered in the Central Business Register (CEMPRE) held by the Brazilian Institute of Geography and Statistics or in the State Tax Administrations (SEFAZ), in the states of Maranhão, Paraíba and Santa Catarina. The study includes a method based on the Fellegi-Sunter decision model, two methods based on clustering techniques using the K-Means algorithm, four methods using classification trees and a method using the Support Vector Machine (SVM) algorithm. Measures of precision, recall and their harmonic mean (F-Measure) were used to compare the efficacy of competing methods; and to compare their efficiency total time and maximum memory used for linking the records were compared.

Keyword: record linkage;data integration;rural statistics;Fellegi-Sunter;machine learning

Volume: 1
Páginas: 110
Idioma: PORTUGUES
Biblioteca Depositária: ESCOLA NACIONAL DE CIÊNCIAS ESTATÍSTICAS
Autorização de divulgação: O trabalho possui divulgação autorizada
Anexo: AndreaDinizSilvaTese2018
Área de Concentração: POPULAÇÃO, TERRITÓRIO E ESTATÍSTICAS PÚBLICAS
Linha de Pesquisa: PRODUÇÃO DE ESTATÍSTICAS PÚBLICAS
Projeto de Pesquisa:

 

Compartilhe!