Microdata fusion: a statistical matching application for the integration of the EWCS and QPS

Microdados referem-se a bases de dados em que a microunidade constitui o elemento central de análise – indivíduos, famílias ou empresas. Estes dados são tradicionalmente recolhidos através de inquéritos, censos ou dados administrativos e permitem que utilizadores/investigadores analisem uma gama ampla de tópicos e relações entre subpopulações. As características dos dados são geralmente determinadas pelo objetivo orientador da recolha dos mesmos. Como tal, habitualmente, não cobrem todas as dimensões de análise em profundidade, o que cria a necessidade de recolha de informação através da realização de novos e dispendiosos inquéritos ou outros métodos de recolha de dados.

Em resposta a este problema, têm surgido vários métodos que procuram utilizar a informação existente dispersa por várias bases de dados. Este tipo de métodos procuram a integração de várias bases de dados, através de um conjunto de variáveis comum entre elas. Este documento apresenta uma análise dos métodos habitualmente utilizados para a integração de informação dispersa em microdados, com particular destaque na identificação da viabilidade de integração do Inquérito aos Quadros de Pessoal (QPS) e do Inquérito Europeu às Condições de Trabalho (EWCS). As técnicas aqui consideradas enquadram-se em três categorias distintas: (1) paramétricas; (2) não paramétricas; e (3) misto.

Os resultados desta análise sugerem que o EWCS e os QPS podem ser integrados com sucesso através de métodos de correspondência estatística. Como esperado, existe um custo de integração associado a este procedimento, que se reflete nas distribuições probabilísticas da nova base de dados sintética. De forma a integrar com sucesso as duas fontes de informação, é necessário proceder a um extenso procedimento de harmonização, que exige a agregação de algumas das variáveis continuas, que se traduz numa perda implícita da especificidade da informação contida nas bases de dados. Por último, derivado dos requisitos computacionais associados, não foi possível otimizar o processo de correspondência. A otimização ideal deveria ser obtida através de um algoritmo que resolve o problema de atribuição. No entanto, foi utilizada uma abordagem heurística para a otimização do nosso problema que minimiza as distâncias entre indivíduos nas duas bases de dados através de uma iteração sequencial.

Autores: Luís Manso, Jena Santi

Anterior
Anterior

Os salários em Portugal: padrões de evolução, inflação e desigualdades

Próximo
Próximo

Trabalho e Desigualdades no Grande Confinamento II: desemprego, layoff e adaptação ao teletrabalho