Bases de dados confiáveis são fundamentais para qualquer análise, com people analytics isso não é diferente. Os dados de pessoas fornecem o suporte necessário para melhoria contínua do negócio, pois permitem avaliar de forma interativa as políticas e processos para atingir as melhorias desejadas.
Então como garantir que os dados sejam confiáveis e assegurem a conformidade com a LGPD? Geralmente os Engenheiros de Dados têm esse papel. Os engenheiros de dados são responsáveis pelo tratamento dos dados brutos da empresa.
Primeiramente é importante garantir que os dados trafegados para representar a mesma informação sejam os mesmos entre os sistemas (isso evita tratamentos desnecessários e custosos). Além disso, é necessário um banco de dados com regras de segurança aplicadas, de modo que somente pessoas autorizadas consigam acessá-los … ahhh…essas regras de segurança podem ser aplicadas tanto no firewall da empresa quanto no próprio banco, okay?
Com o seu banco de dados disponível e seguro, é hora de colocar a “mão na massa”…. vamos fazer a integração com esse banco. Por integração de banco de dados, entende-se o gerenciamento centralizado desses dados. Os fornecedores dos sistemas de RH, disponibilizam formas de extrair esses dados: agendamento programado de geração de arquivos, serviços de transferência de arquivos (FTP) e, o mais comum, via Application Programming Interface (API). A Application Programming Interface permite conectar através de uma chave de acesso aos dados gerados em suas plataformas. Exemplo de fornecedores com API: GUPY, Kenoby, UNICO, Xerpa, Sênior, ADP, entre outros.
As APIs podem ser utilizadas através de várias linguagens de programação: Python, Java, Node, Ruby. É recomendado o uso dessa tecnologia ao invés de deixar arquivos “soltos” e sem criptografia em diretórios da rede da empresa, pois outros profissionais da empresa não autorizados poderão acessá-lo … lembre-se da LGPD.
Vale ressaltar que a documentação disponibilizada pelos fornecedores dessas APIs nunca é suficiente… Customizações são comuns e identificar o que cada dado representa e contexto em que estão inseridas é sempre válido…. por isso valide com a área de negócio as origens dos input de dados.
Utilizar os dados carregados (ingeridos) no banco de dados diretamente da API não são suficiente, ainda são necessários outros tipos de tratamentos nesses dados e, isso é feito na etapa do ETL (Extract Transform Load). Existem várias ferramentas específicas de ETL no mercado, sejam elas pagas: Oracle Data Integrator, ODI (Oracle), DataStage (IBM), Integration Services, SSIS (Microsoft), PowerCenter. Ou gratuitas: Talend, Pentaho, entre outras.
Além dessas ferramentas, pode-se utilizar também alguma linguagem de programação, uma das mais utilizadas para realizar esses tratamentos é o Python. O Python tem como vantagem proporcionar maior liberdade nos tratamentos de dados estruturados e não-estruturados, uma vez que é possível combinar várias bibliotecas de forma totalmente gratuita.
Os tratamentos geralmente são realizados: agrupamentos de informações, colocar campos calculados, traduções dos valores dos campos e correlação de dados de outros sistemas. E claro, esses tratamentos são realizados conforme alinhamentos realizados com a área de negócio.
Uma vez os tratamentos realizados, essas bases serão disponibilizadas para análises e insights mais complexos desenvolvidos pelos analistas e cientistas de dados do time.
Erika Midori
Doutoranda e Mestre em Informática e Gestão do Conhecimento pela Uninove e graduada em Análise e Desenvolvimento de Sistemas pelo Instituto Federal de São Paulo(IFSP), atua com People Analytics no PicPay.