Gerência de dados para auxiliar a explicação de resultados em aplicações de Ciência de dados

Chamada MCTIC/CNPq No 28/2018 – Universal/Faixa C

A área de ciência de dados caracteriza-se pelo uso de métodos científicos para validar hipóteses. Dados de diversos tipos e formatos são gerados e analisados por meio de algoritmos e sistemas específicos, voltados para a natureza dos dados em questão. Com o aumento do volume e da necessidade de análises específicas sobre dados de todos os tipos e formatos, surgiram diversos sistemas com processamento paralelo de alto desempenho voltados para essas especificidades que geram dados em arquivos e isolados entre si. Como resultado, temos hoje vários sistemas geradores de dados separados de sistemas de análise de dados que funcionam sem nenhum tipo de integração. Os resultados a serem usados na validação de hipóteses se tornam muitas vezes caixas-pretas de difícil investigação. Tentar buscar e relacionar fontes de dados envolvidas na obtenção do resultado após o processamento, além de custoso, pode não ser possível. Este projeto visa ao desenvolvimento de uma solução centrada em dados para facilitar análises de resultados de ciência de dados. A contribuição original do projeto está em se antecipar às análises, visando à interpretação de resultados. Pretende-se realizar a captura e representação de um mapa global de conjuntos de dados e suas transformações ao longo de programas paralelos de ciência de dados, com ênfase no domínio de dados científicos. Essa captura deve funcionar como um serviço a ser invocado por sistemas geradores de dados e resultados. Esses serviços de captura e registro não interferem na geração em si dos dados, são opcionais e a granularidade da captura e registro deve ser flexível. Como resultado, pretende-se gerar uma visão global, reduzida, do grande volume de dados distribuídos sendo gerado, junto à sua proveniência. Por meio desta visão global, dados podem ser analisados e monitorados durante e após a geração do resultado de validação da hipótese a ser verificada com a ciência de dados..

Integrantes: Marta Lima de Queiros Mattoso – Coordenador / Daniel de Oliveira – Integrante / Valduriez, Patrick – Integrante / Flavia Delicato – Integrante / Paulo de Figueiredo Pires – Integrante.