Allan V. C. Quadros - Junho, 2019
W. Edwards Deming
É um campo multidisciplinar que utiliza métodos científicos, processos, algoritmos e sistemas para extrair conhecimento e insights tanto de dados estruturados quanto não-estruturados.
dados estruturados
? ..tabelas, banco de dados..
dados não-estruturados
? ..páginas de internet, ex: redes sociais..
algoritmos? ..conjunto de rotinas.. \(\rightarrow\) programação
(1º passo - Módulos I e II)
Fonte: fusionanalytics.com
Programação
= linguagem como qualquer outra
No caso, a que os computadores e máquinas entendem
Voluntário ?
Por que programar e não utilizar apenas
Excel e outros aplicativos point & click?
1) Maior controle sobre o que o programa faz -- ex: bug 17/15 dígitos Excel
2) Maior segurança ao compartilhar e produzir informação -- ex: alterações erradas em tabelas/compartilhar código e não tabela
3) Uma vez aprendida a linguagem, há economia de tempo -- ex: fácil mudar elementos
4) Você pode fazer muito mais coisas -- ex: extração de dados da página do FNDE
Acidente com o AF447 (2009-2011)
O caso Challenger (1986)
sistemas de recomendação;
reconhecimento facial (desde aplicação policial até diversão no celular: snapchat);
detecção de doenças;
detecção de exoplanetas;
detecção de fraudes (cartão de crédito);
pioneiros:
soluções:
Outras ...
Nem tudo foi nem será aproveitado, mas o importante é ter a liberdade
de tentar/buscar soluções para os problemas
.
aplicativo para fiscalização das faturas dos AF do Fies
mensalmente: taxa de administração da carteira de financiamento
fatura + base de dados dos alunos (+ 1,7 milhão linhas cada)
valor anual total das faturas ultrapassa R$800 milhões/ano
antes: conferência pro-forma ("amostragem") sem base de referência MEC
indagações constantes de TCU/CGU
Projeto FisFa estruturou base de dados do MEC
tempo de análise: de 2 semanas para < 1 minuto
confiabilidade/robustez
total de economia: > R$ 200 milhões
Programado em R
internalizando as regras contratuais
2 prêmios: CGU (2016) e ANGC (2018)
entram 35 mil prestações de contas (PC)
capacidade de análise: ~ 3,5 mil/ano*
permitirá
:
\(\space\) eliminar passivo de mais de 290 mil PC (em 5 anos*)
\(\space\) economia de mais de R$ 3 bilhões
\(\space\) economia de mais de meio século de trabalho
taxa de acerto: 90%
Como resolver?
Utilizar um modelo de classificação (regressão logística)
Feito no com e !!
Apresentação disponível noem:
allanvc.github.io/talk_DS_FNDE/
Contato:
Allan V. C. Quadros