Allan V. C. Quadros - Junho, 2019
W. Edwards Deming
É um campo multidisciplinar que utiliza métodos científicos, processos, algoritmos e sistemas para extrair conhecimento e insights tanto de dados estruturados quanto não-estruturados.
dados estruturados? ..tabelas, banco de dados..
dados não-estruturados? ..páginas de internet, ex: redes sociais..
algoritmos? ..conjunto de rotinas.. \(\rightarrow\) programação (1º passo - Módulos I e II)

Fonte: fusionanalytics.com
Programação = linguagem como qualquer outra
No caso, a que os computadores e máquinas entendem
Voluntário ?
Por que programar e não utilizar apenas Excel e outros aplicativos point & click?
1) Maior controle sobre o que o programa faz -- ex: bug 17/15 dígitos Excel
2) Maior segurança ao compartilhar e produzir informação -- ex: alterações erradas em tabelas/compartilhar código e não tabela
3) Uma vez aprendida a linguagem, há economia de tempo -- ex: fácil mudar elementos
4) Você pode fazer muito mais coisas -- ex: extração de dados da página do FNDE


Acidente com o AF447 (2009-2011)
O caso Challenger (1986)
sistemas de recomendação;
reconhecimento facial (desde aplicação policial até diversão no celular: snapchat);
detecção de doenças;
detecção de exoplanetas;
detecção de fraudes (cartão de crédito);
pioneiros:
soluções:



Outras ...
Nem tudo foi nem será aproveitado, mas o importante é ter a liberdade de tentar/buscar soluções para os problemas.
aplicativo para fiscalização das faturas dos AF do Fies
mensalmente: taxa de administração da carteira de financiamento
fatura + base de dados dos alunos (+ 1,7 milhão linhas cada)
valor anual total das faturas ultrapassa R$800 milhões/ano
antes: conferência pro-forma ("amostragem") sem base de referência MEC
indagações constantes de TCU/CGU
Projeto FisFa estruturou base de dados do MEC
tempo de análise: de 2 semanas para < 1 minuto
confiabilidade/robustez
total de economia: > R$ 200 milhões
Programado em R internalizando as regras contratuais
2 prêmios: CGU (2016) e ANGC (2018)
entram 35 mil prestações de contas (PC)
capacidade de análise: ~ 3,5 mil/ano*
permitirá:
\(\space\) eliminar passivo de mais de 290 mil PC (em 5 anos*)
\(\space\) economia de mais de R$ 3 bilhões
\(\space\) economia de mais de meio século de trabalho
taxa de acerto: 90%

Como resolver?

Utilizar um modelo de classificação (regressão logística)
Feito no
com
e
!!
Apresentação disponível no
em:
allanvc.github.io/talk_DS_FNDE/
Contato:
Allan V. C. Quadros