O futuro está nos dados e outros destaques do KDD 2018

O futuro está nos dados e outros destaques do KDD 2018

É muito bom estar em um ambiente e ter a sensação de estar imerso no que há de mais avançado quando se fala de ciência de dados. Foi o que experimentei no KDD 2018, um dos maiores eventos de mineração de dados e machine learning do mundo, realizado em Londres recentemente. Melhor ainda é ver como o futuro aponta para um uso cada vez mais inteligente dos dados, embora a preocupação com segurança e mão de obra qualificada também esteja crescendo. Fiquei impressionado com tudo que vi e fiz este resumo para gerar ideias e debates também por aqui.

Para dar um contexto rápido, eu estava entre os mais de 3.300 inscritos, vindo de quase 100 países especialmente para o KDD. Este ano o evento foi em Londres, lugar muito forte em empresas de inteligência artificial: são mais de 750 negócios na área. Tive a honra de conversar com pessoas como Usama Fayyad, a quem fiz referência na minha dissertação de mestrado e minha tese de doutorado. O perfil do KDD também mudou um pouco, com mais integração entre academia e mercado, o que me permitiu ter contato com cientistas de dados e executivos de várias grandes empresas do nosso dia a dia, como AWS, Google, Microsoft, Facebook, além da japonesa NEC — inclusive, o mercado de IA está sendo dominado pelos asiáticos; os chineses, em especial, estão por toda parte. O KDD Cup, por exemplo, foi dominado por eles. Dos mais de 4 mil inscritos, os sete grupos melhores colocados foram asiáticos. 

Reuni alguns pontos bem bacanas abordados por lá e queria conversar com vocês sobre eles:

Pague suas contas com seus dados

Percebi que a crescente preocupação com privacidade é também um reflexo do aumento da importância deles. No futuro, o consumidor vai definir se vai ou não vender os seus dados ― e para quem ele vai vender. Um exemplo dado pelo Nobel de Economia Alvin Roth é algo que já acontece pontualmente nos EUA: o que cliente tem desconto na farmácia se compartilhar seus dados médicosJeannette M. Wing, ex-VP da Microsoft e diretora de Data Science da Columbia University, reforçou algo que ela tem avisado nos últimos dois anos:

O ideal seria que o consumidor pudesse monitorar os seus próprios dados e tivesse controle sobre onde e como eles são usados. Hoje as empresas sabem mais de nós do que nós mesmos.

Por isso os especialistas entendem que vai ser um movimento muito impactante no mundo quando os consumidores passarem a ganhar dinheiro com seus dados, algo que fica para as grandes empresas atualmente.

 

Procuram-se cientistas de dados

Outro tema que foi muito abordado foi a grande demanda por profissionais da área de Data Science, no mundo inteiro. No LinkedIn, “Machine Learning Engineers”, “Data Scientists” e “Big Data Engineers” estão entre as vagas de trabalho que mais crescem em demanda e, hoje, são quase 2 mil postos de trabalho abertos. Só para se ter uma ideia, de 2012 até agora, esse tipo de habilidade teve um crescimento de 650%, com mais de 35 mil pessoas atuando nessas atividades. Uma pesquisa recente da IBM aponta que a procura vai crescer mais 30% nos próximos dois anos. Outro levantamento fala em cerca de 250 mil vagas até 2024. Esse assunto vai render um novo artigo meu em breve, aguardem.

O pulo do gato é usar dados diferentes para ajudar o algoritmo

Fiquei feliz em ver, lá em Londres, entre grandes nomes da inteligência artificial, a confirmação do que temos feito por aqui no Brasil. Uma dessas coisas foi a importância da simplicidade das soluções para o início do funcionamento dos algoritmos na prática. Muitas vezes se perde tempo tentando fazer algoritmos muito sofisticados, enquanto o grande pulo do gato, o grande ganho está no uso e processamento dos dados. Várias palestras e vários artigos confirmaram o que já fazemos na Neurotech:

 É muito melhor focar em coletar dados diferentes para o algoritmo aprender do em um algoritmo complexo.

 No KDD Cup - competição de Machine Learning promovida pelo evento, com mais de 4 mil times -, os primeiros colocados tiveram como diferencial a coleta de dados externos para vencer a competição. 

Nessa área técnica, outro destaque é a queda, cada vez mais comum, da métrica KS (Kolmogorov–Smirnov). Apesar de ainda muito popular no Brasil e de o pessoal daqui ter se acostumado, é uma métrica ruim e ninguém usa no âmbito científico e aplicado. O mercado e a academia estão usando outras outra métricas, como Precision, Recall, Curva ROC e Gini. Vou falar com mais detalhes sobre isso em outro artigo.

Gradient Boosting e Deep Learning

Se é para escolher um algoritmo, sem dúvidas que Gradient Boosting para classificação e Deep Learning para reconhecimento de imagem, linguagem natural e séries temporais dominaram completamente o evento. Gradient Boosting porque as competições e trabalhos científicos relativos à classificação estão aplicando Gradient de forma massiva. Já Deep Learning sendo muito usado com performance bem superior aos outros algoritmos para processamento de imagem, carros autônomos, processamento de linguagem natural e séries temporais.