Machine Learning é uma área relativamente nova e complexa. Mas isso não significa que não pode ser cada vez mais simplificada. E, na Neurotech, a gente consegue isso se impondo o desafio de deixar os processos cada vez mais lean, ou seja, mais enxutos, mais inteligentes, mais ágeis. Essa postura começou até antes do conceito lean ser popularizado pelo movimento de startups. Como algumas pessoas me perguntam como conseguimos fazer isso, resolvi detalhar aqui.
Em 2003, vendo a dificuldade de desenvolver soluções de Machine Learning que funcionassem na prática (já que a maioria dos projetos falhava), resolvemos criar na Neurotech uma metodologia para criação de soluções em Machine Learning. Metodologia essa que foi muito baseada nas melhores práticas do mercado internacional, mas com o foco também de trazer um pouco a realidade brasileira.
Pois bem, criamos os 9 passos descritos abaixo (em resumo). Eles mostram como sair do entendimento do negócio até a entrada em produção usando soluções de IA.
Se tiver dúvidas sobre os papéis, escrevi um artigo falando sobre squads de alto desempenho em Ciência de Dados. Confira aqui.
Pois bem, posso dizer que a metodologia ou processo, sintetizada em um manual ou playbook, nos ajudou muito a padronizar, treinar e entregar valor para os nossos clientes. É essencial que cada etapa seja sempre revisada à medida que o tempo passa e que novas tecnologias apareçam.
Por volta de 2009, em paralelo ao momento das startups, surgiram novas metodologias baseadas no lean, como o Lean Startup (Steve Blank e Eric Ries), com a mentalidade de entregar valor o mais rápido possível (“Se você não tiver vergonha da sua primeira versão do seu produto no lançamento, é porque você demorou muito para lançar” – Reid Hoffman). Ao mesmo tempo, novas tecnologias como Deep Learning começaram a surgir e, juntas, ganharam força sob o chamado Automatic Feature Engineering.
A reflexão que vinha era como podemos fazer isso no mundo de Ciência de Dados?
E o desafio que veio em seguida foi fazer com que a metodologia criada, usada e
evoluída desde 2003, entregasse ainda mais valor?
A resposta para essa pergunta sempre esteve com a gente. Em 2006, ao receber a visita de um grande banco em Recife, criamos o que ficou chamado de “Rodada de Almoço”. O cliente chegou até a nossa sede, nos entregou uma base de dados no início do dia e, ao final do almoço, quando voltamos para Neurotech, o modelo de Machine Learning, na época uma combinação de regressão logística com Redes Neurais Backpropagation, já estava com os resultados.
A Rodada de Almoço passou a ser um mantra na Neurotech. Assim que recebemos a base, rodamos um modelo para ter um “cheiro” do resultado. Isso significava passar por todas as etapas rapidamente para entender o valor da solução o mais rápido possível. Depois do “cheiro”, saberíamos o quão longe ou perto estávamos do resultado final desejado pelo cliente na etapa de levantamento.
Pois bem, com a criação do NeuroLake em 2015, em que o Machine Learning era disponibilizado como serviço na nuvem e não mais on premise (dentro da casa do cliente), nos perguntamos: será que a Rodada do Almoço poderia virar uma Rodada do Cafezinho? Será que, na verdade, tudo poderia ser automatizado e a entrega de valor, que antes acontecia em 1 dia, passaria a ser em 1 hora? A resposta é simples:
Sim, nos desafiamos mais uma vez e
criamos modelos automatizados de Machine Learning.
Em poucas horas ou minutos (depende do tamanho da base de dados), saímos do dado bruto ao modelo em produção. Claro, entrar em produção depende de uma revisão humana , mas já estamos preparados para sair dos dados brutos para o modelo em produção em questão de minutos/horas. Então, acredito que podemos, sim, dizer que Lean Machine Learning é realidade!
Na Rodada do Cafezinho, assim como nos demais modelos, basicamente o tempo depende do processamento de máquina — que, como já falei em outros posts, demorava 2 semanas em 2003 para treinar um modelo com 50 mil linhas e 100 variáveis e hoje leva poucas horas/minutos para treinar com 12 milhões de linhas e milhares de variáveis.
Com todas essas evoluções, não tem como não pensar: qual vai ser o papel do cientista de dados no futuro? Para mim, principalmente entender o negócio (a dor do cliente) e conseguir “juntar” os blocos de Machine Learning disponíveis para resolver o problema.
E você, o que acha? Já faz treinamento automático na sua empresa? O quão longe está?
Fonte: Lean Machine Learning