Estudo aprimora a transferência de aprendizado em machine learning

Pesquisador desenvolve algoritmo original para desenvolver formas de usar conhecimento já adquirido no aprendizado de novas tarefas

Foto: Divulgação

Com a quantidade crescente de dados e recursos computacionais disponíveis, o campo de pesquisa em aprendizado de máquina (machine learning) e inteligência artificial (IA) avançou notavelmente nos últimos anos. Porém, apesar dos ganhos nas áreas de reconhecimento de imagem, processamento de linguagem, mecanismos de recomendação e robótica, o maior progresso foi alcançado com algoritmos focados em aprender apenas uma única tarefa, sem levar em conta a possível reutilização da tecnologia para outras finalidades.

Foi pensando nisso que um estudo da Escola Politécnica da USP buscou desenvolver formas de usar o conhecimento já adquirido anteriormente no aprendizado de novas tarefas, na chamada transferência de aprendizado (ou transfer learning). Graças a aplicação da metodologia de raciocínio baseado em casos (CBR – case-based reasoning) a agentes autônomos de aprendizagem por reforço profundo (DRL – deep reinforcement learning), foi possível criar uma estrutura para a preservação e reutilização do conhecimento. A partir daí, foi elaborado um algoritmo específico e original para a transferência do aprendizado, validado posteriormente em avaliações experimentais em jogos do Atari, como Atlantis e Pong.

“Sempre fui fascinado por agentes autônomos, sejam carros inteligentes ou softwares de conversação”, afirma Ruben Glatt, doutor em machine learning e pesquisador responsável pelo estudo. Apesar do progresso recente na área ter tornado possível abordar tópicos mais complexos, o aprendizado ainda demanda muito tempo e recursos computacionais, o que levou Ruben a buscar formas de aproveitar ao máximo o que já havia disponível. “No passado, a maior parte do conhecimento era descartado depois de superar a única tarefa designada. Por isso parecia natural investigar maneiras de reutilizá-lo de maneira estruturada”, explica Ruben.

Organização do trabalho e referências

Basicamente, o trabalho usou a metodologia CBR como estrutura de orientação na criação de uma biblioteca, com conhecimento específico das tarefas ao longo do tempo e com políticas de comportamento para os agentes de aprendizado. Uma política fornece a um agente o comportamento que ele deve executar para atingir um determinado objetivo, em todas as situações. Em termos mais simples, a política descreve quais etapas devem ser seguidas para o agente alcançar seu objetivo. Já a biblioteca armazena conhecimentos que possam ser benéficos para a tarefa atual que queremos ensinar a máquina.

“Toda política recém-aprendida é, então, comparada ao conteúdo já armazenado para decidir se mantê-la melhoraria a qualidade da biblioteca”, explica o pesquisador. A ideia é armazenar conhecimento o mais distinto possível na biblioteca, construindo uma base crescente que possua pouco ou nenhum aprendizado duplicado. Isso também é essencial para evitar a chamada “transferência negativa”, situação em que um agente reutiliza um conhecimento que, em vez de ajudá-lo, tem o efeito oposto e torna mais difícil seu aprendizado. “É a mesma coisa quando ao pedir orientação a alguém, a pessoa o envia para o lado errado. Você ainda poderá alcançar seu objetivo, mas isso obviamente afeta seu trajeto e leva mais tempo para chegar lá”.

Sendo algo extremamente recente na engenharia de computação, a área de machine learning ainda dispõe de poucos trabalhos publicados sobre aprendizado profundo (deep learning) e transferência de aprendizado. Um deles, chamado Attend, Adapt and Transfer (A2T), publicado em 2017, foi até considerado como referência no trabalho de Ruben, embora o pesquisador tenha ido além desta metodologia ao criar uma forma de verificar se o conhecimento reutilizado é realmente benéfico para uma nova tarefa. “Além disso, o A2T oferece uma arquitetura menos flexível para lidar com diferentes tamanhos de biblioteca”, relata Ruben.

Avaliação experimental com Atari

Com base nessa estrutura, foi elaborado o algoritmo Inferência de Políticas Baseada em Casos Profundos (ou Deep Case-based Policy Inference – DECAF), demonstrando em uma avaliação experimental a utilidade da abordagem para o aprendizado de tarefas sequenciais com preservação e reutilização de conhecimento. O algoritmo foi aplicado em jogos, como o Atlantis e Pong, em um ambiente simulador do vídeo game Atari, com testes de parâmetros de inicialização, do aprendizado das políticas e de variáveis na biblioteca, além das tarefas a serem aprendidas, pré-selecionadas levando em conta sua similaridade.

“O uso do ambiente do Atari é padrão para o deep reinforcement learning, pois ele permite ter uma boa ideia de como nosso algoritmo está se saindo em comparação com outros que usam técnicas semelhantes”, explica Ruben. O teste é muito simples: o agente de aprendizado é disposto em um dos jogos para jogar, com os pesquisadores observando o resultado que esse agente obtém ao longo do tempo. Especificamente sobre o jogo Pong, a simplicidade das regras e da estrutura de resultados facilita a visualização da performance, o que o torna um ambiente de testes muito bom para qualquer tipo de algoritmo.

“Penso que o algoritmo DECAF é uma boa ideia para acumular conhecimento ao longo do tempo, funcionando bem na teoria. Em implementações práticas, pode ser mais difícil reutilizar o conhecimento dessa maneira, porque em tarefas muito complexas se torna cada vez mais difícil determinar a semelhança das tarefas e políticas”, explica Ruben. “Além disso, o DECAF possui algumas limitações quando se trata da quantidade de conhecimento que pode ser retida. Seria necessária uma maneira melhor de compactar o conhecimento e generalizar melhor as tarefas para garantir que a biblioteca não cresça muito”.

Desdobramentos

Ainda assim, os ganhos e avanços do trabalho são inegáveis. Partes da tese foram publicadas e apresentadas em conferências e a estrutura do DECAF já está em revisão para uma publicação em um periódico da área. O trabalho também permitirá avanços em sistemas multi-agentes, área de atuação de Ruben no momento, onde os agentes buscam aprender a resolver uma determinada tarefa de forma conjunta ao mesmo tempo, em uma configuração cooperativa onde eles possam trocar informações ou compartilhar um modelo de aprendizado. Dado o caráter inovador, Ruben foi convidado a dar continuidade em seu trabalho nos EUA.

“Durante o último ano do meu doutorado na USP, várias empresas e instituições com vagas em aberto entraram em contato comigo. Uma delas era o Laboratório Nacional Lawrence Livermore, que é um dos principais laboratórios de pesquisa do mundo”, conta. Após um longo processo de entrevistas on-line e presenciais na Califórnia, Ruben recebeu uma oferta para assumir uma posição de pesquisador de pós-doutorado no Machine Learning Group. “A grande variedade de áreas de pesquisa interessantes e a localização na baía de São Francisco foram argumentos convincentes para aproveitar esta oportunidade, para fazer novas experiências nos EUA e se aproximar das empresas mais inovadoras do mundo”.

Seja o primeiro a comentar

Faça um comentário

Seu e-mail não será divulgado.


*