Na ciência dos dados existem várias áreas de investigação, entre as quais a Reinforcement Learning (RL). Com o avanço da Deep Learning, grandes quantidades de dados já não representam uma dificuldade e surgiram novos modelos de treino de algoritmos, tais como o já referido RL.

Este é o terceiro método que foi desenvolvido, pelo qual os algoritmos aprendem por si próprios, após aprendizagem supervisionada e não supervisionada, Aprendizagem Mecânica. Está actualmente a atrair um interesse considerável na formação de robótica industrial.

Baseia-se na obtenção de recompensas ao aprender uma nova tarefa, ou seja, consiste em modelos de formação para a tomada de decisões sem requerer dados para condicionamento. Assim, os dados são gerados através de um método de tentativa e erro, onde são marcados com um rótulo. Durante várias fases de treino o algoritmo recebe etiquetas de recompensa quando executa a função correcta. Depois de repetir a experiência e verificar as recompensas recebidas, aprende por si só.
Em suma, é uma aprendizagem autónoma através da qual aprende a acção a ser executada quando interage com o ambiente, recebendo sinais de erro ou recompensas em função das acções realizadas. Ou seja, o sistema procura encontrar a tomada de decisão mais eficiente que lhe permita maximizar as recompensas.

Aplicações

As aplicações da RL são vastas e diversificadas, desde o financiamento, sistemas de recomendação até à robótica. Abaixo estão alguns casos de aplicação que estão a ser explorados:

  • Automatização da indústria com RL

Os robôs que utilizam este tipo de aprendizagem na indústria podem ser utilizados para diferentes acções. Por exemplo, agentes de IA para arrefecer centros de dados sem intervenção humana.

O Google tem sido um dos pioneiros na implementação deste método de aprendizagem de máquinas. Para poupar grandes quantidades de energia, a Google utiliza RL para controlar os fluxos de ar condicionado para os seus centros de dados, a fim de arrefecer os seus servidores.

Outro caso interessante de utilização é o dos modelos de séries cronológicas supervisionadas para prever vendas futuras. Assim, quando se trabalha com um agente RL, a decisão de comprar ou vender em bancos de investimento pode ser tomada. O modelo RL é avaliado utilizando referências de mercado para assegurar o seu desempenho. A IBM, por exemplo, tem uma plataforma de negociação financeira que calcula a recompensa com base nos lucros ou perdas de cada transacção utilizando RL.

  • RL em PNL

Esta tecnologia é também muito útil na geração de respostas, leituras de texto e traduções. A sua operação nesta área consiste em seleccionar partes importantes de um texto e através de um RNN gerar respostas às palavras-chave do texto.

Portanto, permite a geração de conversas, obtendo recompensas através de palavras em combinação com chatbots. A formação neste método é realizada entre dois agentes virtuais utilizando técnicas de recompensa, detectando a consistência e o cumprimento das regras, bem como as respostas adequadas.

  • Melhoria da aplicação com RL

Nesta área, o Facebook desenvolveu uma plataforma RL de código aberto, conhecida como Horizon, para optimizar sistemas de produção em grande escala. Com Horizon, podem ser feitas melhorias tais como a personalização de sugestões e melhorias de streaming.

Horizon também é capaz de trabalhar em ambientes simulados, plataformas distribuídas e sistemas de produção, para que a utilização de RL em diferentes aplicações possa melhorar o seguimento dos utilizadores e, portanto, optimizar o CX.

  • RL em Jogos de Vídeo

Os videojogos são ideais para RL, pois incluem diferentes ambientes de simulação e opções de controlo. Geralmente, o método de funcionamento dos jogos de vídeo é apresentar um problema e forçar o jogador a resolvê-lo através de tarefas complexas, obtendo pontuações ou recompensas em troca. RL aprende jogando contra si próprio para melhorar a experiência do utilizador.

  • Manipulação Robótica

Para linhas de montagem, por exemplo, a utilização de RL permite reforçar as capacidades de apreensão de objectos de um robô, de modo a que um modelo seja primeiro treinado off-line e depois implantado, corrigindo falhas até ser atingido o desempenho adequado do robô real. Esta abordagem é conhecida como QT-Opt, concebida para agarrar robots.

Amazon em Reinforcement Learning

A Amazon desenvolveu a ferramenta SageMaker Reinforcement Learning (RL) Kubeflow Components, um conjunto de ferramentas compatível com o serviço AWS RoboMaker da empresa para orquestrar fluxos de trabalho robotizados.

Esta grande empresa viu-se confrontada com a necessidade de criar uma estrutura para treinar, sincronizar e implantar eficazmente modelos RL face ao seu boom ML. SageMaker e RoboMaker fornecem esta estrutura para o desenvolvimento de robôs e novos algoritmos que impulsionam a IA.

O add-on SageMaker foi concebido para gerir mais rapidamente as cargas de trabalho robotizadas, criando soluções de ponta a ponta sem ter de as reconstruir cada vez que um determinado modelo necessita de ser treinado. Neste sentido, a RL é ideal para ajudar a desenvolver soluções para as dificuldades e problemas que se estão a acumular cada vez mais no campo da robótica.

Woodside é uma das empresas que tem usado RoboMaker com operadores SageMaker para treinar os seus robôs usando modelos RL para lidar com as suas tarefas mais perigosas e repetitivas.

Utilizaram RL usando RoboMaker e SageMaker para uma plataforma robótica, cuja função é realizar um procedimento de eliminação de bombas. Este procedimento exige voltas manuais de diferentes válvulas numa determinada ordem. Para realizar o desenvolvimento, foram utilizados estados conjuntos e vistas de câmara para definir os movimentos óptimos a serem realizados pelo robô.

Desafios

O uso de RL apresenta desafios significativos nas áreas de simulação ambiental, a escolha do algoritmo adequado e a afinação de parâmetros. Relativamente à simulação do ambiente, os modelos RL devem interagir com ele, mas em casos como a optimização energética ou aplicações para automóveis autónomos e robótica, a sua concepção é complexa. Assim, é necessário investir no cuidado dos detalhes da criação do ambiente, a fim de treinar correctamente os algoritmos.

Além disso, a escolha do algoritmo apropriado é fundamental face à grande variedade de modelos RL, porque têm vários hiperparâmetros e cada um deles tem uma abordagem diferente. As métricas necessárias para o desempenho do algoritmo devem ser avaliadas.

Finalmente, se o ambiente não for bem definido e cuidado, o algoritmo pode ficar preso num ponto, conhecido como o dilema da exploração-exploração. Com cada formação o algoritmo aprende mais sobre o seu ambiente.

Conclusões

Actualmente, a Reinforcement Learning é uma área de investigação que está gradualmente a fazer progressos significativos dentro da Machine Learning para optimizar diferentes campos e implementar a sua utilização diária.

Este tipo de aprendizagem de máquinas centra-se em problemas complexos através de uma abordagem de tentativa e erro. Sem dúvida, a RL pode ser aplicada em diferentes campos, desde finanças a sistemas de recomendação a jogos de vídeo ou robótica.

No entanto, também se deve ter em conta que se trata de um método que requer sessões de treino de simulação, a fim de receber recompensas reais no futuro. Em qualquer caso, a aprendizagem de reforço é um método de aprendizagem mecânica que permite resolver problemas cada vez mais complexos e controlar uma grande variedade de processos.

Em última análise, o objectivo é que a IA seja capaz de resolver problemas de forma autónoma sem receber instruções prévias dos humanos. Este método revela-se mais rápido e mais eficiente, e espera-se que obtenha melhores resultados do que os alcançados até agora pela aprendizagem convencional de máquinas.