Com a ajuda de várias experiências de tentativa e erro em um ambiente em mudança, um agente computacional pode aprender a completar uma tarefa usando uma técnica de machine learning chamada aprendizado por reforço. Com o uso dessa estratégia de aprendizado, o agente pode concluir a tarefa sem assistência humana e sem ser explicitamente programado para isso, escolhendo um conjunto de ações que maximizará uma medida de recompensa. Ao contrário do aprendizado supervisionado, o aprendizado por reforço usa feedback para treinar o agente de forma autônoma, sem o uso de dados rotulados. O agente só pode aprender com sua própria experiência, pois não há dados rotulados. Uma classe específica de problemas, como aqueles em robótica, jogos e outras empreitadas de longo prazo, são resolvidos com RL. O agente interage com o ambiente e o explora por conta própria. No aprendizado por reforço, o principal objetivo de um agente é maximizar o reforço positivo enquanto se sai bem. É um componente fundamental da inteligência artificial, e o conceito de aprendizado por reforço é a base para todos os agentes de IA.
O que é Aprendizado por Reforço?