Inteligência Artificial - Aprendizado por Reforço
- Nesky

- 13 de jan. de 2025
- 2 min de leitura

APRENDIZADO POR REFORÇO
O Aprendizado por Reforço (AR) é uma subárea da Inteligência Artificial (IA) em que um agente aprende a tomar decisões sequenciais, interagindo com um ambiente, com o objetivo de maximizar uma recompensa acumulada ao longo do tempo.
O agente toma ações no ambiente, recebe feedback (ou recompensas) e ajusta seu comportamento de acordo, de modo a melhorar suas escolhas futuras. Esse processo é baseado em um modelo de tentativa e erro.
Elementos do Aprendizado por Reforço
Agente
O agente é a entidade que toma decisões e executa ações no ambiente. Ele observa o estado atual do ambiente e escolhe uma ação com base em seu conhecimento e estratégia de aprendizado.

Ambiente
O ambiente é o mundo em que o agente interage. Ele pode ser o próprio sistema que está sendo controlado ou simulado, como um jogo, um robô movendo-se em um espaço, ou um processo de negócios.

Estado (s)
O estado é uma representação da situação atual do ambiente. Pode ser qualquer coisa que descreva o contexto em que o agente se encontra em um momento específico.

Ação (a)
A ação é o movimento ou decisão que o agente toma para interagir com o ambiente. O conjunto de todas as ações possíveis que um agente pode tomar é chamado de espaço de ações.

Recompensa (r)
A recompensa é o feedback que o agente recebe após tomar uma ação em um estado específico. Ela indica o quão boa ou ruim foi a ação em termos de atingir os objetivos do agente. O objetivo do aprendizado por reforço é maximizar a recompensa acumulada ao longo do tempo.

Política (π)
A política é a estratégia do agente, ou seja, ela define o comportamento do agente. Especificamente, a política é uma função que mapeia os estados para as ações que o agente deve tomar.

Valor (V)
O valor de um estado é a recompensa esperada a longo prazo que o agente pode obter a partir daquele estado, seguindo uma determinada política.

Q-valor (Q)
O Q-valor é o valor associado a um par (estado, ação), que representa a recompensa esperada após tomar uma ação específica em um estado, seguindo uma política. O agente utiliza esse valor para escolher as ações mais vantajosas.

Função de Recompensa
A função de recompensa é uma definição matemática que fornece o feedback do ambiente com base nas ações do agente. Ela pode ser imediata (dada após cada ação) ou de longo prazo (dependente de uma sequência de ações).

Exploração vs. Exploração
O dilema da exploração versus exploração ocorre quando o agente deve decidir entre explorar novas ações para descobrir suas recompensas ou explorar as ações que ele já sabe que são boas.
Algorítmicos de aprendizado por reforço
1 – Q-LEARNING
2 – SARSA (STATE-ACTION-REWARD-STATE-ACTION)
3 – DEEP Q-NETWORKS (DQN)
4 – POLICY GRADIENT METHODS
5 – ACTOR-CRITIC METHODS
6 – A3C (ASYNCHRONOUS ADVANTAGE ACTOR-CRITIC)
7 – PPO (PROXIMAL POLICY OPTIMIZATION)
8 – DUELING NETWORK ARCHITECTURES
9 – AlphaGo / AlphaZero






Comentários