top of page

Inteligência Artificial - Aprendizado por Reforço

  • Foto do escritor: Nesky
    Nesky
  • 13 de jan. de 2025
  • 2 min de leitura

APRENDIZADO POR REFORÇO

 

O Aprendizado por Reforço (AR) é uma subárea da Inteligência Artificial (IA) em que um agente aprende a tomar decisões sequenciais, interagindo com um ambiente, com o objetivo de maximizar uma recompensa acumulada ao longo do tempo.


O agente toma ações no ambiente, recebe feedback (ou recompensas) e ajusta seu comportamento de acordo, de modo a melhorar suas escolhas futuras. Esse processo é baseado em um modelo de tentativa e erro.



Elementos do Aprendizado por Reforço


Agente

O agente é a entidade que toma decisões e executa ações no ambiente. Ele observa o estado atual do ambiente e escolhe uma ação com base em seu conhecimento e estratégia de aprendizado.


Ambiente

O ambiente é o mundo em que o agente interage. Ele pode ser o próprio sistema que está sendo controlado ou simulado, como um jogo, um robô movendo-se em um espaço, ou um processo de negócios.


Estado (s)

O estado é uma representação da situação atual do ambiente. Pode ser qualquer coisa que descreva o contexto em que o agente se encontra em um momento específico.


Ação (a)

A ação é o movimento ou decisão que o agente toma para interagir com o ambiente. O conjunto de todas as ações possíveis que um agente pode tomar é chamado de espaço de ações.


Recompensa (r)

A recompensa é o feedback que o agente recebe após tomar uma ação em um estado específico. Ela indica o quão boa ou ruim foi a ação em termos de atingir os objetivos do agente. O objetivo do aprendizado por reforço é maximizar a recompensa acumulada ao longo do tempo.




Política (π)

A política é a estratégia do agente, ou seja, ela define o comportamento do agente. Especificamente, a política é uma função que mapeia os estados para as ações que o agente deve tomar.



Valor (V)

O valor de um estado é a recompensa esperada a longo prazo que o agente pode obter a partir daquele estado, seguindo uma determinada política.



Q-valor (Q)

O Q-valor é o valor associado a um par (estado, ação), que representa a recompensa esperada após tomar uma ação específica em um estado, seguindo uma política. O agente utiliza esse valor para escolher as ações mais vantajosas.



Função de Recompensa

A função de recompensa é uma definição matemática que fornece o feedback do ambiente com base nas ações do agente. Ela pode ser imediata (dada após cada ação) ou de longo prazo (dependente de uma sequência de ações).


Exploração vs. Exploração

O dilema da exploração versus exploração ocorre quando o agente deve decidir entre explorar novas ações para descobrir suas recompensas ou explorar as ações que ele já sabe que são boas.



Algorítmicos de aprendizado por reforço

1 – Q-LEARNING

2 – SARSA (STATE-ACTION-REWARD-STATE-ACTION)

3 – DEEP Q-NETWORKS (DQN)

4 – POLICY GRADIENT METHODS

5 – ACTOR-CRITIC METHODS

6 – A3C (ASYNCHRONOUS ADVANTAGE ACTOR-CRITIC)

7 – PPO (PROXIMAL POLICY OPTIMIZATION)

8 – DUELING NETWORK ARCHITECTURES

9 – AlphaGo / AlphaZero



 
 
 

Comentários


NEWSKY
  • TikTok
  • YouTube - Círculo Branco
  • X
  • Facebook - Círculo Branco
  • Instagram - White Circle
  • LinkedIn

CONTATO

TOPOGRAFIA

​​

■ Levantamento Topográfico

■ Locação de Obras

■ Escaner 3D

■ Nivelamento

■ Aerofotogrametria

■ Cálculo de Volume

■ Cadastro Arbóreo

■ Controle de Recalque

SONDAGEM

■ Sondagem SPT

■ Sondagem Rotativa

■ Ensaios de Solos

■ Instrumentação Geotécnica

ESTRUTURA

■ Cálculo Estrutural

■ Ensaio Esclerométrico

■ Escaneamento de Armadura

■ Reforço Estrutural

PROJETOS

■ Legalizações

■ Arquitetura

■ BIM

■ Drenagem

■ Saneamento

■ Instalações   

CONSULTORIA

​​

■ Licenciamento de Obra

■Mais-valia

■ Usucapião

■ Avaliação imobiliária

■ Assistência jurídica de engenharia

■ Perícia em engenharia

■ Análise de dados

■ Programação

OBRA CIVIL

■ Construções e Reformas

■ Terraplenagem

■ Muros, Cercamentos 

■ Marcos

■ Demolições

ENGENHARIA DIAGNÓSTICA

■ Termografia

■ Pacometria

■ Carbonatação

■ Monitoramento de Trincas

■ Detecção de Umidade

■ Umidade relativa do AR

■ Boroscopia

■ Percussão

■ Detecção de vazamento de gás

■ Qualidade e pH da água

■ Pressão da rede hídrica

■ Movimentação da estrutura

Todos os direitos reservados  - Nesky Engenharia ®

1.2025

bottom of page