
Revisão do Ano de 2025 de Andrej Karpathy sobre LLMs
Revisão do Ano de 2025 de Andrej Karpathy sobre LLMs
aitech.pt
aitech.pt

Andrej Karpathy’s 2025 LLM Year in Review

Em 2025, Andrej Karpathy, um dos nomes mais influentes na área da inteligência artificial, partilhou a sua visão sobre os avanços e inovações na formação de Modelos de Linguagem de Grande Dimensão (LLMs). A principal novidade destacada na sua análise foi uma nova abordagem na formação chamada Reinforcement Learning from Verifiable Rewards (RLVR). Este método tem se mostrado fundamental para o aumento das capacidades dos LLMs ao longo do ano.
O que é RLVR?
RLVR é uma metodologia de treino que se distancia das abordagens tradicionais, baseando-se em sinais de recompensa verificáveis e objetivamente mensuráveis, ao invés de depender do feedback subjetivo humano. O conceito básico por detrás do RLVR é recompensar os modelos quando suas saídas atendem a critérios de correção pré-definidos. Normalmente, isso é feito com feedback binário, onde “1” indica uma resposta correta e “0” uma resposta incorreta.
Vantagens do RLVR
A análise de Karpathy e outras fontes revelou várias vantagens significativas associadas ao uso de RLVR:
- Resistência à manipulação de recompensas: O uso de avaliações rígidas e adequadas reduz as oportunidades dos modelos explorarem falhas no sistema de recompensas.
- Melhorias mensuráveis: LLMs que utilizam RLVR demonstraram avanços notáveis em raciocínio matemático, geração de código e resolução estruturada de problemas.
- Redução da dependência humana: O RLVR diminui a necessidade de anotações extensivas por humanos, aproveitando sistemas de verificação automatizados.
- Escalabilidade: As recompensas verificáveis são projetadas para funcionar em vários domínios, como matemática, geração de código, raciocínio médico e diálogos.
Limitações e Considerações
Embora os ganhos obtidos através do RLVR sejam impressionantes, uma análise mais detalhada sugere que grande parte dos avanços se origina de um fenômeno conhecido como compressão de busca. Este conceito refere-se a treinar modelos para encontrar respostas corretas de forma mais eficiente a partir de caminhos que já poderiam ser explorados, ao invés de expandir suas capacidades de raciocínio fundamentais. Esse fenômeno indica limitações, pois ainda existem desafios em contextos complexos e situações não previamente apresentadas aos modelos. Portanto, embora o RLVR ofereça resultados promissores, seu desenvolvimento e implementação ainda demandam atenção cuidadosa para os casos onde seus métodos podem falhar.
Avanços em 2025
Através do uso do RLVR, Karpathy destacou as seguintes áreas-chave onde os LLMs mostraram melhorias significativas em 2025:
| Área | Descrição |
|---|---|
| Raciocínio Matemático | Resolução de problemas matemáticos complexos com maior precisão. |
| Geração de Código | Produção de código de programação que é mais eficiente e correto. |
| Diálogo e Interação | Respostas em diálogos mais contextualizadas e relevantes. |
As melhorias observadas em 2025 foram em grande parte atribuídas à capacidade dos LLMs de raciocinar de forma independente, sem a necessidade de feedback humano constante. Um ponto enfatizado por Karpathy em sua análise, indicando que a otimização dos modelos é uma questão em evolução e pode continuar a se desdobrar nos próximos anos.
Considerações Finais
A revisão de 2025 de Andrej Karpathy representa um marco significativo na evolução da inteligência artificial e na formação de LLMs. A abordagem RLVR, com suas recompensas verificáveis, não só melhora a eficácia dos modelos como também permite uma maior escalabilidade e adaptabilidade em várias áreas.
Com o RLVR emergindo como uma metodologia de referência, é de esperar que, nos próximos anos, continuemos a ver avanços ainda mais substanciais na articulação e resolução de problemas complexos por parte dos modelos de linguagem. O caminho à frente parece promissor, e a inovação nesta área promete revolucionar a forma como interagimos com a inteligência artificial.
Fontes
- Reinforcement Learning with Verifiable Rewards - Unlocking Reliable AI Reasoning
- Reinforcement Learning from Verifiable Rewards (RLVR)
- Reinforcement Learning from Verifiable Rewards
- Research Paper: arXiv 2506.14245
- What is Reinforcement Learning with Verifiable Rewards?
- Open Review Paper
- RLVR Explained
- Power of RLVR Training - Leading SQL Reasoning Model
- Reinforcement Learning with Random Inputs
- Karpathy’s Year in Review 2025
- Reinforcement Learning from Verifiable Rewards Blog
Share this post
Like this post? Share it with your friends!