Aumento da Autonomia dos Agentes de IA: Um Estudo da Anthropic
Aumento da Autonomia dos Agentes de IA: Um Estudo da Anthropic
aitech.pt
aitech.pt
Aumento da Autonomia dos Agentes de IA: Um Estudo da Anthropic
A Anthropic, uma das principais empresas focadas em inteligência artificial, anunciou resultados surpreendentes sobre o desempenho dos seus agentes, através do estudo de milhões de sessões de interação. Esta investigação revela avanços significativos na autonomia dos agentes de IA e padrões de colaboração entre humanos e máquinas.
Principais Descobertas sobre o Desempenho dos Agentes
Aumento da Duração da Autonomia
Um dos achados mais notáveis do estudo é o aumento da autonomia dos agentes Claude Code, que demonstraram sessões cada vez mais prolongadas:
- Duração média das sessões: As sessões mais longas do Claude Code quase dobraram em apenas três meses, passando de menos de 25 minutos para mais de 45 minutos.
- Sessões prolongadas: Para utilizadores avançados, algumas sessões funcionaram autonomamente por até 110 minutos.
- Ação sem intervenção: O número máximo de chamadas consecutivas a ferramentas realizadas pelo Claude aumentou em 116%, saltando de 9,8 para 21,2 ações sem intervenção humana.
Melhorias na Taxa de Sucesso
Ao longo do período de estudo, a taxa de sucesso das tarefas mais desafiadoras realizadas por Claude Code ficou significativamente melhor:
- A taxa de sucesso duplicou, enquanto o número médio de intervenções humanas por sessão diminuiu de 5,4 para 3,3.
- As conversões humanas por transcrição caíram 33%, passando de 6,2 para 4,1 em média.
Padrões de Supervisão Humana
À medida que os utilizadores ganham experiência, as suas estratégias de supervisão também se adaptam:
- Supervisão em auto-aprovação: Novos utilizadores (menos de 50 sessões) utilizam a aprovação automática integral cerca de 20% das vezes; este número aumenta para mais de 40% para utilizadores com cerca de 750 sessões.
- Interrupções: Utilizadores experientes tendem a interromper o Claude mais frequentemente (aproximadamente 9% das interações) em comparação com 5% de utilizadores novos, sinalizando uma evolução das suas capacidades de julgamento.
O estudo ainda revela que o Claude solicita esclarecimentos mais do que o dobro das vezes em que os seres humanos interrompem, sugerindo que o modelo tem um papel ativo na regulação da sua própria autonomia.
Composição das Tarefas e Perfil de Risco
Os dados em análise demonstraram que:
- 73% das chamadas de ferramentas apresentaram um envolvimento humano, enquanto 0,8% parecem irreversíveis.
- A programação de software representa aproximadamente 50% das chamadas de ferramentas na API da Anthropic, sendo este o uso mais predominante para sistemas de agentes.
Para classificar as interações, a Anthropic utilizou o Claude Sonnet 4.5, atingindo 99% de precisão ao avaliar os níveis de risco e autonomia das tarefas específicas.
Conclusão
O estudo realizado pela Anthropic fornece insights valiosos sobre a evolução dos agentes de IA e a interação humano-máquina. À medida que esses agentes se tornam mais autónomos e capazes de lidar com tarefas complexas, é fundamental que os utilizadores compreendam como supervisionar e colaborar com essas tecnologias de forma eficaz. Mandam as boas práticas que a supervisão humana não desapareça, mesmo com o aumento da autonomia, garantindo assim um equilíbrio saudável entre a confiança nas máquinas e a necessidade de uma supervisão crítica.
Para mais detalhes, veja a pesquisa da Anthropic que estudou as interações entre humanos e agentes de IA em profundidade.
Sources
- https://www.anthropic.com/research/measuring-agent-autonomy
- https://dcthemedian.substack.com/p/what-25-million-data-points-reveal
- https://www.latent.space/p/ainews-anthropics-agent-autonomy
- https://www.anthropic.com/research/how-ai-is-transforming-work-at-anthropic
- https://www.anthropic.com/research/estimating-productivity-gains
- https://www.perplexity.ai/page/anthropic-study-finds-users-do-y5LswaMWQs2jwjqPzxuVaw
- https://resources.anthropic.com/hubfs/2026%20Agentic%20Coding%20Trends%20Report.pdf
- https://www.anthropic.com/research/measuring-agent-autonomy
Share this post
Like this post? Share it with your friends!