Aumento da Autonomia dos Agentes de IA: Um Estudo da Anthropic

A Anthropic, uma das principais empresas focadas em inteligência artificial, anunciou resultados surpreendentes sobre o desempenho dos seus agentes, através do estudo de milhões de sessões de interação. Esta investigação revela avanços significativos na autonomia dos agentes de IA e padrões de colaboração entre humanos e máquinas.

Principais Descobertas sobre o Desempenho dos Agentes

Aumento da Duração da Autonomia

Um dos achados mais notáveis do estudo é o aumento da autonomia dos agentes Claude Code, que demonstraram sessões cada vez mais prolongadas:

  • Duração média das sessões: As sessões mais longas do Claude Code quase dobraram em apenas três meses, passando de menos de 25 minutos para mais de 45 minutos.
  • Sessões prolongadas: Para utilizadores avançados, algumas sessões funcionaram autonomamente por até 110 minutos.
  • Ação sem intervenção: O número máximo de chamadas consecutivas a ferramentas realizadas pelo Claude aumentou em 116%, saltando de 9,8 para 21,2 ações sem intervenção humana.

Melhorias na Taxa de Sucesso

Ao longo do período de estudo, a taxa de sucesso das tarefas mais desafiadoras realizadas por Claude Code ficou significativamente melhor:

  • A taxa de sucesso duplicou, enquanto o número médio de intervenções humanas por sessão diminuiu de 5,4 para 3,3.
  • As conversões humanas por transcrição caíram 33%, passando de 6,2 para 4,1 em média.

Padrões de Supervisão Humana

À medida que os utilizadores ganham experiência, as suas estratégias de supervisão também se adaptam:

  • Supervisão em auto-aprovação: Novos utilizadores (menos de 50 sessões) utilizam a aprovação automática integral cerca de 20% das vezes; este número aumenta para mais de 40% para utilizadores com cerca de 750 sessões.
  • Interrupções: Utilizadores experientes tendem a interromper o Claude mais frequentemente (aproximadamente 9% das interações) em comparação com 5% de utilizadores novos, sinalizando uma evolução das suas capacidades de julgamento.

O estudo ainda revela que o Claude solicita esclarecimentos mais do que o dobro das vezes em que os seres humanos interrompem, sugerindo que o modelo tem um papel ativo na regulação da sua própria autonomia.

Composição das Tarefas e Perfil de Risco

Os dados em análise demonstraram que:

  • 73% das chamadas de ferramentas apresentaram um envolvimento humano, enquanto 0,8% parecem irreversíveis.
  • A programação de software representa aproximadamente 50% das chamadas de ferramentas na API da Anthropic, sendo este o uso mais predominante para sistemas de agentes.

Para classificar as interações, a Anthropic utilizou o Claude Sonnet 4.5, atingindo 99% de precisão ao avaliar os níveis de risco e autonomia das tarefas específicas.

Conclusão

O estudo realizado pela Anthropic fornece insights valiosos sobre a evolução dos agentes de IA e a interação humano-máquina. À medida que esses agentes se tornam mais autónomos e capazes de lidar com tarefas complexas, é fundamental que os utilizadores compreendam como supervisionar e colaborar com essas tecnologias de forma eficaz. Mandam as boas práticas que a supervisão humana não desapareça, mesmo com o aumento da autonomia, garantindo assim um equilíbrio saudável entre a confiança nas máquinas e a necessidade de uma supervisão crítica.

Para mais detalhes, veja a pesquisa da Anthropic que estudou as interações entre humanos e agentes de IA em profundidade.

Sources