Inteligências artificiais ‘batalharam’ em uma versão Pokemón!

Uma dúvida que muita gente tem nessa nova era da Inteligência Artificial generativa é a seguinte: qual é a melhor IA? Seria o pioneiro ChatGPT? O Claude, da Anthropic? O Gemini, do gigante da tecnologia Google? Ou o meteórico modelo chinês da DeepSeek?

É claro que essa resposta é extremamente complexa e depende bastante de diferentes critérios e pontos de vista. Mas, numa brincadeira de redes sociais, as pessoas parecem ter chegado a uma conclusão. Pelo menos numa disputa entre o Claude e o Gemini. E o segundo saiu vencedor.

Leia mais

Para chegar a esse resultado, as duas IAs participaram de um desafio bem inusitado: jogaram os games Pokémon Red e Blue. Sim, são os clássicos da Nintendo de 1996, que deram início a uma das franquias modernas mais bem-sucedidas da história.

E, como anunciou o CEO do Google, Sundar Pichai, no X, o Gemini acaba de “zerar” o jogo (e o único erro, claramente, foi a máquina ter escolhido o Squirtle e não o Charmander como Pokémon inicial).

https://twitter.com/sundarpichai/status/1918455766542930004

Como funcionou essa disputa?

  • Para ser justo, nunca houve uma disputa real.
  • A Anthropic fez o seu modelo de IA jogar Pokémon Red em um de seus testes oficiais.
  • Para isso, equipamos o Claude com memória básica, entrada de pixels na tela e chamadas de função para pressionar botões e navegar pela tela.
  • Essa experiência já dura alguns meses e somente depois é que o Gemini entrou nessa onda.
  • E nem foi algo oficial.
  • A iniciativa de levar o Gemini a jogar Pokémon Blue partiu de um engenheiro que não é funcionário do Google.
  • A big tech, porém, aplaudiu a iniciativa – vide a postagem de Sundar Pichai que mostramos acima.
  • Para vencer o rival final, o Gemini usou cerca de 60 mil ações.
  • O Claude, por sua vez, já tem mais de 200 mil ações e ainda não conquistou todas as insígnias.
  • Se você nunca jogou Pokémon, é necessário obter 8 insígnias antes de entrar no desafio final.
Aplicativos de IA generativa estão ficando cada vez mais comuns (e poderosos) – Imagem: hapabapa/iStock

Mas, no fim das contas, o Gemini é melhor?

Se pensarmos só no resultado, a resposta seria sim. Mas não dá para cravar isso. O próprio responsável pela campanha afirma isso. Em sua página na Twitch, Joel Z explicou:

“Por favor, não considerem isso um parâmetro para avaliar o quão bem um LLM consegue jogar Pokémon. Não dá para fazer comparações diretas – Gemini e Claude têm ferramentas diferentes e recebem informações diferentes”, escreveu.

Essa questão das informações diferentes é essencial para entender por que o Claude não chegou tão longe – e nem tão rápido. Joel Z garante que não trapaceou, mas com certeza o seu modelo recebeu mais dados do que o outro. Agora, independentemente disso, vale pela experiência.

Quem já jogou Pokémon sabe que não estamos diante de um RPG difícil. Pelo contrário, ele é bem simples e intuitivo. Se você já jogou qualquer versão, as outras são basicamente a mesma coisa, só que com mudanças no design dos bichinhos.

pokemon tipo
Pokémon é uma das franquias de maior sucesso do mundo há décadas – Imagem: Divulgação/Pokémon Company

Para uma máquina, porém, jogar Pokémon é altamente desafiador. E é interessante para nós, leigos, acompanhar como funciona o pensamento desses grandes modelos de linguagem.

Você pode assistir ao Claude jogando a versão Red na Twitch.

Existe também um canal do Gemini jogando Pokémon Blue.

As informações são do Tech Crunch.

Amazon Prime também é feito para jogadores!

Todo mês, obtenha itens exclusivos, jogos grátis,
uma assinatura gratuita na Twitch.tv e muito mais
com sua assinatura Prime.
Clique aqui para um teste gratuito de 30 dias.

Postagem Relacionada

Copyright © 2024 Jornal Vertente

Jornal Vertente
Visão geral da privacidade

Este site utiliza cookies para que possamos fornecer a melhor experiência possível ao usuário. As informações dos cookies são armazenadas em seu navegador e desempenham funções como reconhecer você quando retorna ao nosso site e ajudar nossa equipe a entender quais seções do site você considera mais interessantes e úteis.