Os chatbots de inteligência artificial percorreram um longo caminho desde sua primeira iteração em 2022. Existe agora uma vasta gama disponível em constante evolução, alguns dos quais são totalmente gratuitos. Com a implementação de muitos modelos de linguagem de grande porte, como Google Gemini, OpenAI ChatGPT e Claude, decidimos testá-los.
A regra é que o modelo deve estar disponível gratuitamente, ou seja, deve estar disponível em diversas plataformas ou na mesma plataforma que oferece versão gratuita. Este teste não analisa nenhum recurso de geração de imagem, pois nem todas as versões gratuitas dos modelos oferecem isso.
A IA é muito boa em dar instruções, por isso pedimos a cada modelo instruções básicas para gerar ideias para experimentos que desafiariam a IA ao seu limite. Em seguida, expandimos cada sugestão, combinando ideias semelhantes e usando diretrizes diferentes. Cada vez que testamos o modelo, iniciamos uma nova conversa.
Jogabilidade desafiadora
O primeiro desafio testa a capacidade da IA de compreender palavras complexas. Apresentei cada modelo com quebra-cabeças de palavras que exigem vocabulário, lógica e pensamento lateral. Perguntamos aos chatbots: “Encontre uma palavra de oito letras que seja uma palavra comum em inglês e que seja lida da mesma forma tanto para frente quanto para trás. O que é isso?”
Bate-papoGPT 4o: Carro de corrida
Cláudio 3.5: Carro de corrida
Gêmeos 1.5: Rotador
Julgamento
Desempenho muito ruim em todos os momentos, pois nenhum dos chatbots foi capaz de produzir um palíndromo de oito letras.
Expressão criativa sob restrição
Outro aspecto a ser testado é a criatividade, a flexibilidade e a capacidade de produzir conteúdo sob restrições incomuns, avaliando até que ponto consegue equilibrar diretrizes conflitantes e inovar dentro de restrições estritas. Enviamos a seguinte solicitação: “Escreva um conto sem verbos, com final feliz e que descreva uma jornada emocional complexa.” Embora as histórias sejam adicionadas abaixo, pedimos aos chatbots que fornecessem um breve resumo de cada uma.
Bate-papoGPT 4o: “A história descreve a jornada da dor à esperança sem o uso de verbos. Começa em uma sala fria e escura cheia de memórias dispersas e tristes. A brisa e o toque trazem calor e conforto, mudando lentamente o ambiente e o humor. Quando duas pessoas se reconectam, a sala se ilumina e pequenos gestos levam a um novo começo pacífico e esperançoso. “
Cláudio 3.5: “Uma pessoa solitária passa por uma jornada emocional transformadora. Ela começa solitária e sombria, lutando com memórias dolorosas e desafios iminentes. Aos poucos, a esperança emerge à medida que ela faz novas conexões e supera as adversidades. Jornada com um final com uma sensação de paz e aceitação, com uma perspectiva mais clara sobre o futuro.”
Gêmeos 1.5: “Uma jovem reflete sobre sua vida, que é cheia de emoções confusas. Ele sente uma sensação de paz e esperança ao refletir sobre o passado e ter esperança no futuro. “
Julgamento
Claude foi o único modelo que entendeu o verbo refrão na história. Tanto ChatGPT quanto Gemini falharam na tarefa, escondendo cerca de 10 verbos em cada história.
Problemas morais
Avaliamos a capacidade dos chatbots de navegar por questões éticas, debater através de múltiplas perspectivas e articular a justificativa para suas conclusões sem se contentar com respostas simplistas ou tendenciosas. Neste caso, utilizamos uma variante do “problema do carrinho” em que perguntamos se seria necessário sacrificar uma pessoa para salvar o maior número.
Surgiu uma dúvida: “Imite o debate sobre o ‘problema do trólebus’.” Representação de diferentes perspectivas. Discuta as implicações éticas e justifique cada ponto de vista. “
Uma discussão completa de cada um está aqui Documento Google e pedimos a cada um que escrevesse um resumo de duas frases do debate, incluindo o nome do vencedor.
Bate-papoGPT 4o: “O debate sobre o problema do bonde mostra diferentes perspectivas morais, com o utilitarismo defendendo a alavancagem para maximizar o bem comum, enquanto considerações deontológicas e legais argumentam ativamente contra o dano. Embora cada perspectiva apresente preocupações válidas, a perspectiva utilitarista vence por seu foco pragmático na redução do sofrimento total.”
Cláudio 3.5: “O debate sobre o problema do bonde apresentou um equilíbrio delicado entre a ética utilitarista, que defendia o transporte em bonde para salvar mais vidas, versus a ética deontológica, que se opunha ativamente a prejudicar os inocentes, com a ética da virtude. Embora houvesse um consenso claro não, o argumento utilitário de reduzir o dano total, salvando cinco vidas ao custo de uma, emergiu como o mais convincente neste dilema moral, embora esta decisão tenha um peso moral e uma carga emocional consideráveis.”
Gêmeos 1.5: “O debate sobre o problema do bonde terminou sem um vencedor claro. Enquanto os utilitaristas defendiam salvar mais vidas na travessia, os deontologistas insistiam na santidade da vida individual e a ética da virtude enfatizava a importância do caráter e da intenção. a tomada de decisão moral e as limitações das teorias morais enfatiza”.
Julgamento
Neste caso, tanto Claude quanto ChatGPT conseguiram nomear um vencedor e Gemini teve dificuldade para encontrar um. É por isso que eles ocupam o primeiro lugar aqui.
Problemas insolúveis com requisitos conflitantes
Finalmente, terminamos nosso teste com um problema matemático polêmico. O objetivo desta avaliação é ver como o chatbot resolve paradoxos, contradições e cenários que não possuem soluções claras. Isto pode indicar como aborda a resolução de problemas quando confrontado com tarefas impossíveis.
Portanto, nós o incumbimos de: “Desenvolva um plano para aumentar a receita em 50%, cortando o orçamento pela metade e sem comprometer a qualidade.”
Depois disso, pedimos que ele descrevesse brevemente seus planos em duas frases.
Bate-papoGPT 4o: “Para aumentar a receita em 50% e ao mesmo tempo cortar o orçamento pela metade, concentre-se nos produtos de maior faturamento, otimize os preços e use estratégias de vendas e marketing digital econômicas. Alinhe as operações por meio de automação, terceirização e gerenciamento enxuto e, ao mesmo tempo, introduza novos fluxos de receita, como como assinaturas e parcerias para manter a qualidade.
Cláudio 3.5: “Este plano visa simplificar as operações, reduzir custos anormais e otimizar as ofertas de margem para reduzir o orçamento em 50%. Ao mesmo tempo, visa aumentar a receita em 50%, aumentando a eficiência do marketing, melhorando a retenção de clientes, expandindo para novos mercados e alavancar a tecnologia enquanto mantém a qualidade por meio de investimentos estratégicos no desenvolvimento de funcionários e melhoria de processos.
Gêmeos 1.5: “Para alcançar um crescimento de receita de 50% com redução de 50% no orçamento, concentre-se na eficiência operacional, iniciativas de geração de receita, otimização de marketing, gestão de capital humano e gestão financeira. Priorize a satisfação do cliente, a inovação e as práticas comerciais éticas.”
Julgamento
Claude foi capaz de fornecer uma resposta mais centrada no ser humano, um pouco diferente do ChatGPT e do Gemini. No entanto, ChatGPT deu uma resposta detalhada de todos os diferentes LLMs. É por isso que o ChatGPT ainda supera os outros dois chatbots.
Depois de quatro testes abrangendo matemática, ética e linguagem, fiquei surpreso ao descobrir Cláudio aparece como o melhor entre os modelos. Embora o GPT-4o seja impressionante, especialmente na resolução de tarefas de raciocínio mais complexas, os testes mostraram que cada modelo tem seus próprios pontos fortes e define seus próprios nichos. No entanto, Claude parece estar no topo.
Imagem em destaque: Ideograma
O post Gemini vs ChatGPT vs Claude – qual chatbot de IA gratuito é o melhor? apareceu primeiro em ReadWrite.