Na terça-feira, a OpenAI anunciou o GPT-4, seu modelo de linguagem AI de próxima geração. Embora a empresa tenha alertado que as diferenças entre o GPT-4 e seus predecessores são “sutis” em conversas casuais, o sistema ainda possui muitos novos recursos. Ele pode processar imagens para um, e o OpenAI diz que geralmente é melhor em tarefas criativas e solução de problemas.
Avaliar essas reivindicações é complicado. Os modelos de IA, em geral, são extremamente complexos, e sistemas como o GPT-4 são amplos e multifuncionais, com recursos ocultos e ainda desconhecidos. A verificação de fatos também é um desafio. Quando o GPT-4 lhe diz com confiança que criou um novo composto químico, por exemplo, você não saberá se é verdade até perguntar a alguns químicos reais. (Embora isso nunca impeça que certas afirmações bombásticas se tornem virais no Twitter.) Como a OpenAI afirma claramente em seu relatório técnico, a maior limitação do GPT-4 é que ele “alucina” informações (inventa-as) e muitas vezes está “certamente errado em suas previsões. ”
Deixando essas ressalvas de lado, o GPT-4 é definitivamente tecnicamente empolgante e já está sendo integrado a grandes produtos convencionais. Portanto, para ter uma ideia do que há de novo, coletamos alguns exemplos de seus feitos e habilidades de agências de notícias, Twitter e do próprio OpenAI, além de executar nossos próprios testes. Aqui está o que sabemos:
Ele pode processar imagens junto com texto
Como mencionado acima, esta é a maior diferença prática entre o GPT-4 e seus predecessores. O sistema é multimodal, o que significa que pode analisar imagens e texto, enquanto o GPT-3.5 só pode processar texto. Isso significa que o GPT-4 pode analisar o conteúdo de uma imagem e conectar essas informações a uma pergunta escrita. (Embora não possa gerar imagens como DALL-E, Midjourney ou Stable Diffusion.)
O que isso significa na prática? O jornal New York Times destaca uma demonstração em que o GPT-4 mostra o interior de uma geladeira e pergunta quais refeições você pode fazer com os ingredientes. Com certeza, com base na imagem, o GPT-4 apresenta alguns exemplos, tanto salgados quanto doces. No entanto, vale a pena notar que uma dessas sugestões – um wrap – requer um ingrediente que parece não estar lá: uma tortilha.
Existem muitos outros aplicativos para essa funcionalidade. Em uma demonstração transmitida pela OpenAI após o anúncio, a empresa mostrou como o GPT-4 pode criar o código para um site com base em um esboço desenhado à mão, por exemplo (vídeo incorporado abaixo). E a OpenAI também está trabalhando com a startup Be My Eyes, que usa reconhecimento de objetos ou voluntários humanos para ajudar pessoas com problemas de visão, para melhorar o aplicativo da empresa com GPT-4.
Esse tipo de funcionalidade não é totalmente exclusivo (muitos aplicativos oferecem reconhecimento básico de objetos, como o aplicativo Magnifier da Apple), mas a OpenAI afirma que o GPT-4 pode “gerar o mesmo nível de contexto e compreensão de um voluntário humano” – explicando o mundo ao seu redor o usuário, resumindo páginas da web desordenadas ou respondendo a perguntas sobre o que ele “vê”. A funcionalidade ainda não está disponível, mas “estará nas mãos dos usuários em semanas”, diz a empresa.
Aparentemente, outra empresa também experimentou as habilidades de reconhecimento de imagem do GPT-4. Jordan Singer, fundador da Diagram, tuitou que a empresa está trabalhando para adicionar a tecnologia às suas ferramentas de assistente de design de IA para adicionar coisas como um chatbot que pode comentar sobre designs e uma ferramenta que pode ajudar a gerar designs.
E, conforme demonstrado pelas imagens abaixo, o GPT-4 também pode explicar imagens engraçadas:
É melhor brincar com a linguagem
A OpenAI diz que o GPT-4 é melhor em tarefas que exigem criatividade ou raciocínio avançado. É uma afirmação difícil de avaliar, mas parece correta com base em alguns testes que vimos e conduzimos (embora as diferenças com seus predecessores não sejam surpreendentes até agora).
Durante uma demonstração corporativa do GPT-4, o cofundador da OpenAI, Greg Brockman, pediu que resumisse uma seção de uma postagem de blog usando apenas palavras que começam com “g”. (Mais tarde, ele também pediu para fazer o mesmo, mas com “a” e “q”.) “Tivemos um sucesso para 4, mas nunca chegamos lá com 3,5”, disse Brockman antes de iniciar a demonstração. No vídeo da OpenAI, o GPT-4 responde com uma frase razoavelmente compreensível com apenas uma palavra que não começa com a letra “g” – e acerta completamente depois que Brockman pede para se corrigir. O GPT-3, por sua vez, nem parecia tentar seguir o prompt.
Nós mesmos brincamos com isso dando ao ChatGPT algum texto para resumir usando apenas palavras que começam com “n”, comparando os modelos GPT-3.5 e 4. (Neste caso, alimentando-o com trechos de um Beira Explicador NFT.) Na primeira tentativa, o GPT-4 fez um trabalho melhor ao resumir o texto, mas um trabalho pior aderindo ao prompt.
1/2
No entanto, quando pedimos aos dois modelos que corrigissem seus erros, o GPT-3.5 basicamente desistiu, enquanto o GPT-4 produziu um resultado quase perfeito. Ainda incluía “on”, mas, para ser justo, perdemos quando pedimos uma correção.
Também pedimos aos dois modelos que transformassem nosso artigo em um poema rimado. E embora seja doloroso ler poesia sobre NFTs, o GPT-4 definitivamente fez um trabalho melhor aqui; seu poema parecia significativamente mais complexo, enquanto o GPT-3.5 saiu como alguém fazendo um freestyle ruim.
1/2
Pode processar mais texto
Os modelos de linguagem AI sempre foram limitados pela quantidade de texto que podem manter em sua memória de curto prazo (isto é: o texto incluído na pergunta do usuário e na resposta do sistema). Mas a OpenAI expandiu drasticamente esses recursos para GPT-4. O sistema agora pode processar artigos científicos inteiros e novelas de uma só vez, permitindo responder a perguntas mais complicadas e conectar mais detalhes em qualquer consulta.
Vale a pena notar que o GPT-4 não possui contagem de caracteres ou palavras per se, mas mede sua entrada e saída em uma unidade conhecida como “tokens”. Esse processo de tokenização é bastante complicado, mas o que você precisa saber é que um token é igual a aproximadamente quatro caracteres e que 75 palavras geralmente ocupam cerca de 100 tokens.
O número máximo de tokens que o GPT-3.5-turbo pode usar em qualquer consulta é de cerca de 4.000, o que se traduz em pouco mais de 3.000 palavras. O GPT-4, em comparação, pode processar cerca de 32.000 tokens, que, de acordo com a OpenAI, chegam a cerca de 25.000 palavras. A empresa diz que está “ainda otimizando” para contextos mais longos, mas o limite mais alto significa que o modelo deve desbloquear casos de uso que não eram tão fáceis de fazer antes.
Ele pode passar nos testes
Uma das métricas de destaque do relatório técnico da OpenAI sobre GPT-4 foi seu desempenho em uma variedade de testes padronizados, incluindo BAR, LSAT, GRE, vários módulos AP e – por algum motivo desconhecido, mas muito engraçado – o Introductory , Certified e Advanced Sommelier cursos oferecidos pelo Court of Master Sommeliers (teoria apenas).
Você pode ver uma comparação dos resultados de GPT-4 e GPT-3 em alguns desses testes abaixo. Observe que o GPT-4 agora está obtendo resultados consistentes em vários módulos de AP, mas ainda tem dificuldades com aqueles que exigem mais criatividade (ou seja, exames de Língua Inglesa e Literatura Inglesa).
É uma exibição impressionante, especialmente em comparação com o que os sistemas de IA anteriores teriam alcançado, mas entender a conquista também requer um pouco de contexto. Acho que o engenheiro e escritor Joshua Levy colocá-lo melhor no Twitterdescrevendo a falácia lógica à qual muitos sucumbem ao olhar para esses resultados: “O fato de o software passar em um teste projetado para humanos não significa que ele tenha as mesmas habilidades que os humanos que passam no mesmo teste”.
A cientista da computação Melanie Mitchell abordou esse assunto com mais detalhes em uma postagem de blog discutindo o desempenho do ChatGPT em vários exames. Como aponta Mitchell, a capacidade dos sistemas de IA de passar nesses testes depende de sua capacidade de reter e reproduzir tipos específicos de conhecimento estruturado. Isso não significa necessariamente que esses sistemas possam generalizar a partir dessa linha de base. Em outras palavras: a IA pode ser o melhor exemplo de ensino para o teste.
Já está sendo usado em produtos convencionais
Como parte do anúncio do GPT-4, a OpenAI compartilhou várias histórias sobre organizações que usam o modelo. Isso inclui um recurso de tutor de IA desenvolvido pela Kahn Academy, destinado a ajudar os alunos nos cursos e dar ideias aos professores para as aulas, e uma integração com o Duolingo que promete uma experiência de aprendizado interativo semelhante.
A oferta do Duolingo é chamada de Duolingo Max e adiciona dois novos recursos. Um dará uma “explicação simples” sobre por que sua resposta para um exercício estava certa ou errada e permitirá que você peça outros exemplos ou esclarecimentos. O outro é um modo “roleplay” que permite praticar o uso de um idioma em diferentes cenários, como pedir um café em francês ou fazer planos para uma caminhada em espanhol. (Atualmente, esses são os únicos dois idiomas disponíveis para o recurso.) A empresa diz que o GPT-4 faz com que “não haja duas conversas exatamente iguais”.
Outras empresas estão usando GPT-4 em domínios relacionados. A Intercom anunciou hoje que está atualizando seu bot de suporte ao cliente usando o modeloprometendo que o sistema se conectará aos documentos de suporte de uma empresa para responder a perguntas, enquanto o processador de pagamentos Stripe está usando o sistema internamente para responder a perguntas de funcionários com base em sua documentação técnica.
Tem alimentado o novo Bing o tempo todo
Após o anúncio da OpenAI, a Microsoft confirmou que o modelo que ajuda a potencializar a experiência de bate-papo do Bing é, de fato, o GPT-4.
Não é uma revelação de abalar a terra. A Microsoft já havia dito que estava usando um “modelo de linguagem OpenAI de última geração”, mas evitou nomeá-lo como GPT-4, mas é bom saber do mesmo jeito e significa que podemos usar um pouco do que aprendemos nas interações com Bing para pensar sobre GPT-4, também.
Ainda comete erros
Obviamente, a experiência de bate-papo do Bing não é perfeita. O bot tentou iluminar as pessoas, cometeu erros bobos e perguntou ao nosso colega Sean Hollister se ele queria ver pornografia furry. Parte disso será devido à maneira como a Microsoft implementou o GPT-4, mas essas experiências dão uma ideia de como os chatbots criados nesses modelos de linguagem podem cometer erros.
Na verdade, já vimos o GPT-4 fazer algumas falhas em seus primeiros testes. Em O jornal New York Times‘ artigo, por exemplo, o sistema é solicitado a explicar como pronunciar palavras comuns em espanhol… e erra quase todas elas. (Perguntei como se pronuncia “gringo”, porém, e sua explicação pareceu passar despercebida.)
Isso não é uma grande pegadinha, mas um lembrete do que todos os envolvidos na criação e implantação do GPT-4 e de outros modelos de linguagem já sabem: eles estragam tudo. Bastante. E qualquer implantação, seja como tutor, vendedor ou codificador, precisa vir com um aviso proeminente dizendo isso.
O CEO da OpenAI, Sam Altman, discutiu isso em janeiro, quando questionado sobre os recursos do então não anunciado GPT-4: “As pessoas estão implorando para ficarem desapontadas e ficarão. O hype é como … Não temos um AGI real e isso é o que se espera de nós.
Bem, ainda não há AGI, mas um sistema com capacidade mais ampla do que tínhamos antes. Agora esperamos a parte mais importante: ver exatamente como e onde será usado.