Meta diz que Llama 3 supera a maioria dos outros modelos, incluindo Gemini

O Llama 3 apresenta atualmente dois pesos de modelo, com parâmetros 8B e 70B. (O B significa bilhões e representa o quão complexo é um modelo e quanto de seu treinamento ele compreende.) Até o momento, ele oferece apenas respostas baseadas em texto, mas Meta diz que elas são “um grande salto” em relação à versão anterior. A Lhama 3 mostrou mais diversidade nas respostas às solicitações, teve menos recusas falsas quando se recusou a responder às perguntas e conseguiu raciocinar melhor. Meta também diz que o Llama 3 entende mais instruções e escreve código melhor do que antes.

Na postagem, Meta afirma que ambos os tamanhos do Llama 3 superaram modelos de tamanhos semelhantes, como Gemma e Gemini do Google, Mistral 7B e Claude 3 da Anthropic em certos testes de benchmarking. No benchmark MMLU, que normalmente mede o conhecimento geral, o Llama 3 8B teve um desempenho significativamente melhor do que o Gemma 7B e o Mistral 7B, enquanto o Llama 3 70B superou ligeiramente o Gemini Pro 1.5.

(Talvez seja notável que a postagem de 2.700 palavras do Meta não mencione o GPT-4, o modelo principal da OpenAI.)

Deve-se notar também que os modelos de IA de teste de benchmark, embora úteis para compreender o quão poderosos eles são, são imperfeitos. Descobriu-se que os conjuntos de dados usados ​​para avaliar modelos fazem parte do treinamento de um modelo, o que significa que o modelo já sabe as respostas às perguntas que os avaliadores lhe farão.

Os testes de benchmark mostram que ambos os tamanhos do Llama 3 superam modelos de linguagem de tamanhos semelhantes.
Captura de tela: Emilia David / The Verge

Meta diz avaliadores humanos também classificaram o Llama 3 como superior a outros modelos, incluindo o GPT-3.5 da OpenAI. Meta diz que criou um novo conjunto de dados para avaliadores humanos para emular cenários do mundo real onde o Llama 3 pode ser usado. Este conjunto de dados incluía casos de uso como pedido de conselhos, resumos e redação criativa. A empresa afirma que a equipe que trabalhou no modelo não teve acesso a esses novos dados de avaliação e isso não influenciou no desempenho do modelo.

“Este conjunto de avaliação contém 1.800 prompts que cobrem 12 casos de uso principais: solicitação de conselhos, brainstorming, classificação, resposta a perguntas fechadas, codificação, escrita criativa, extração, habitar um personagem/persona, resposta a perguntas abertas, raciocínio, reescrita e resumo, ”Meta diz em sua postagem no blog.

O Llama 3 teve um desempenho melhor do que a maioria dos modelos em avaliações humanas, diz Meta.
Captura de tela: Emilia David / The Verge

Espera-se que o Llama 3 obtenha tamanhos de modelo maiores (que podem compreender sequências mais longas de instruções e dados) e seja capaz de respostas mais multimodais, como “Gerar uma imagem” ou “Transcrever um arquivo de áudio”. Meta diz que essas versões maiores, que têm mais de 400B de parâmetros e podem idealmente aprender padrões mais complexos do que as versões menores do modelo, estão atualmente em treinamento, mas os testes iniciais de desempenho mostram que esses modelos podem responder a muitas das questões colocadas pelo benchmarking.

A Meta não divulgou uma prévia desses modelos maiores e não os comparou com outros modelos grandes como o GPT-4.

theverge

Deixe um comentário