Microsoft lança Phi-3, seu menor modelo de IA até agora

A Microsoft lançou a próxima versão de seu modelo leve de IA Phi-3 Mini, o primeiro de três modelos pequenos que a empresa planeja lançar.

O Phi-3 Mini mede 3,8 bilhões de parâmetros e é treinado em um conjunto de dados menor em relação ao modelos de linguagem grandes como GPT-4. Agora está disponível no Azure, Hugging Face e Ollama. A Microsoft planeja lançar Phi-3 Small (parâmetros 7B) e Phi-3 Medium (parâmetros 14B). Os parâmetros referem-se a quantas instruções complexas um modelo pode compreender.

A empresa lançou o Phi-2 em dezembro, que teve um desempenho tão bom quanto modelos maiores como o Llama 2. A Microsoft diz que o Phi-3 tem um desempenho melhor que a versão anterior e pode fornecer respostas próximas de um modelo 10 vezes maior do que ele.

Eric Boyd, vice-presidente corporativo da Microsoft Azure AI Platform, conta A beira Phi-3 Mini é tão capaz quanto LLMs como GPT-3.5 “apenas em um formato menor”.

Em comparação com os seus homólogos maiores, pequenos modelos de IA geralmente são mais baratos de operar e apresentam melhor desempenho pessoal dispositivos como telefones e laptops. A informação relatou no início deste ano que a Microsoft estava construindo uma equipe focada especificamente em modelos de IA mais leves. Junto com Phi, a empresa também construiu o Orca-Math, modelo focado na resolução de problemas matemáticos.

Boyd diz que os desenvolvedores treinaram o Phi-3 com um “currículo”. Eles foram inspirados pela forma como as crianças aprenderam com histórias de ninar, livros com palavras mais simples e estruturas de frases que falam sobre tópicos mais amplos.

“Não há livros infantis suficientes por aí, então pegamos uma lista de mais de 3.000 palavras e pedimos a um LLM que fizesse ‘livros infantis’ para ensinar Phi”, diz Boyd.

Ele acrescentou que o Phi-3 simplesmente se baseou no que as iterações anteriores aprenderam. Enquanto Phi-1 se concentrou na codificação e Phi-2 começou a aprender a raciocinar, Phi-3 é melhor em codificação e raciocínio. Embora a família de modelos Phi-3 tenha algum conhecimento geral, ela não pode superar um GPT-4 ou outro LLM em amplitude – há uma grande diferença no tipo de respostas que você pode obter de um LLM treinado em toda a Internet versus um modelo menor como Phi-3.

Boyd diz que as empresas muitas vezes descobrem que modelos menores como o Phi-3 funcionam melhor para seus aplicativos personalizados, já que, para muitas empresas, seus conjuntos de dados internos serão menores de qualquer maneira. E como esses modelos usam menos poder de computação, muitas vezes são muito mais acessíveis.

theverge

Deixe um comentário