A pesquisa de IA da Apple sugere que recursos estão chegando para Siri, artistas e muito mais.

Seria fácil pensar que a Apple está atrasada para o jogo de IA. Desde o final de 2022, quando o ChatGPT conquistou o mundo, a maioria dos concorrentes da Apple se esforçou para alcançá-los. Embora a Apple certamente tenha falado sobre IA e até lançado alguns produtos com IA em mente, ela parecia estar mergulhando de cabeça, em vez de mergulhar de cabeça.

Mas, nos últimos meses, rumores e relatórios sugeriram que a Apple, na verdade, estava apenas ganhando tempo, esperando para agir. Houve relatos nas últimas semanas de que a Apple está conversando com a OpenAI e o Google sobre como potencializar alguns de seus recursos de IA, e a empresa também está trabalhando em seu próprio modelo, chamado Ajax.

Se você examinar a pesquisa publicada sobre IA pela Apple, começa a surgir uma imagem de como a abordagem da Apple à IA pode ganhar vida. Agora, obviamente, fazer suposições sobre produtos com base em artigos de pesquisa é uma ciência profundamente inexata – a linha que vai da pesquisa às prateleiras das lojas é ventosa e cheia de buracos. Mas você pode pelo menos ter uma noção do que a empresa é pensamento sobre – e como seus recursos de IA podem funcionar quando a Apple começar a falar sobre eles em sua conferência anual de desenvolvedores, WWDC, em junho.

Modelos menores e mais eficientes

Suspeito que você e eu esperamos a mesma coisa aqui: melhor Siri. E parece que o Better Siri está chegando! Há uma suposição em muitas pesquisas da Apple (e em grande parte da indústria de tecnologia, do mundo e de todos os lugares) de que grandes modelos de linguagem tornarão imediatamente os assistentes virtuais melhores e mais inteligentes. Para a Apple, chegar ao Better Siri significa fabricar esses modelos o mais rápido possível – e garantir que eles estejam em todos os lugares.

No iOS 18, a Apple planeja ter todos os seus recursos de IA rodando em um modelo totalmente offline no dispositivo, Bloomberg recentemente relatado. É difícil construir um bom modelo multifuncional mesmo quando você tem uma rede de data centers e milhares de GPUs de última geração – é drasticamente mais difícil fazer isso apenas com a coragem dentro do seu smartphone. Então a Apple está tendo que ser criativa.

Em um artigo chamado “LLM in a flash: Efficient Large Language Model Inference with Limited Memory” (todos esses artigos têm títulos realmente chatos, mas são realmente interessantes, eu prometo!), os pesquisadores desenvolveram um sistema para armazenar os dados de um modelo, que geralmente é armazenado na RAM do seu dispositivo, no SSD. “Demonstramos a capacidade de executar LLMs com até o dobro do tamanho da DRAM disponível [on the SSD]”, escreveram os pesquisadores, “alcançando uma aceleração na velocidade de inferência de 4 a 5x em comparação com os métodos de carregamento tradicionais na CPU e de 20 a 25x na GPU”. Eles descobriram que, ao aproveitar o armazenamento mais barato e disponível em seu dispositivo, os modelos podem funcionar com mais rapidez e eficiência.

Os pesquisadores da Apple também criaram um sistema chamado EELBERT que pode essencialmente compactar um LLM em um tamanho muito menor sem torná-lo significativamente pior. Sua versão compactada do modelo Bert do Google era 15 vezes menor – apenas 1,2 megabytes – e teve apenas uma redução de 4% na qualidade. No entanto, ele veio com algumas compensações de latência.

Em geral, a Apple está se esforçando para resolver uma tensão central no mundo dos modelos: quanto maior se torna um modelo, melhor e mais útil ele pode ser, mas também mais pesado, sedento de energia e lento ele pode se tornar. Como tantas outras, a empresa está tentando encontrar o equilíbrio certo entre todas essas coisas, ao mesmo tempo que procura uma maneira de ter tudo.

Siri, mas bom

Muito do que falamos quando falamos sobre produtos de IA são assistentes virtuais – assistentes que sabem coisas, que podem nos lembrar de coisas, que podem responder perguntas e realizar tarefas em nosso nome. Portanto, não é exatamente chocante que muitas das pesquisas sobre IA da Apple se reduzam a uma única pergunta: e se a Siri fosse muito, muito, muito boa?

Um grupo de pesquisadores da Apple está trabalhando em uma maneira de usar o Siri sem a necessidade de usar uma palavra de ativação; em vez de ouvir “Hey Siri” ou “Siri”, o dispositivo pode simplesmente intuir se você está falando com ele. “Este problema é significativamente mais desafiador do que a detecção de gatilho de voz”, reconheceram os pesquisadores, “uma vez que pode não haver uma frase de gatilho principal que marque o início de um comando de voz”. Talvez seja por isso que outro grupo de pesquisadores desenvolveu um sistema para detectar palavras de ativação com mais precisão. Outro artigo treinou um modelo para compreender melhor palavras raras, que muitas vezes não são bem compreendidas pelos assistentes.

Em ambos os casos, o apelo de um LLM é que ele pode, em teoria, processar muito mais informações com muito mais rapidez. No artigo wake-word, por exemplo, os pesquisadores descobriram que, não tentando descartar todos os sons desnecessários, mas, em vez disso, alimentando o modelo com tudo e deixando-o processar o que importa e o que não importa, a palavra de ativação funcionou de maneira muito mais confiável.

Depois que o Siri ouve você, a Apple está trabalhando muito para garantir que ele entenda e se comunique melhor. Em um artigo, ele desenvolveu um sistema chamado STEER (que significa Semantic Turn Extension-Expansion Recognition, então usaremos STEER) que visa melhorar sua comunicação de ida e volta com um assistente, tentando descobrir quando você você está fazendo uma pergunta de acompanhamento e quando você está fazendo uma nova. Em outro, ele usa LLMs para entender melhor “consultas ambíguas” e descobrir o que você quer dizer, não importa como você o diga. “Em circunstâncias incertas”, escreveram eles, “os agentes conversacionais inteligentes podem precisar de tomar a iniciativa para reduzir a sua incerteza, fazendo boas perguntas de forma proactiva, resolvendo assim os problemas de forma mais eficaz”. Outro artigo também pretende ajudar nisso: pesquisadores usaram LLMs para tornar os assistentes menos prolixos e mais compreensíveis ao gerar respostas.

Em breve, você poderá editar suas fotos apenas solicitando as alterações.
Imagem: Maçã

IA na saúde, editores de imagem, em seus Memojis

Sempre que a Apple fala publicamente sobre IA, ela tende a se concentrar menos no poder tecnológico bruto e mais nas coisas do dia a dia que a IA pode realmente fazer por você. Portanto, embora haja muito foco no Siri – especialmente porque a Apple procura competir com dispositivos como o Humane AI Pin, o Rabbit R1 e a contínua destruição do Gemini pelo Google em todo o Android – há muitas outras maneiras pelas quais a Apple parece ver IA sendo útil.

Um lugar óbvio para a Apple se concentrar é na saúde: os LLMs poderiam, em teoria, ajudar a percorrer os oceanos de dados biométricos coletados por seus vários dispositivos e ajudá-lo a entender tudo isso. Portanto, a Apple tem pesquisado como coletar e agrupar todos os seus dados de movimento, como usar o reconhecimento de marcha e seus fones de ouvido para identificá-lo e como rastrear e compreender seus dados de frequência cardíaca. A Apple também criou e lançou “o maior conjunto de dados de atividade humana baseado em sensores para vários dispositivos e vários locais” disponível após coletar dados de 50 participantes com vários sensores corporais.

A Apple também parece imaginar a IA como uma ferramenta criativa. Para um artigo, os pesquisadores entrevistaram vários animadores, designers e engenheiros e construíram um sistema chamado Keyframer que “permite[s] usuários construam e refinem iterativamente os projetos gerados.” Em vez de digitar um prompt e obter uma imagem e, em seguida, digitar outro prompt para obter outra imagem, você começa com um prompt, mas depois obtém um kit de ferramentas para ajustar e refinar partes da imagem de acordo com sua preferência. Você poderia imaginar esse tipo de processo artístico de ida e volta aparecendo em qualquer lugar, desde o criador do Memoji até algumas das ferramentas artísticas mais profissionais da Apple.

Em outro artigo, a Apple descreve uma ferramenta chamada MGIE que permite editar uma imagem apenas descrevendo as edições que deseja fazer. (“Deixe o céu mais azul”, “deixe meu rosto menos estranho”, “adicione algumas pedras”, esse tipo de coisa.) “Em vez de uma orientação breve, mas ambígua, o MGIE deriva uma intenção explícita de consciência visual e leva a uma edição de imagem razoável ”, escreveram os pesquisadores. Seus experimentos iniciais não foram perfeitos, mas foram impressionantes.

Poderíamos até obter alguma IA no Apple Music: para um artigo chamado “Cancelamento de voz para canto estéreo com restrição de recursos”, os pesquisadores exploraram maneiras de separar vozes de instrumentos em músicas – o que pode ser útil se a Apple quiser fornecer às pessoas ferramentas para, digamos , remixe músicas da maneira que você pode no TikTok ou Instagram.

No futuro, a Siri poderá entender e usar seu telefone para você.
Imagem: Maçã

Com o tempo, aposto que esse é o tipo de coisa em que você verá a Apple se inclinar, especialmente no iOS. Algumas delas a Apple incorporará em seus próprios aplicativos; alguns serão oferecidos a desenvolvedores terceirizados como APIs. (O recente recurso Journaling Suggestions é provavelmente um bom guia de como isso pode funcionar.) A Apple sempre alardeou seus recursos de hardware, especialmente em comparação com o dispositivo Android comum; combinar toda essa potência com IA focada na privacidade no dispositivo pode ser um grande diferencial.

Mas se você quiser ver o maior e mais ambicioso projeto de IA acontecendo na Apple, você precisa conhecer o Ferret. Ferret é um modelo multimodal de linguagem grande que pode receber instruções, focar em algo específico que você circulou ou selecionou e compreender o mundo ao seu redor. Ele foi projetado para o caso de uso agora normal de IA de perguntar a um dispositivo sobre o mundo ao seu redor, mas também pode ser capaz de entender o que está na sua tela. No artigo do Ferret, os pesquisadores mostram que isso pode ajudá-lo a navegar pelos aplicativos, responder perguntas sobre as classificações da App Store, descrever o que você está vendo e muito mais. Isso tem implicações realmente interessantes para a acessibilidade, mas também pode mudar completamente a maneira como você usa seu telefone – e seu Vision Pro e/ou óculos inteligentes algum dia.

Estamos nos adiantando muito aqui, mas você pode imaginar como isso funcionaria com algumas das outras coisas em que a Apple está trabalhando. Um Siri que consegue entender o que você deseja, emparelhado com um dispositivo que consegue ver e entender tudo o que está acontecendo no seu display, é um telefone que pode literalmente usar a si mesmo. A Apple não precisaria de integrações profundas com tudo; ele poderia simplesmente executar os aplicativos e tocar nos botões certos automaticamente.

Mais uma vez, tudo isto é apenas investigação, e que tudo isto funcionasse bem a partir desta primavera seria uma conquista técnica legitimamente inédita. (Quero dizer, você já experimentou chatbots – você sabe que eles não são ótimos.) Mas aposto qualquer coisa que receberemos grandes anúncios de IA na WWDC. O CEO da Apple, Tim Cook, até provocou isso em fevereiro e basicamente prometeu isso na teleconferência de resultados desta semana. E duas coisas são muito claras: a Apple está na corrida pela IA e isso pode significar uma reformulação total do iPhone. Caramba, você pode até começar a usar o Siri de boa vontade! E isso seria uma grande conquista.

theverge

Deixe um comentário