Os óculos Ray-Ban Meta Smart agora têm IA multimodal

Quando os óculos Ray-Ban Meta Smart foram lançados no outono passado, eles eram uma ferramenta de captura de conteúdo muito interessante e um par de fones de ouvido surpreendentemente sólido. Mas faltava-lhes uma característica fundamental: IA multimodal. Basicamente, a capacidade de um assistente de IA processar vários tipos de informações, como fotos, áudio e texto. Algumas semanas após o lançamento, a Meta lançou um programa de acesso antecipado, mas para todos os demais a espera acabou. A IA multimodal está chegando para todos.

O momento é estranho. O Humane AI Pin acaba de ser lançado e fracassou com os revisores após uma experiência de usuário universalmente ruim. Tem sido um mau presságio pairando sobre os dispositivos de IA. Mas, tendo mexido um pouco com o acesso antecipado de IA beta nos óculos Ray-Ban Meta Smart nos últimos meses, é um pouco prematuro descartar completamente essa classe de gadget.

Em primeiro lugar, existem algumas expectativas que precisam ser gerenciadas aqui. Os óculos Meta não prometem tudo sob o sol. O comando principal é dizer “Ei Meta, olhe e…” Você pode preencher o resto com frases como “Diga-me o que é esta planta”. Ou leia uma placa em um idioma diferente. Escreva legendas para o Instagram. Identifique e aprenda mais sobre um monumento ou ponto de referência. Os óculos tiram uma foto, a IA se comunica com a nuvem e uma resposta chega aos seus ouvidos. As possibilidades não são ilimitadas e metade da diversão é descobrir onde estão seus limites.

Não está errado. Isso é exatamente o que meu gato é.
Captura de tela de Victoria Song / The Verge

Por exemplo, minha esposa é uma nerd de carros com seu próprio par dessas coisas. Eles também têm acesso antecipado à IA. Minha vida se tornou um jogo sem fim de “A IA do Meta consegue identificar corretamente esse carro aleatório na rua?” Como a maioria das IAs, o Meta às vezes é certeiro e muitas vezes errado. Num belo dia de primavera, minha esposa estava tirando fotos glamorosas de nossos carros: um Alfa Romeo Giulia Quadrifoglio e um Alfa Romeo Tonale. (Não me pergunte por que eles amam tanto os carros italianos. Sou uma garota Camry.) Identificou corretamente o Giulia. O Tonale também era um Giulia. O que é engraçado porque, visualmente, não se parecem em nada. O Giulia é um sedã e o Tonale é um SUV crossover. No entanto, é muito bom para identificar modelos Lexus e Corvettes.

Tentei fazer com que a IA identificasse minhas plantas, todas elas de várias formas de suculentas: haworthia, plantas cobra, plantas de jade, etc. No início, a IA me pediu para descrever minhas plantas porque entendi errado o comando. Ah, sim. Falar com a IA de uma forma que você seja compreendido pode ser como aprender um novo idioma. Então me disse que eu tinha várias suculentas das variedades echeveria, aloe vera e crassula. Verifiquei isso com meu aplicativo Planta – que também pode identificar plantas a partir de fotos usando IA. Eu tenho algumas suculentas de crassula. Pelo que entendi, não existe uma única echeveria.

Foto de Victoria Song / The Verge

A experiência culminante foi quando, um dia, minha esposa entrou estrondosamente em meu escritório. “Querida!!! Tem um esquilo gigante e gordo no quintal do vizinho?! Olhamos pela janela do meu escritório e eis que havia, de fato, um grande roedor vagando por aí. Uma competição tácita começou. Minha esposa, que usa um par de óculos Ray-Ban Meta Smart como óculos diários, tentou de todas as maneiras até domingo fazer com que a IA identificasse a criatura. Peguei meu telefone, tirei uma foto e fui para o meu computador.

Eu venci. Foi uma marmota.

Nesse caso, foi a falta de zoom que fez os óculos entrarem. Ele foi capaz de identificar a marmota assim que minha esposa tirou uma foto da foto no meu telefone. Às vezes não importa se a IA funcionará. É como você ajustará seu comportamento para ajudá-lo.

Para mim, é a mistura de um formato familiar e uma execução decente que torna a IA viável nesses óculos. Como está emparelhado com o seu telefone, há muito pouco tempo de espera pelas respostas. São fones de ouvido, então você se sente menos bobo ao falar com eles porque já está acostumado a falar através de fones de ouvido. Em geral, descobri que a IA é mais útil para identificar coisas quando estamos fora de casa. É uma extensão natural do que eu faria com meu telefone. Encontro algo que me deixa curioso, tiro uma foto e procuro. Desde que você não precise aumentar muito o zoom, este é um caso em que é bom não retirar o telefone.

Adicionar algo novo a um objeto familiar é mais fácil do que pedir às pessoas que aprendam uma maneira totalmente nova de fazer as coisas.
Foto de Amelia Holowaty Krales / The Verge

É mais estranho quando tento realizar tarefas que não necessariamente se enquadram na forma como eu já usaria esses óculos. Por exemplo, os meus são óculos de sol. Eu usaria mais a IA se pudesse usar isso dentro de casa, mas do jeito que está, não sou esse tipo de jabroni. Minha esposa usa muito mais a IA porque ela tem lentes de transição. (E eles realmente gostam de provocar merdas e risadas na IA.) Além disso, para tarefas mais produtivas ou criativas, obtenho melhores resultados fazendo isso sozinho. Quando pedi à IA da Meta para escrever uma legenda engraçada no Instagram para uma foto do meu gato em uma mesa, ela me disse: “Prova de que estou vivo e não sou entregador de pizza”. O humor é subjetivo.

Mas a IA é a característica dos óculos Meta. Não é a apenas recurso. Eles são um par funcional de óculos de transmissão ao vivo e uma boa câmera POV. Eles são um excelente par de fones de ouvido abertos. Adoro usar o meu em corridas e caminhadas ao ar livre. Eu nunca poderia usar a IA e ainda assim ter um produto que funcionasse bem. O fato de estar aqui geralmente funciona e é um ótimo assistente de voz – bem, isso apenas deixa você mais acostumado com a ideia de um computador facial, que é o ponto principal de qualquer maneira.

theverge