Confira esta demonstração de assistente de voz inteligente hackeada junto com GPT-3 e Siri

Um desenvolvedor montou uma demonstração GPT-3 que tenta aprimorar o assistente de voz Siri da Apple e permitir comandos de voz muito mais conversacionais. Em um vídeo postado no Reddit, o desenvolvedor Mate Marschalko mostra o assistente controlando seus dispositivos domésticos inteligentes HomeKit e respondendo a perguntas em resposta a solicitações relativamente vagas que os assistentes de voz de hoje, como Siri, normalmente teriam dificuldade em entender.

Por exemplo, a IA é mostrada acendendo as luzes de Marschalko em resposta ao prompt de voz “Reparei que estou gravando este vídeo no escuro no escritório, você pode fazer algo sobre isso?” Mais adiante no vídeo, Marschalko pede ao assistente para ajustar seu quarto a uma temperatura que “me ajude a dormir melhor”, e ele responde ajustando o termostato do quarto para 19 graus Celsius.

“Acabei de perceber que estou gravando este vídeo no escuro no escritório, você pode fazer algo sobre isso?”

Em uma postagem de blog que acompanha, Marschalko explica como funciona a demonstração. Essencialmente, ele está usando o aplicativo Atalhos da Apple para fazer a interface entre Siri, GPT-3 e seus dispositivos domésticos inteligentes habilitados para HomeKit. Um comando de voz para a Siri faz com que o Atalhos envie um prompt longo ao serviço de IA solicitando uma resposta em um formato legível por máquina. Assim que recebe uma resposta, o Atalhos a analisa para controlar dispositivos domésticos inteligentes e/ou responder via Siri. Vale a pena ler a postagem do blog em sua totalidade para uma explicação mais completa.

É uma demonstração intrigante e mostra do que os assistentes de voz poderiam ser capazes de integrar esta nova geração de tecnologia de IA, mas não é perfeito. Para começar, Marschalko diz que cada comando custa US$ 0,014 por solicitação de API enviada ao GPT-3. O vídeo também é editado, então não está claro se a demonstração funciona 100% do tempo ou se as respostas estão sendo mostradas seletivamente. Um back-end mais inteligente também não ajudará em nada se o software de reconhecimento de voz não puder entender quais palavras um usuário está dizendo em primeiro lugar.

A demonstração levanta questões maiores sobre como queremos que os assistentes de voz funcionem. Você realmente quer conversar com um assistente de voz ou apenas pode latir comandos curtos e simples para controlá-lo como um robô? O próprio Marschalko também levanta o risco de o assistente dizer “coisas inesperadas” em um comentário do Reddit:

No entanto, a demonstração ainda oferece dicas fascinantes de que tipo de interações de assistente de voz podem ser possíveis em breve se empresas como Apple, Amazon e Google integrarem essa tecnologia em seus serviços. E é impressionante que essas ferramentas sejam abertas e acessíveis o suficiente para que uma demonstração relativamente engenhosa como essa possa ser hackeada usando um software de consumo amplamente disponível.

Deixe uma resposta