Usei a nova tecnologia da OpenAI para transcrever áudio diretamente no meu laptop

OpenAI, a empresa por trás do programa de geração de imagens e geração de memes DALL-E e o poderoso mecanismo de preenchimento automático de texto GPT-3, lançou uma nova rede neural de código aberto destinada a transcrever áudio em texto escrito (via TechCrunch). Chama-se Whisper, e a empresa diz que “aproxima-se da robustez e precisão do nível humano no reconhecimento de fala em inglês” e que também pode reconhecer, transcrever e traduzir automaticamente outros idiomas, como espanhol, italiano e japonês.

Como alguém que está constantemente gravando e transcrevendo entrevistas, fiquei imediatamente empolgado com essa notícia – pensei que seria capaz de escrever meu próprio aplicativo para transcrever áudio com segurança diretamente do meu computador. Embora serviços baseados em nuvem como Otter.ai e Trint funcionem para a maioria das coisas e sejam relativamente seguros, há apenas algumas entrevistas em que eu ou minhas fontes nos sentiríamos mais confortáveis ​​se o arquivo de áudio ficasse fora da Internet.

Usá-lo acabou sendo ainda mais fácil do que eu imaginava; Eu já tenho o Python e várias ferramentas de desenvolvedor configuradas no meu computador, então instalar o Whisper foi tão fácil quanto executar um único comando do Terminal. Em 15 minutos, consegui usar o Whisper para transcrever um clipe de áudio de teste que gravei. Para alguém relativamente experiente em tecnologia que ainda não tenha Python, FFmpeg, Xcode e Homebrew configurados, provavelmente levaria cerca de uma ou duas horas. Já existe alguém trabalhando para tornar o processo muito mais simples e fácil de usar, sobre o qual falaremos em apenas um segundo.

Aplicativos de linha de comando obviamente não são para todos, mas para algo que está fazendo um trabalho relativamente complexo, o Whisper é muito fácil de usar.

Embora a OpenAI definitivamente tenha visto esse caso de uso como uma possibilidade, está bem claro que a empresa está visando principalmente pesquisadores e desenvolvedores com este lançamento. Na postagem do blog anunciando o Whisper, a equipe disse que seu código pode “servir como base para a criação de aplicativos úteis e para pesquisas adicionais sobre processamento de fala robusto” e que espera que “a alta precisão e facilidade de uso do Whisper permitam aos desenvolvedores adicionar interfaces de voz para um conjunto muito mais amplo de aplicações.” Essa abordagem ainda é notável, no entanto – a empresa tem acesso limitado a seus projetos de aprendizado de máquina mais populares, como DALL-E ou GPT-3, citando o desejo de “aprender mais sobre o uso no mundo real e continuar a iterar em nossos sistemas de segurança .”

Imagem mostrando um arquivo de texto com as letras transcritas da música de Yung Gravy “Betty (Get Money)”.  A transcrição contém muitas imprecisões.

Há também o fato de que não é exatamente um processo fácil de usar para instalar o Whisper para a maioria das pessoas. No entanto, o jornalista Peter Sterne se uniu à defensora do desenvolvedor do GitHub, Christina Warren para tentar consertar isso, anunciando que estão criando um “aplicativo de transcrição gratuito, seguro e fácil de usar para jornalistas” baseado no modelo de aprendizado de máquina do Whisper. Falei com Sterne, e ele disse que decidiu que o programa, apelidado de Stage Whisper, deveria existir depois que ele fez algumas entrevistas e determinou que era “a melhor transcrição que já usei, com exceção de transcritores humanos”.

Comparei uma transcrição gerada pelo Whisper com o que Otter.ai e Trint publicaram para o mesmo arquivo, e diria que era relativamente comparável. Havia erros suficientes em todos eles que eu nunca copiaria e colaria citações deles em um artigo sem verificar novamente o áudio (o que é, é claro, a melhor prática de qualquer maneira, não importa qual serviço você esteja usando). Mas a versão de Whisper certamente faria o trabalho para mim; Posso pesquisá-lo para encontrar as seções de que preciso e, em seguida, verifique-as manualmente. Em teoria, o Stage Whisper deve ter exatamente o mesmo desempenho, pois usará o mesmo modelo, apenas com uma GUI envolvida.

Sterne admitiu que a tecnologia da Apple e do Google pode tornar o Stage Whisper obsoleto dentro de alguns anos – o aplicativo de gravador de voz do Pixel é capaz de fazer transcrições offline há anos, e uma versão desse recurso está começando a ser lançada em alguns outros dispositivos Android. e a Apple tem ditado offline embutido no iOS (embora atualmente não haja uma boa maneira de transcrever arquivos de áudio com ele). “Mas não podemos esperar tanto tempo”, disse Sterne. “Jornalistas como nós precisam de bons aplicativos de transcrição automática hoje.” Ele espera ter uma versão básica do aplicativo baseado em Whisper pronta em duas semanas.

Para ser claro, o Whisper provavelmente não tornará serviços totalmente obsoletos baseados em nuvem como Otter.ai e Trint, não importa o quão fácil seja de usar. Por um lado, o modelo da OpenAI está perdendo um dos maiores recursos dos serviços tradicionais de transcrição: ser capaz de rotular quem disse o quê. Sterne disse que o Stage Whisper provavelmente não suportaria esse recurso: “não estamos desenvolvendo nosso próprio modelo de aprendizado de máquina”.

A nuvem é apenas o computador de outra pessoa – o que provavelmente significa que é um pouco mais rápido

E enquanto você obtém os benefícios do processamento local, também obtém as desvantagens. A principal é que seu laptop é quase certamente significativamente menos poderoso do que os computadores que um serviço de transcrição profissional está usando. Por exemplo, eu coloquei o áudio de uma entrevista de 24 minutos no Whisper, rodando no meu MacBook Pro M1; levou cerca de 52 minutos para transcrever todo o arquivo. (Sim, eu me certifiquei de que estava usando a versão Apple Silicon do Python em vez da Intel.) Otter cuspiu uma transcrição em menos de oito minutos.

A tecnologia da OpenAI tem uma grande vantagem – preço. Os serviços de assinatura baseados em nuvem quase certamente custarão dinheiro se você os estiver usando profissionalmente (o Otter tem um nível gratuito, mas as próximas alterações o tornarão menos útil para pessoas que estão transcrevendo coisas com frequência) e os recursos de transcrição criados – em plataformas como o Microsoft Word ou o Pixel exigem que você pague por software ou hardware separado. O Stage Whisper — e o próprio Whisper — é gratuito e pode ser executado no computador que você já possui.

Mais uma vez, o OpenAI tem mais esperanças para o Whisper do que ser a base para um aplicativo de transcrição seguro – e estou muito empolgado com o que os pesquisadores acabam fazendo com ele ou o que aprenderão observando o modelo de aprendizado de máquina, que foi treinado em “680.000 horas de dados supervisionados multilíngues e multitarefa coletados da web”. Mas o fato de que também tem um uso real e prático hoje o torna ainda mais emocionante.



Deixe um comentário

https://linkmycontent.com/wp-content/uploads/situs-judi-slot-gacor-gampang-menang/

https://threeguru.com/wp-content/uploads/situs-slot-gacor-gampang-menang/

https://www.padslakecounty.org/wp-content/uploads/rekomendasi-situs-slot-gacor-gampang-menang/

https://sandpointmedspa.com/wp-content/uploads/bocoran-situs-slot-gacor-gampang-menang/

https://ihmcathedral.com/wp-includes/daftar-situs-slot-gacor-gampang-menang/

https://irisprojects.com/daftar-judi-slot-online-jackpot-terbesar/

www.techeasypay.com/slot-gacor-online-gampang-menang

https://www.clinicavalparaiso.cl/kumpulan-situs-slot-gacor-terbaik-gampang-menang-resmi/

https://www.forumartcentre.com/wp-includes/slot-gacor/

https://lawschoolsecretstosuccess.com/wp-includes/slot-gacor/

https://threeguru.com/wp-includes/link-situs-slot-gacor/