Encontre o melhor aplicativo com tecnologia de IA para transcrever seu áudio

Aplicativos de transcrição – aplicativos que gravam e fazem transcrições de texto da conversa – têm sido uma forma extremamente útil de manter registros para muitos de nós. Isto não se aplica apenas aos jornalistas, que, claro, muitas vezes mantêm registos das suas entrevistas. Quando você está cuidando de um familiar doente, por exemplo, ter um registro gravado e transcrito de uma conversa com o médico pode ser muito útil. E quando você estiver lidando com o representante da seguradora depois – bem, nada disse.

Existem dois tipos de serviços de transcrição disponíveis online hoje: um que usa um mecanismo de IA e outro que usa transcritores humanos. Este último é geralmente muito mais preciso, mas também é consideravelmente mais caro. Como resultado, a maioria das pessoas utiliza serviços orientados por IA para interpretar e transcrever o seu áudio – e é certo que, à medida que os serviços de IA melhoraram, o mesmo aconteceu com as transcrições. Aqui está uma lista de alguns dos serviços de transcrição baseados em IA disponíveis.

Uma coisa a ter em conta: a qualidade da transcrição fornecida por estas aplicações pode variar bastante, dependendo não só do motor de IA que a aplicação está a utilizar, mas também da qualidade do seu ficheiro de áudio. Se houver muitas vozes falando ao mesmo tempo, se houver muito ruído de fundo, se os alto-falantes tiverem sotaques desconhecidos da ferramenta de IA – tudo isso pode servir para degradar a precisão da transcrição. Portanto, uma boa ideia é experimentar um serviço de transcrição com um arquivo típico para ver seu desempenho.

E considere qual aplicativo pode ser mais econômico para você. Se você precisar fazer upload apenas de um arquivo ocasional, talvez seja melhor optar por uma versão gratuita ou um dos serviços pré-pagos. Se você faz uploads regulares, uma assinatura mensal ou anual pode funcionar melhor para você.

A Otter desenvolveu uma interface de transcrição bem organizada.
Captura de tela: Lontra

Otter foi um dos serviços de transcrição mais populares – isto é, até agosto de 2022, quando anunciou downgrades dos serviços que oferece em dois de seus planos e aumentou o preço de seu plano mensal.

Dito isso, o Otter oferece uma gama bastante impressionante de serviços, incluindo a capacidade de gravar facilmente reuniões do Zoom e do Google Meet e organizar suas transcrições em pastas e seus contatos em grupos. Há também um recurso de IA separado que ajuda nas pesquisas de conteúdo, e cada transcrição inclui um resumo gerado por IA, incluindo uma lista de itens de ação e um esboço.

Conforme mencionado, houve uma série de mudanças nos preços e recursos da empresa. Por exemplo, os usuários gratuitos não têm mais acesso a todas as suas transcrições anteriores — apenas às últimas 25 (as demais serão arquivadas). Você pode fazer até 300 minutos de transcrição por mês, com no máximo 30 minutos por conversa, e pode importar até três arquivos de áudio ou vídeo.

Os clientes pagantes que estão no plano Pro da Otter (US$ 16,99/mês ou US$ 110,04 por ano) já tiveram um subsídio mensal de 6.000 minutos de áudio transcrito e um máximo de quatro horas por conversa; hoje em dia, eles ganham 1.200 minutos e 90 minutos por conversa; mas todas as suas conversas estão disponíveis e eles podem importar 10 conversas de áudio ou vídeo por mês.

O plano Business da Otter (US$ 30 por mês ou US$ 240 anualmente) ainda tem 6.000 minutos por mês / quatro horas por conversação, além de outros recursos.

Temi possui uma interface simples e fácil de entender.
Imagem: Temi

Temi é um serviço básico de transcrição de propriedade da mesma empresa proprietária do Rev – na verdade, na primeira vez que você for lá, é provável que você seja incentivado a experimentar o Rev primeiro. Depois de superar isso, o Temi oferece recursos como a capacidade de revisar e editar suas transcrições, desacelerar a reprodução e exportar seus arquivos para arquivos de texto (Microsoft Word, PDF) ou legenda oculta (SRT, VTT). Seus aplicativos móveis para Android e iOS permitem gravar áudio; você pode então optar por transcrevê-lo por simples 25 centavos por minuto de áudio ou fazer upload de suas próprias gravações pelo mesmo preço. Novos usuários ganham os primeiros 45 minutos grátis.

Rev Max agora oferece transcrições automatizadas, além de seus serviços humanos.
Imagem: Rev.

Rev já existe há algum tempo; até recentemente, estava disponível principalmente para quem desejava serviços de transcrição humana. Em seguida, a empresa lançou o Rev Max, um serviço de transcrição de IA que oferece 20 horas de serviços de transcrição automatizados e transcrições Zoom por US$ 29,99 por mês. (Se você ultrapassar a marca de 20 horas, serão cobrados 25 centavos por minuto até o início do próximo mês.) Você também recebe um desconto de 5% em qualquer serviço de transcrição humano. Há um período de teste gratuito de 14 dias, mas você precisa inserir um cartão de crédito para obtê-lo.

Assim como o Otter, o MeetGeek oferece uma versão limitada gratuita.
Imagem: MeetGeek

MeetGeek se autodenomina “um assistente de reunião de IA”. Ou seja, sua concentração está na transcrição de reuniões (embora possa ser utilizada para outros áudios). Possui uma versão gratuita que permite criar transcrições a partir de fontes de áudio e vídeo – você pode gravar cinco horas de áudio por mês e reter transcrições de três meses e áudio de um mês. Por US$ 19/mês ou US$ 180/ano, uma versão Pro oferece 20 horas de transcrição por mês, um ano de retenção de transcrição e seis meses de armazenamento de vídeo. Existem também versões Business e Enterprise. Novos usuários recebem uma avaliação de 14 dias do plano Business, que custa US$ 39 por mês ou US$ 372 por ano e oferece 100 horas de transcrição por mês, armazenamento ilimitado de transcrições e 12 meses de retenção de vídeo.

Trint oferece serviços de transcrição e tradução.
Imagem: Trint

O site da Trint deixa óbvio que está levando seus serviços de transcrição de IA para usuários criativos; um dos títulos da primeira página anuncia: “Nosso DNA é contar histórias”. Segundo Trint, ele pode transcrever em mais de 40 idiomas diferentes. O plano Starter 300 (US$ 80/mês ou US$ 624/ano) permite transcrever até 300 minutos por mês e fazer três traduções por mês, capturar áudio de seu aplicativo móvel (iPhone ou Android) e editar e compartilhar transcrições. O plano Avançado (US$ 100/mês ou US$ 720/ano) adiciona 1.200 minutos de transcrição junto com 20 traduções e a capacidade de automatizar fluxos de trabalho. Um teste gratuito de sete dias permite experimentar o plano Avançado.

Sonix usa um plano pré-pago.
Imagem: Sonix

Sonix oferece traduções automatizadas em mais de 49 idiomas. Inclui a capacidade usual de editar suas transcrições, um carimbo de data/hora palavra por palavra e a capacidade de fazer upload de transcrições de outros programas e juntá-las a novos. Como muitos serviços de transcrição hoje em dia, adicionou alguns recursos de IA, como legendas e resumos automatizados. Você pode exportar suas transcrições em DOCX, TXT e PDF e exportar legendas nos formatos SRT e VTT. Sonix começa com um plano padrão pré-pago que custa US$ 10 por hora de áudio (proporcional ao minuto mais próximo). Há também um plano de assinatura Premium (US$ 5 por hora de áudio mais US$ 22/mês ou US$ 198/ano) que adiciona vários recursos e 100 GB de armazenamento. Novos usuários ganham 30 minutos grátis de transcrição.

Alice envia suas gravações e transcrições para seu endereço de e-mail.

Enquanto o MeetGeek se concentra nas transcrições de reuniões, Alice se autodenomina um serviço de transcrição para jornalistas. Os outros serviços armazenam suas transcrições (algumas com limite de tempo, outras sem) e permitem editá-las on-line, mas Alice não; em vez disso, ele envia o arquivo de áudio e a transcrição para o seu endereço de e-mail e os adiciona ao Google Drive ou Dropbox. Também é fácil de usar; basta tocar em qualquer lugar do aplicativo do telefone para iniciá-lo e deslizar para pausar. Alice paga conforme o uso: US$ 9,99 por uma ou duas horas de áudio; $ 99,80 por 20 horas; ou $ 299 por 100 horas. Você ganha os primeiros 60 minutos grátis e pode usá-los com um aplicativo iOS ou pela web. Não há aplicativo Android.

Se você possui um telefone Android, uma das maneiras mais fáceis de obter uma transcrição decente é usar o aplicativo Gravador gratuito do Google. (Se você possui um Pixel, talvez já o tenha; caso contrário, você pode baixar o Recorder na Play Store para ver se funciona com o seu telefone.) Para iniciar uma gravação, basta pressionar um grande botão vermelho. Para pausar, você pressiona novamente. Botões menores em ambos os lados permitem excluir ou salvar a gravação. Acima do botão está o tempo do áudio e acima dele estão dois botões para Áudio e Transcrição. Para ver o texto, toque em Transcrição. Você pode editar o texto, pesquisá-lo (afinal, este é o Google) e compartilhar o áudio ou a transcrição. Se você tiver um Pixel 6 e posterior, poderá ativar rótulos diferentes para alto-falantes diferentes.

A versão para Mac do Whisper é fácil de instalar e oferece uma variedade de modelos de transcrição.

O Whisper da OpenAI é um projeto de transcrição de código aberto fácil de usar, especialmente se você preferir manter suas transcrições fora da nuvem. Há um aplicativo para Mac disponível que facilita a instalação e o uso se você não estiver familiarizado com Python e ferramentas de desenvolvedor; se estiver, melhor ainda. Se você estiver usando o aplicativo de desktop Mac, a versão gratuita oferece vários níveis de transcrição (quanto mais lento, melhor); uma versão Pro custa US$ 6,99 por mês ou US$ 24,99 por ano (com uma avaliação gratuita de sete dias) e permite fazer coisas como transcrever podcasts e URLs do YouTube. (Se a OpenAI se encontrará em uma confusão para treinar seu software usando o YouTube é outra questão.)

Atualização de 11 de abril de 2024, 16h42 horário do leste dos EUA: Este artigo foi publicado originalmente em 24 de agosto de 2022. Desde então, várias entradas foram atualizadas, incluindo informações sobre o plano de negócios da Otter, enquanto entradas para Rev Max, Alice, Google Recorder e Whisper foram adicionadas, e uma entrada para Scribie foi foi removido.

theverge