Como habilitar o modo de voz avançado no ChatGPT – um guia para o novo recurso de IA

25 September 2024

Entre as novas atualizações do OpenAI, a empresa de tecnologia por trás do ChatGPT anunciou o lançamento de um novo recurso de modo de voz que permitirá aos usuários ter conversas naturais com seu chatbot.

A empresa disse que ainda não está disponível em países da UE, incluindo Islândia, Liechtenstein, Noruega, Suíça ou Reino Unido.

“Espero que valha a pena esperar”, escreveu o fundador e CEO da OpenAI, Sam Altman, em um post no X.

A introdução do modo de voz avançado começa hoje! (devido dentro da semana)

espero que você ache que vale a pena esperar

-Sam Altman (@sama) 24 de setembro de 2024

Aqui está o que você precisa saber sobre isso e como ativar o modo de voz avançado no ChatGPT.

O que é o modo de voz avançado no ChatGPT?

Os bate-papos por voz permitem que os usuários conversem com o ChatGPT, o que significa que você pode ter interações e conversas mais naturais. Quando você pode fazer perguntas ou discutir por voz, o ChatGPT fornece uma resposta verbal.

Atualmente, existem dois tipos de conversas por voz – padrão e avançada.

Advanced Voice está sendo lançado para todos os usuários Plus e Team no aplicativo ChatGPT durante a semana.

Enquanto você esperava pacientemente, adicionamos instruções personalizadas, memória, cinco novas vozes e sotaques aprimorados.

Também pode dizer “Desculpe pelo atraso” em mais de 50 idiomas. pic.twitter.com/APOqqhXtDg

– OpenAI (@OpenAI) 24 de setembro de 2024

ReadWrite relatou que a OpenAI lançou seu novo modo de voz padrão no mês passado. O Standard Voice usa vários modelos de linguagem em larga escala (LLM) para gerar sua resposta, incluindo digitar o que você diz em texto antes de enviá-lo aos modelos OpenAI para obter uma resposta. Embora a voz padrão não seja tão multimodal quanto a voz avançada, as conversas de voz padrão também usam GPT-4o junto com GPT-4o mini. Cada solicitação em voz padrão conta para o seu limite de mensagens.

A diferença do modo avançado é que ele usa os recursos e recursos de áudio originais do GPT-4o. Como resultado, a OpenAI espera criar conversas mais naturais em tempo real que levem em consideração sinais não-verbais, como a velocidade com que o usuário fala, e possam responder com emoções.

No entanto, o uso avançado de voz é limitado pelos usuários diários do Plus e do Team.

Como habilitar o modo de voz no ChatGPT?

Em julho, a OpenAI introduziu um modo avançado de voz somente áudio para um pequeno grupo de usuários do ChatGPT Plus e planeja expandi-lo para todos os clientes no outono.

Embora o compartilhamento de tela e vídeo fizesse parte da demonstração inicial, eles não estão atualmente disponíveis nesta versão alfa e a OpenAI não forneceu um cronograma para sua inclusão.

Além disso, os clientes receberão uma notificação por e-mail quando esse recurso estiver disponível. Uma vez ativado, os usuários podem alternar entre os modos de voz padrão e avançado na parte superior do aplicativo ao usar o recurso de voz do ChatGPT.

Para iniciar um bate-papo por voz, toque no ícone Voz no canto inferior direito da tela.

Se estiver usando voz avançada, você verá um balão azul no centro da tela quando uma conversa começar. Para uma voz padrão, o orbe será preto.

Uma tela de smartphone que mostra uma notificação sobre a aproximação do limite diário de uso avançado de voz. A mensagem diz: "Quase diariamente. Você tem 15 minutos de voz avançada. Ao atingir o limite, você pode mudar para a voz padrão. Saber mais." No meio da tela há um gradiente circular azul e branco, com o microfone e os ícones de configurações visíveis acima. — O novo modo de voz avançado da OpenAI para ChatGPT mostra um balão azul. Crédito: OpenAI

Durante uma conversa, você pode ativar ou desativar o som da sua voz clicando no ícone do microfone no canto inferior esquerdo. E quando estiver pronto para encerrar a conversa, basta clicar no ícone de saída no canto inferior direito.

Se estiver iniciando uma conversa por voz pela primeira vez ou usando voz avançada pela primeira vez, você será solicitado a selecionar uma voz. Apenas um aviso, o volume no seletor pode ser um pouco diferente do que você ouve durante uma conversa.

A tela do smartphone apresenta um modo de voz avançado com legenda "Diga olá ao modo de voz avançado." Os principais recursos incluem "Conversas naturais" que respondem à perturbação e ao humor, "Múltiplas vozes" com mais opções de voz, "Personalizado para você" usando memória e instruções personalizadas, e "Você está no controle" permite salvar ou excluir gravações de áudio. Abaixo, Um "Continuar" botão será exibido. — O recurso de modo de voz avançado está sendo implementado para alguns usuários Plus. Crédito: Suswati Basu para ReadWrite

Você sempre pode alterar sua voz nas configurações posteriormente, e usuários avançados de voz podem até ajustar sua voz diretamente na tela de bate-papo por meio do menu de personalização no canto superior direito.

Certifique-se de dar permissão ao aplicativo ChatGPT para usar seu microfone para que tudo funcione perfeitamente.

E se esse recurso ainda não estiver disponível, você verá um ícone de fone de ouvido em vez dos botões liga/desliga. Em qualquer uma das versões, você pode interromper a conversa e direcioná-la da maneira que for melhor para você.

A voz ChatGPT está disponível?

Se você estiver conectado ao ChatGPT por meio dos aplicativos iOS, macOS ou Android, já terá acesso ao recurso de voz padrão. No entanto, a voz avançada está atualmente disponível apenas para usuários Plus e Team.

Há um limite diário para uso avançado de voz, que pode mudar com o tempo, mas você receberá um aviso quando estiver se aproximando do limite – com um aviso de 15 minutos. Quando você atingir o limite, sua conversa mudará automaticamente para a voz padrão.

O Advanced Voice ainda não oferece suporte a imagens, portanto, os usuários só podem continuar uma conversa do Advanced Voice com texto ou voz padrão, e não o contrário. As conversas iniciadas com voz padrão sempre podem ser retomadas usando voz ou texto padrão, mas não com voz avançada. O som avançado também não está disponível com GPTs – você precisa mudar para o som padrão para isso.

OpenAI também não introduziu alguns recursos acessíveis. Portanto, as legendas não estão disponíveis durante conversas de voz, mas a transcrição aparecerá posteriormente na sua conversa de texto. Além disso, você só pode ter um bate-papo por voz por vez.

A Voz Avançada pode criar e acessar memórias e instruções personalizadas, assim como a voz padrão, que possui esses recursos.

O chat de voz ChatGPT é seguro?

Em agosto, a OpenAI revelou que havia algumas falhas de segurança no modo de voz do ChatGPT, mas garantiu que estão por dentro disso. A OpenAI publicou um relatório sobre os recursos de segurança do GPT-4o, que discute problemas conhecidos que surgem ao usar o modelo.

“Problemas de segurança” com o modo de voz do ChatGPT incluem preocupações comuns, como a geração de respostas inadequadas, como conteúdo erótico ou violento, e suposições tendenciosas. A OpenAI treinou o modelo para bloquear tais saídas, mas o relatório observa que sons irrealistas, como gemidos eróticos, gritos agudos e tiros, não são totalmente filtrados. Isso significa que solicitações com esses sons sensíveis ainda podem gerar respostas.

Outro problema é a comunicação com a modelo pelos vocais. Os testadores descobriram que o GPT-4o pode ser induzido a copiar a voz de alguém ou fingir ser um usuário. Para evitar isso, a OpenAI só permite votos pré-aprovados, sem incluir o de Scarlett Johansson, que a empresa já retirou. Além disso, embora o GPT-4o possa reconhecer outras vozes, ele é treinado para rejeitar tais solicitações por motivos de privacidade, a menos que identifique uma citação famosa.

As equipes vermelhas também observaram que o GPT-4o poderia ser considerado mais persuasivo, dado o impacto das palavras proferidas, quando se trata de espalhar desinformação ou teorias da conspiração. O modelo é treinado para rejeitar solicitações de conteúdo protegido por direitos autorais e possui filtros adicionais para bloquear músicas. E, curiosamente, ele está programado para não cantar. No entanto, neste exemplo de um usuário do X, a voz o ajuda a afinar sua guitarra com o som da nota.

Som avançado no ChatGPT afina minha guitarra. pic.twitter.com/1H6mYZTCq7

– Pietro Schirano (@skirano) 24 de setembro de 2024

Como posso parar de compartilhar áudio?

Você pode parar de compartilhar seu áudio a qualquer momento acessando a página de gerenciamento de dados nas configurações do ChatGPT. Basta desligar a configuração “Aprimorar som para todos”.

Se você não vir “Aprimorar áudio para todos” nas configurações de gerenciamento de dados, significa que você não compartilhou seu áudio com OpenAI e ele não está sendo usado para treinar modelos.

Se você decidir parar de compartilhar, o áudio de futuros chats de voz não será usado para treinamento de modelo. No entanto, clipes de áudio extraídos anteriormente de sua conta podem ser usados para treinar modelos OpenAI.

OpenAI também foi mencionado que mesmo que você pare de compartilhar áudio, ele ainda poderá usar a transcrição desses chats para treinar nosso modelo” se a configuração “Melhorar modelo para todos” ainda estiver ativada. Para cancelar completamente, desative “Aprimoramento de modelo para todos”.

Os clipes de áudio dos seus bate-papos de voz avançados permanecerão no seu histórico de bate-papo enquanto o bate-papo permanecer. Se você excluir o bate-papo, os clipes de áudio também serão excluídos em 30 dias, a menos que sejam necessários por motivos legais ou de segurança. Se você compartilhou seus próprios clipes de áudio com OpenAI para treinar modelos, esses clipes ainda poderão ser usados, mas somente depois de serem desconectados de sua conta.

Imagem em destaque: Ideograma / Canva

A postagem Como ativar o modo de voz avançado no ChatGPT – um guia para o novo recurso de IA apareceu pela primeira vez no ReadWrite.

Fonte