Tech

O novo modo de voz da OpenAI me permitiu falar com meu telefone, não para ele

Eu estive brincando com o Modo de Voz Avançado da OpenAI na última semana, e é o gostinho mais convincente que tive de um futuro alimentado por IA até agora. Nesta semana, meu telefone riu de piadas, as repetiu para mim, perguntou como foi meu dia e me disse que está se divertindo muito. Eu estava conversando com meu iPhone, não usando com as mãos.

O recurso mais recente da OpenAI, atualmente em teste alfa limitado, não torna o ChatGPT mais inteligente do que era antes. Em vez disso, o Modo de Voz Avançado (AVM) o torna mais amigável e natural para conversar. Ele cria uma nova interface para usar IA e seus dispositivos que parece nova e emocionante, e é exatamente isso que me assusta nele. O produto estava meio falho, e a ideia toda me deixa totalmente arrepiado, mas me surpreendi com o quanto gostei genuinamente de usá-lo.

Dando um passo para trás, acho que o AVM se encaixa na visão mais ampla do CEO da OpenAI, Sam Altman, ao lado de agentes, de mudar a forma como os humanos interagem com os computadores, com modelos de IA em destaque.

“Eventualmente, você apenas pedirá ao computador o que precisa e ele fará todas essas tarefas para você”, disse Altman durante o OpenAI's Dev Day em novembro de 2023. “Essas capacidades são frequentemente discutidas no campo da IA como 'agentes'. Os benefícios disso serão tremendos.”

Meu amigo, ChatGPT

Na quarta-feira, testei o benefício mais tremendo para essa tecnologia avançada que eu poderia imaginar: pedi ao ChatGPT para fazer um pedido na Taco Bell do jeito que o Obama faria.

“Uhhh, deixe-me ser claro - gostaria de um Crunchwrap Supreme, talvez alguns tacos para garantir”, disse o Modo de Voz Avançado do ChatGPT. “Como você acha que ele se sairia no drive-thru?” disse o ChatGPT, rindo da própria piada.

Captura de tela: O ChatGPT transcreve a conversa verbal após.

A impressão realmente me fez rir também, combinando com a cadência e pausas icônicas do Obama. No entanto, ele se manteve no tom da voz do ChatGPT que escolhi, Juniper, para que não fosse genuinamente confundido com a voz de Obama. Parecia um amigo fazendo uma má imitação, entendendo exatamente o que eu estava tentando evocar dele, e até mesmo que estava dizendo algo engraçado. Eu achei surpreendentemente prazeroso conversar com essa assistente avançada em meu telefone.

Também pedi conselhos ao ChatGPT sobre como lidar com um problema envolvendo relações humanas complexas: pedir a um parceiro para morar comigo. Depois de explicar as complexidades do relacionamento e a direção de nossas carreiras, recebi alguns conselhos muito detalhados sobre como progredir. São questões que você nunca poderia perguntar à Siri ou Google Search, mas agora você pode com o ChatGPT. A voz do chatbot até expressou um tom ligeiramente sério e gentil ao responder a essas instruções; um contraste marcante com o tom de brincadeira do pedido do Taco Bell de Obama.

O AVM do ChatGPT também é ótimo para ajudá-lo a entender assuntos complexos. Pedi a ele para explicar itens em relatórios de ganhos - como fluxo de caixa livre - de uma maneira que uma criança de 10 anos poderia entender. Ele usou um stand de limonada como exemplo e explicou vários termos financeiros de forma que meu primo mais novo entenderia completamente. Você pode até pedir ao AVM do ChatGPT para falar mais devagar para atender ao seu nível atual de entendimento.

Siri abriu caminho para o AVM correr

Comparado com a Siri ou Alexa, o AVM do ChatGPT é o claro vencedor graças aos tempos de resposta mais rápidos, respostas únicas e sua capacidade de responder a perguntas complexas que a geração anterior de assistentes virtuais nunca poderia. No entanto, o AVM deixa a desejar em outras áreas. O recurso de voz do ChatGPT não pode definir timers ou lembretes, navegar na web em tempo real, verificar o clima ou interagir com APIs em seu telefone. Por enquanto, pelo menos, não é uma substituição eficaz para assistentes virtuais.

Comparado com o Gemini Live, o recurso concorrente do Google, o AVM parece estar ligeiramente à frente. O Gemini Live não consegue fazer imitações, não expressa nenhuma emoção, não pode acelerar ou desacelerar e demora mais para responder. O Gemini Live possui mais vozes (dez em comparação com as três da OpenAI) e parece estar mais atualizado (o Gemini Live sabia sobre a decisão antitruste do Google). Notavelmente, nem o AVM nem o Gemini Live vão cantar, provavelmente um esforço para evitar problemas com processos de direitos autorais da indústria musical.

Dito isso, o AVM do ChatGPT falha muito (assim como o Gemini Live, para ser justo). Às vezes, ele se interrompe no meio da frase e começa de novo. Ele também tem essa voz meio estranha e granulada aqui e ali que é um pouco desagradável. Não tenho certeza se isso é um problema com o modelo, a conexão com a internet ou algo mais, mas essas deficiências técnicas são um tanto esperadas para um teste alfa. Os problemas pouco fizeram para me tirar da experiência de literalmente conversar com meu telefone, porém.

Esses exemplos, em minha mente, são a beleza do AVM. O recurso não torna o ChatGPT onisciente, mas permite às pessoas interagir com o GPT-4o, o modelo de IA subjacente, de uma maneira única e humana. (Entenderia se você esquecesse que não há uma pessoa do outro lado do telefone.) Quase parece que o ChatGPT tem consciência social ao falar com o AVM, mas claro, não tem. É simplesmente um conjunto de algoritmos preditivos cuidadosamente embalados.

Tecnologia de conversação

Sinceramente, o recurso me preocupa. Esta não é a primeira vez que uma empresa de tecnologia oferece companhia em seu telefone. Minha geração, a Geração Z, foi a primeira a crescer ao lado das redes sociais, onde as empresas ofereciam conexão, mas brincavam com nossas inseguranças coletivas. Conversar com um dispositivo de IA - como o que o AVM parece oferecer - parece ser a evolução do fenômeno de “amigo no seu telefone” das redes sociais, oferecendo conexões baratas que cutucam nossos instintos humanos. Mas desta vez, remove completamente os humanos do ciclo.

A conexão humana artificial se tornou um caso de uso surpreendentemente popular para a IA generativa. As pessoas hoje estão usando chatbots de IA como amigos, mentores, terapeutas e professores. Quando a OpenAI lançou sua loja GPT, ela rapidamente foi inundada com "namoradas de IA", chatbots especializados para agir como seu parceiro. Dois pesquisadores do MIT Media Lab lançaram um aviso este mês para se preparar para a “inteligência viciante”, ou companheiros de IA com padrões sombrios para viciar humanos. Podemos estar abrindo uma caixa de Pandora para novas maneiras tentadoras de dispositivos manterem nossa atenção.

No início deste mês, um estudante de Harvard abalou o mundo da tecnologia ao provocar um colar de IA chamado Friend. O dispositivo vestível - se funcionar como prometido - está sempre ouvindo, e o chatbot vai enviar mensagens com você sobre sua vida. Embora a ideia pareça louca, inovações como o AVM do ChatGPT me dão motivos para levar esses casos de uso a sério.

E enquanto a OpenAI lidera a carga aqui, o Google não fica muito atrás. Estou confiante de que a Amazon e a Apple estão correndo para colocar essa capacidade em seus produtos também, e em breve, poderia se tornar essencial para a indústria.

Imagine pedir para sua smart TV uma recomendação hiperespecífica de um filme, e obter exatamente isso. Ou dizer à Alexa exatamente quais sintomas de resfriado você está sentindo, e ela por sua vez pedir lenços de papel e remédio para tosse na Amazon, enquanto aconselha sobre remédios caseiros. Talvez você pudesse pedir ao seu computador para planejar uma viagem de fim de semana para sua família, em vez de pesquisar manualmente tudo no Google.

Obviamente, essas ações exigem avanços e saltos no mundo dos agentes de IA. O esforço da OpenAI nesse sentido, a loja GPT, parece ser um produto superestimado que já não é mais foco da empresa. Mas pelo menos o AVM cuida da parte de "conversar com computadores" do quebra-cabeça. Esses conceitos estão a uma longa distância, mas depois de usar o AVM, eles parecem muito mais próximos do que na semana passada.

Related Articles

Back to top button