Por Anna Tong
San Francisco (Reuters) – Um ex-pesquisador da OpenAI levantou 40 milhões de dólares para uma startup que construirá modelos de inteligência artificial que se conectam emocionalmente com humanos por meio da voz, informou a empresa nesta segunda-feira.
A WaveForms AI é apoiada por Andreessen Horowitz e avaliada em 200 milhões de dólares, segundo informou o presidente-executivo da startup, Alexis Conneau, à Reuters.
Conneau cocriou o recurso de modo de voz no modelo GPT-4o da OpenAI, que, quando lançado no início deste ano, mostrou a capacidade de responder em tempo real sem atrasos, além de lidar com interrupções — ambos os aspectos característicos de conversas realistas que até então haviam escapado dos assistentes de voz baseados em IA.
Após o lançamento, o presidente-executivo da OpenAI, Sam Altman, publicou a palavra “her” na rede social X, no que pareceu ser uma referência ao filme homônimo de Spike Jonze, de 2013, sobre um homem que se apaixona por sua assistente de IA, dublada por Scarlett Johansson.
O lançamento do GPT-4o pela OpenAI tornou-se polêmico quando Johansson acusou a startup de copiar sua voz no filme. A OpenAI disse que a voz não era uma imitação de Johansson e que a empresa usou uma atriz de voz diferente.
Conneau, junto com a cofundadora da WaveForms AI, Coralie Lemaitre, disse que a startup usará o financiamento para treinar novos modelos de IA de áudio que resolvam o problema de tornar a conversa por voz com um bot de IA indistinguível de uma conversa humana. Ele acrescentou que o áudio é a chave para fazer com que as interações com a IA pareçam “profundamente humanas”.
“O áudio… transmite emoções e fornece respostas emocionais aos usuários”, disse ele.
Conneau disse que a empresa planeja criar um produto de software ao consumidor que se concentrará na conexão emocional entre o usuário e a IA, mas se recusou a fornecer mais detalhes.
“A ideia é criar experiências novas e mais imersivas com a IA, que sejam mais agradáveis”, disse ele. “Há muitas empresas no momento que estão se concentrando na superinteligência, mas não tanto na qualidade da interação computador-humano.
(Reportagem de Anna Tong em San Francisco)