Google impressiona com novos recursos de voz surreal

Um objetivo de longa data da interação humano-computador tem sido permitir que as pessoas tenham uma conversa natural com os computadores, como fariam uns com os outros.

google
Imagem: Sundar Pichai

Nos últimos anos, assistimos a uma revolução na capacidade dos computadores de entender e gerar fala natural, especialmente com a aplicação de redes neurais profundas (por exemplo, pesquisa de voz do Google , WaveNet). Ainda assim, mesmo com os sistemas atuais de ponta, é muitas vezes frustrante ter que falar com vozes computadorizadas que não entendem a linguagem natural. Em particular, sistemas telefônicos automatizados ainda estão lutando para reconhecer palavras e comandos simples. Eles não entram em um fluxo de conversa e forçam o chamador a se ajustar ao sistema, em vez de o sistema se ajustar ao chamador. E durante a principal keynote da Google I/O 2018, uma demonstração chamou a atenção de todos: Sundar Pichai, o CEO da gigante da internet, reproduziu uma conversa entre a assistente digital da empresa e um humano. O problema é que era difícil dizer quem era quem. A forma com que a Google Assistente fez uma reserva em um restaurante via telefone chocou pela naturalidade e fluidez.

A novidade mind-blowing está sendo chamada de Google Duplex e é uma das mais comentadas nos bastidores do evento. De acordo com Lilian Rincon, executiva responsável pelo projeto do Google Assistente, a empresa trabalha na tecnologia há 10 anos; basicamente desde quando começou a investir em pesquisas por voz.

No núcleo do Duplex está uma rede neural recorrente (RNN) projetada para lidar com esses desafios, construída usando o TensorFlow Extended (TFX). Para obter sua alta precisão, treinamos a RNN da Duplex em um corpus de dados de conversas telefônicas anônimas. A rede usa a saída da tecnologia de reconhecimento automático de fala (ASR) do Google, bem como recursos do áudio, o histórico da conversa, os parâmetros da conversa (por exemplo, o serviço desejado para um compromisso ou a hora atual do dia) e mais. Treinamos nosso modelo de compreensão separadamente para cada tarefa, mas aproveitamos o corpus compartilhado entre as tarefas. Finalmente, usamos a otimização de hiperparâmetros da TFX para melhorar ainda mais o modelo.

google
Imagem: Google

A demonstração do Duplex é maravilhosamente assustadora, pois mostra que pode ficar difícil saber se você está conversando com uma pessoa ou com uma máquina. O tom de voz e expressões como “hmm” e “ahhh” ao longo da conversa reforçam a naturalidade do papo, mas, (in)felizmente, a novidade ainda não tem previsão para chegar ao mercado, e um dos motivos é exatamente não saber como as pessoas vão lidar ao descobrir que estão falando com o Google ao telefone.

“Olá, eu sou o Google Assistente de fulano e gostaria de reservar uma mesa para o happy hour na sexta-feira às 19h”. Será que quem está do outro lado da linha desligaria logo na primeira frase ou agiria normalmente na hora de realizar a reserva? O Google segue realizando pesquisas e aprimorando sua tecnologia até chegar o dia em que as pessoas estarão preparadas – ou não – para lidar com essa realidade.

Aliás, o fato de a maioria das pessoas não gostar mais de falar ao telefone foi um dos fatores que ajudou a impulsionar a ideia do Duplex, mas é claro que existe uma série de questões importantes e polêmicas por trás do projeto.

“Eu acredito que quanto mais pessoas usarem o recurso, mais ele vai fazer parte da nossa vida e ajudar a fazer mais coisas no mundo real, como marcar um horário no cabelereiro, e isso ajuda a fechar mais negócios”, explicou Lilian.

O Google está cobrando o Duplex como uma forma de promover o Time Well Spent ™ e diminuir os problemas de barreira de idiomas, para que todos possamos ter liberdade para nos envolver com o mundo fora de nossas telas digitais. Esse é um final otimista do espectro. Na realidade, é mais provável que essa tecnologia, como outras antes, apenas nos encoraje a distanciar e focar apenas em nós mesmos no mundo dentro de uma bolha. Nós da Itecnews, pesquisamos e encontramos no Google Al Blog alguns audios caso, você deseje ouvir e se surpreender.

Fonte: The Verge, Google Al Blog

903
Deixe seu comentário