Desde o filme “Ela” (Her), dirigido por Spike Jonze e lançado em 2013, a ideia de um assistente de IA humanizado, capaz de interagir naturalmente por voz, tem fascinado muitas pessoas. Na trama, um homem se apaixona por uma IA chamada Samantha, que, apesar de parecer extremamente real, nunca será verdadeiramente humana.
Doze anos depois, essa ideia deixou de ser pura ficção científica. Ferramentas de IA generativa como o ChatGPT e assistentes virtuais como Siri, da Apple, e Alexa, da Amazon, ajudam as pessoas a se localizar no trânsito, criar listas de compras e realizar diversas outras tarefas. No entanto, para além de textos, os sistemas de reconhecimento automático de fala — assim como Samantha — ainda estão longe do nível de compreensão do ser humano.

Quais são essas limitações?
Segundo o estudo See What I’m Saying? Comparing Intelligent Personal Assistant Use for Native and Non-native Language Speakers (2020), realizado em conjunto por linguistas e cientistas da computação, a performance desses sistemas varia conforme os usuários. A pesquisa mostra que, no caso da língua inglesa, a taxa de erros aumenta caso a pessoa tenha sotaque estrangeiro, é negra, fala em um dialeto como o African American Vernacular English (AAVE), alterna entre idiomas (code-switching), é mulher, idosa, muito jovem ou tem dificuldades na fala.
Por que as IAs têm dificuldades interpretar certas pessoas?
Isso acontece porque, diferente dos humanos, os sistemas de reconhecimento não são ouvintes “empáticos”. Enquanto nós interpretamos palavras levando em conta entonação, expressões faciais e o contexto, fazendo o máximo de esforço para compreender o discurso, a IA simplesmente faz um palpite probabilístico — e, muitas vezes, erra.
A raiz do problema: os dados usados para treinar a IA
Mas o que causa esse tipo de erro? Parte da explicação está nos dados usados para treinar os modelos de IA. Para aprender a compreender e imitar a fala humana, a inteligência artificial é alimentada com grandes volumes de textos e áudios reais. O problema é: de quem são essas vozes?
Se um sistema tem alta precisão ao interagir com americanos brancos de classe média na faixa dos 30 anos, é provável que tenha sido treinado a partir de falas dessa população. Isso significa que pessoas de outras origens, idades e classes sociais podem enfrentar mais dificuldades ao usar essas tecnologias.
Assim, para tornar a IA mais precisa, é preciso diversificar os dados utilizados no treinamento, levando em conta variáveis como gênero, idade, raça, idiomas e sotaques. Além disso, deve permitir que os sistemas admitam incertezas e peçam esclarecimentos, como um humano faria.
O viés linguístico na IA
Para quem não fala inglês fluentemente — ou seja, a maior parte da população mundial —, os desafios são ainda maiores. As principais IAs generativas foram desenvolvidas com base nessa língua, funcionando melhor em inglês do que em qualquer idioma. Embora a IA tenha potencial para tornar a tradução mais acessível e conectar pessoas de diferentes línguas, a maioria dos idiomas sofre com poucos dados, o que dificulta seu uso em LLMs (Language Large Models).
Mesmo dentro de idiomas amplamente falados, como inglês e espanhol, o desempenho da IA pode variar dependendo do dialeto usado. Isso acontece porque os sistemas podem refletir certos preconceitos embutidos nos conjuntos de dados em que foram treinados.
O valor da conexão humana
A tendência é que a IA melhore gradualmente sua capacidade de compreender diferentes sotaques, variações linguísticas e alternância entre idiomas.
Mesmo na comunicação entre humanos, mal-entendidos acontecem. Mas, ao interagir com outra pessoa, há sempre a chance de encontrar um ouvinte empático, capaz de interpretar contexto e emoções.
QA Booster: linguagem natural em testes de software
Os desafios da IA na compreensão da fala humana não afetam apenas assistentes virtuais, mas também influenciam outras áreas da tecnologia, como o desenvolvimento e a automação de testes de software.
Na NextAge, entendemos a importância da linguagem natural para tornar a interação com IA mais fluida e acessível. Sabemos que essa tecnologia pode otimizar tarefas do dia a dia, incluindo processos de QA em softwares.
Pensando nisso, criamos o QA Booster, uma nova vertical da NextAge focada na automatização de testes de software com IA. O diferencial desse serviço está no uso de linguagem natural, permitindo que os testes sejam mais intuitivos e abrangentes, considerando diferentes formas de comunicação.
Além de melhorar a experiência do usuário, o QA Booster torna o processo de QA mais rápido, eficiente e preciso. Ele reduz o tempo de testagem e entregando resultados confiáveis, apresentados em um dashboard intuitivo.
Com avanços como esse, a IA pode não apenas superar suas limitações, mas também se tornar uma aliada poderosa na inovação e automação de processos. Isso garante sistemas mais inteligentes e inclusivos.