Desde o filme “Ela” (Her), dirigido por Spike Jonze e lançado em 2013, a ideia de um assistente de IA humanizado, capaz de interagir naturalmente por voz, tem fascinado muitas pessoas. Na trama, um homem se apaixona por uma IA chamada Samantha, que, apesar de parecer extremamente real, nunca será verdadeiramente humana.

Doze anos depois, essa ideia deixou de ser pura ficção científica. Ferramentas de IA generativa como o ChatGPT e assistentes virtuais como Siri, da Apple, e Alexa, da Amazon, ajudam as pessoas a se localizar no trânsito, criar listas de compras e realizar diversas outras tarefas. No entanto, para além de textos, os sistemas de reconhecimento automático de fala — assim como Samantha — ainda estão longe do nível de compreensão do ser humano.

Homem sentado na frente de um computador.
“Her” (2013), dirigido por Spike Jonze.

Quais são essas limitações?

Segundo o estudo See What I’m Saying? Comparing Intelligent Personal Assistant Use for Native and Non-native Language Speakers (2020), realizado em conjunto por linguistas e cientistas da computação, a performance desses sistemas varia conforme os usuários. A pesquisa mostra que, no caso da língua inglesa, a taxa de erros aumenta caso a pessoa tenha sotaque estrangeiro, é negra, fala em um dialeto como o African American Vernacular English (AAVE), alterna entre idiomas (code-switching), é mulher, idosa, muito jovem ou tem dificuldades na fala.


Por que as IAs têm dificuldades interpretar certas pessoas?

Isso acontece porque, diferente dos humanos, os sistemas de reconhecimento não são ouvintes “empáticos”. Enquanto nós interpretamos palavras levando em conta entonação, expressões faciais e o contexto, fazendo o máximo de esforço para compreender o discurso, a IA simplesmente faz um palpite probabilístico — e, muitas vezes, erra.


A raiz do problema: os dados usados para treinar a IA

AI text understanding

Mas o que causa esse tipo de erro? Parte da explicação está nos dados usados para treinar os modelos de IA. Para aprender a compreender e imitar a fala humana, a inteligência artificial é alimentada com grandes volumes de textos e áudios reais. O problema é: de quem são essas vozes?

Se um sistema tem alta precisão ao interagir com americanos brancos de classe média na faixa dos 30 anos, é provável que tenha sido treinado a partir de falas dessa população. Isso significa que pessoas de outras origens, idades e classes sociais podem enfrentar mais dificuldades ao usar essas tecnologias.

Assim, para tornar a IA mais precisa, é preciso diversificar os dados utilizados no treinamento, levando em conta variáveis como gênero, idade, raça, idiomas e sotaques. Além disso, deve permitir que os sistemas admitam incertezas e peçam esclarecimentos, como um humano faria.


O viés linguístico na IA

Para quem não fala inglês fluentemente — ou seja, a maior parte da população mundial —, os desafios são ainda maiores. As principais IAs generativas foram desenvolvidas com base nessa língua, funcionando melhor em inglês do que em qualquer idioma. Embora a IA tenha potencial para tornar a tradução mais acessível e conectar pessoas de diferentes línguas, a maioria dos idiomas sofre com poucos dados, o que dificulta seu uso em LLMs (Language Large Models). 

Mesmo dentro de idiomas amplamente falados, como inglês e espanhol, o desempenho da IA pode variar dependendo do dialeto usado. Isso acontece porque os sistemas podem refletir certos preconceitos embutidos nos conjuntos de dados em que foram treinados.


O valor da conexão humana

Dedos de uma mão humana e uma mão robótica se tocando

A tendência é que a IA melhore gradualmente sua capacidade de compreender diferentes sotaques, variações linguísticas e alternância entre idiomas. 

Mesmo na comunicação entre humanos, mal-entendidos acontecem. Mas, ao interagir com outra pessoa, há sempre a chance de encontrar um ouvinte empático, capaz de interpretar contexto e emoções.


QA Booster: linguagem natural em testes de software

Os desafios da IA na compreensão da fala humana não afetam apenas assistentes virtuais, mas também influenciam outras áreas da tecnologia, como o desenvolvimento e a automação de testes de software.

Na NextAge, entendemos a importância da linguagem natural para tornar a interação com IA mais fluida e acessível. Sabemos que essa tecnologia pode otimizar tarefas do dia a dia, incluindo processos de QA em softwares.

Pensando nisso, criamos o QA Booster, uma nova vertical da NextAge focada na automatização de testes de software com IA. O diferencial desse serviço está no uso de linguagem natural, permitindo que os testes sejam mais intuitivos e abrangentes, considerando diferentes formas de comunicação.

Além de melhorar a experiência do usuário, o QA Booster torna o processo de QA mais rápido, eficiente e preciso. Ele reduz o tempo de testagem e entregando resultados confiáveis, apresentados em um dashboard intuitivo.

Com avanços como esse, a IA pode não apenas superar suas limitações, mas também se tornar uma aliada poderosa na inovação e automação de processos. Isso garante sistemas mais inteligentes e inclusivos.

Autor(a)

Avatar photo

l.marques@nextage.com.br

Laura Marques — Redatora da NextAge.

Artigos Relacionados

Uma mão escrevendo em um notebook, com ícones de qualidade ao redor, representando excelência, precisão e melhoria contínua.

QA X Testes de Software: qual a diferença?

Muitas vezes, é comum não sabermos a diferença entre QA (Quality Assurance) e testes de software, e até mesmo pensar que eles...

Leia Mais...
Ilustração de um processador ARM destacado em um circuito eletrônico, representando a eficiência e inovação tecnológica da arquitetura ARM em dispositivos modernos

Arm vai dominar notebooks em 2025 — e por uma ótima razão

Nos últimos anos, a arquitetura ARM tem causado uma revolução silenciosa no mundo dos computadores. Em 2025, essa tecnologia deve finalmente assumir...

Leia Mais...
Logotipo do Angular com fundo de padrão hexagonal em tons claros, destacando o símbolo "A" em um escudo vermelho e cinza, representando o framework de desenvolvimento web Angular.

O que eu posso criar com Angular? Usos & Aplicações para Empresas

O Angular é um dos frameworks mais usados no mercado para criar aplicações web e móveis. Desenvolvido pelo Google, ele se destaca...

Leia Mais...
Código-fonte de um formulário de login exibido em um editor de texto, destacando elementos HTML como campos de entrada, botões e classes.

Código Aberto x Código Fechado: Qual a diferença e qual escolher?

Escolher entre código aberto e código fechado é uma das decisões mais importantes para empresas que usam, já usaram ou ainda vão...

Leia Mais...
Ilustração de um processador quântico em um circuito integrado futurista, representando o avanço da computação quântica e seu impacto na segurança digital.

Y2Q: conheça a maior ameaça de cybersegurança desde o Bug do Milênio

A segurança cibernética está em constante evolução, mas, em termos computacionais, nunca enfrentamos algo tão desafiador quanto o Y2Q (Year-to-Quantum). Assim como...

Leia Mais...
Equipe de desenvolvedores trabalhando em uma fábrica de software, colaborando em projetos de desenvolvimento em um ambiente de escritório com múltiplos monitores exibindo códigos e ferramentas de

Fábrica de Software: O que é e por que sua empresa deveria contratar uma

Uma fábrica de software é uma organização especializada em desenvolver softwares em escala, aplicando processos bem definidos para maximizar eficiência e qualidade....

Leia Mais...