Solução de tradução de linguagem de sinais baseada em IA da Lenovo auxilia pessoas com deficiência auditiva no Brasil

A tecnologia inovadora, apresentada no evento Tech World da Lenovo, usa visão computacional e um mecanismo de IA original para interpretar Libras, a linguagem brasileira de sinais, em tempo real.

Durante o evento Tech World da Lenovo, um desenvolvedor de software chamado Gabriel cruzou o palco e cumprimentou calorosamente o presidente e CEO Yuanqing Yang usando Libras, a Língua Brasileira de Sinais oficial. Embora YY, como é conhecido na Lenovo, não conheça Libras, ele entendeu Gabriel perfeitamente por meio do poder da Inteligência Artificial. Uma câmera capturou os movimentos precisos das mãos de Gabriel enquanto um mecanismo de IA original criava uma tradução de texto e voz em tempo real. A barreira linguística entre Gabriel e YY se dissolveu quase instantaneamente, criando uma conexão pessoal e contínua.

Esta rápida interação apresentou uma solução de acessibilidade inovadora lançada pelos pesquisadores da Lenovo. A nova tecnologia está preparada para transformar a vida de inúmeras pessoas, entre elas os 2,3 milhões de pessoas no Brasil que têm deficiência auditiva profunda.

“Esta solução escalável exemplifica o potencial de criação de um novo paradigma baseado em IA para a acessibilidade e a inclusão”, disse Hildebrando Lima, Diretor de Pesquisa e Desenvolvimento da Lenovo no Brasil. “É um privilégio fazer um trabalho tão significativo servindo nossas comunidades no Brasil e levando a visão de IA da Lenovo para todos.”

A equipe de P&D construiu a solução baseada em IA para facilitar as interações onde um intérprete de linguagem de sinais pode não estar o tempo todo disponível – de lojas a hospitais – para aumentar a autonomia e criar conexões.

Invisíveis no cenário do Tech World, os servidores Edge da Lenovo forneceram o poder computacional necessário para executar a IA e interpretar os dados densos capturados enquanto Gabriel fazia uma saudação. Embora a computação em nuvem seja uma opção, os servidores Edge fornecem maior velocidade e confiabilidade no local exato em que a IA é necessária.

A demonstração foi parcialmente uma prova de conceito – especialmente a voz de IA do Gabriel, que foi selecionada por sua própria família entre 13 opções personalizadas – mas a tecnologia subjacente está bastante madura após quatro anos de desenvolvimento. Dezenas de pessoas que usam Libras já contribuíram com milhares de horas de dados de vídeos anônimos para construir o conjunto de treinamento e melhorar a IA.

P&D da Central de Acessibilidade

Durante uma discussão de novas ideias pela equipe de P&D da Lenovo em 2019, uma desenvolvedora de software fluente em Libras apontou diversos problemas de acessibilidade no dia a dia e desafiou a Lenovo a fazer mais para melhorar a independência e a qualidade de vida da comunidade surda. “Como empresa, estamos comprometidos em fornecer tecnologia mais inteligente para todos, e isso significa priorizar a inclusão e considerar a diversidade de nossos clientes e comunidades”, disse Lima. “Nós abraçamos o desafio.”

A equipe da Lenovo no Brasil começou a pensar em desenvolver uma solução: uma ferramenta de chat de tradução em tempo real que permitisse que pessoas com deficiência auditiva fizessem sinais para a câmera de um dispositivo enquanto um algoritmo realiza a tradução instantânea de Libras para texto escrito ou falado em português. Agora, graças à omnipresença da IA ​​generativa e dos conjuntos de dados multilíngues, a tradução poderia ser feita inclusive para outros idiomas.

No entanto, conseguir a captura e a tradução de vídeo em tempo real entre idiomas apresenta uma quantidade impressionante de dados – entre os quais estão os gestos individuais para cada palavra e a sintaxe de cada frase. Assim como os sotaques regionais em uma língua falada como o inglês podem ser dramaticamente diferentes, os movimentos e estilos podem ser distintos para os indivíduos em Libras.

“Existem muitos obstáculos envolvidos apenas na captura de vídeo – incluindo a cor da pele da pessoa, a cor do fundo, a iluminação, as roupas, a velocidade dos gestos, e as posições das mãos em relação ao corpo – para citar apenas alguns”, disse Lima. “Além disso, nem todas as câmeras têm o mesmo nível de percepção de profundidade.”

Para enfrentar o desafio dos dados, a Lenovo fez parceria com o centro de inovação brasileiro CESAR, em Recife, compartilhando conhecimentos sobre captura e catalogação de vídeo para estabelecer as bases para a IA. Desde então, a Lenovo e o CESAR criaram um conjunto de dados de milhares de vídeos em Libras para treinar o algoritmo central a identificar e contextualizar gestos individuais.

A IA reconhece as posições das mãos e os pontos de articulação digital dos dedos da pessoa. Depois de processar esses movimentos e gestos, a IA pode identificar com precisão o fluxo de uma frase e converter rapidamente a linguagem de sinais em texto.

Fornecendo soluções reais e confiáveis ​​para todos

“Em um evento interno recente no Brasil explorando a inclusão de pessoas com deficiência no espaço de trabalho da Lenovo, um membro da equipe de P&D da Lenovo ouviu a história de uma pessoa surda que não conseguiu se comunicar adequadamente com os pais durante a infância. Portanto, devido a isso condição ela enfrentou diversas dificuldades durante sua fase de crescimento e desenvolvimento pessoal causadas pelas dificuldades de comunicação com as pessoas, sempre dependendo de um intérprete de língua de sinais, que não está disponível o tempo todo.”

“Imagine ser incapaz de conversar facilmente com seus pais e amigos durante toda a sua infância, e no local de trabalho com todos os seus colegas.” Lima disse. “É o tipo de cenário íntimo, familiar, educacional e de inclusão no local de trabalho onde esta solução pode fazer toda a diferença.”

A equipe de P&D da Lenovo enfatizou que a solução não se destina a substituir as pessoas aprendendo Libras ou outras línguas de sinais – em vez disso, ela preenche lacunas de comunicação que já existem. Além disso, a IA pode realmente ser usada para acelerar o aprendizado da linguagem de sinais, usando visão computacional para rastrear a precisão dos gestos e “instruir” os usuários a fazerem ajustes. Implantados em tecnologia vestível ou por meio de realidade aumentada, as pessoas poderiam ter experiências de aprendizagem imersivas com a IA atuando como treinador.

A equipe de P&D de Lima fez parceria com o Grupo de Soluções de Infraestrutura da Lenovo para encontrar uma solução de computação de ponta. Depender exclusivamente da nuvem – e, consequentemente, da velocidade muito rápida da Internet – funciona em alguns casos, mas não em todos. Os potenciais utilizadores num hospital ou aeroporto, por exemplo, onde o tempo é escasso, não gostariam de depender de conexões imprevisíveis. A computação de borda (Edge Computing) proporcionada pelos produtos ThinkEdge está alinhada com o portfólio “do bolso a nuvem” da Lenovo, que leva a IA à fonte dos dados e às mãos dos usuários.

A próxima etapa é dimensionar o projeto além dos testes internos. Serão necessários mais bilhões de dados para atingir o objetivo desejado de implementar uma interface de tradução em linguagem de sinais em tempo real. Eles estão explorando algoritmos de autoaprendizagem e outras tecnologias para acelerar o desenvolvimento, especialmente à medida que a base de usuários e os conjuntos de dados crescem.

A Lenovo também está adaptando a solução de tradução para setores específicos da indústria, como finanças ou varejo, já que os conjuntos de dados podem ser mais ajustados e otimizados para fornecer uma experiência de usuário ideal. À medida que a solução cresce e inspira tecnologias mais inclusivas, mais de 430 milhões de pessoas surdas e com deficiência auditiva em todo o mundo poderão sentir o profundo potencial da IA.

[ssba]

MWC 2024

Experience breakthrough technology solutions and see how we're transforming, connecting, and empowering the world with AI for all.

Join us Feb. 26-29
Don't Miss StoryHub Updates: