Uma interface treinada com IA registra sua atividade cerebral quando ela tenta dizer as palavras e as reproduz com a voz sintetizada da paciente, que sofreu um derrame.
Uma interface treinada com IA registra sua atividade cerebral quando tenta dizer as palavras e as reproduz com a voz sintetizada da paciente, que sofreu um derrame.
Colaboração de Miguel Ángel Criado.
Ann tinha 30 anos quando sofreu um derrame no tronco encefálico, a base do cérebro que se conecta à medula espinhal. Ela deixou de mover as pernas, os braços e até os músculos que acionam suas cordas vocais. Agora, após anos de treinamento com inteligência artificial (IA), uma interface cérebro-máquina (BCI, na sigla em inglês) permite que ela se comunique quase em tempo real com sua própria voz sintetizada. Para isso, sua cabeça precisa estar conectada a uma máquina que registra sua atividade neuronal por meio de uma malha de 253 eletrodos colocados diretamente no cérebro. Mas é a primeira vez que ela consegue falar, ainda que como um robô e conectada a uma máquina, em mais de duas décadas.
Ann, que já passou dos cinquenta anos, não pensa nas palavras, ela tenta dizê-las. A região do córtex motor dedicada à fala não está danificada. É aí que começa o trabalho do grupo de neurocientistas, engenheiros e programadores de IA, e aí reside uma das diferenças em relação a outras tentativas de devolver a capacidade de comunicação a quem não pode falar. Outras BCI atuam sobre a área específica da linguagem enquanto os pacientes pensam em uma palavra ou imaginam que a estão escrevendo. Este novo sistema registra o que acontece em seu cérebro quando ela quer dizer “olá”.
Gopala Anumanchipalli, professor de engenharia elétrica e ciência da computação na Universidade da Califórnia em Berkeley (Estados Unidos) e coautor sênior da pesquisa recém-publicada na Nature Neuroscience, explica por e-mail: “É quando ela tenta dizer ‘hello’, sem pensar nisso. Devido à paralisia de Ann, ela não pode articular nem vocalizar nada. No entanto, o sinal neuronal de sua intenção é potente, o que o torna uma pista confiável para decodificação”, afirma Anumanchipalli.
A decodificação começa com os eletrodos colocados no córtex motor da fala. Em uma pessoa saudável, é daqui que partem as conexões neurais que chegam, através do tronco encefálico, aos músculos que controlam o trato vocal. Com essa conexão perdida, cerca de vinte cientistas de Berkeley e da Universidade da Califórnia em São Francisco, apoiados em diversos trabalhos prévios, projetaram um sistema de aprendizado baseado em algoritmos que decodificavam a atividade neuronal específica de Ann quando ela queria articular uma palavra.
Segundo Cheol Jun Cho, de Berkeley e autor principal do estudo, “basicamente, interceptamos o sinal onde o pensamento se transforma em articulação”
Em nota da universidade, Cho acrescenta: “O que decodificamos acontece depois que a ideia surgiu, depois de ela decidir o que dizer, depois de decidir quais palavras usar e como mover os músculos do trato vocal”. Para que a máquina e Ann pudessem se comunicar, ela precisou treinar com um conjunto de 1.024 palavras que o sistema apresentava na forma de frases (ver vídeo). Também treinaram a BCI com uma série de 50 frases pré-estabelecidas. Assim que via que começavam a aparecer na tela, Ann iniciava suas tentativas de falar, e o sistema convertia o sinal cerebral tanto em texto quanto em voz.
Ann guardava o vídeo de seu casamento, algo que foi muito útil. Com ele, puderam escolher a voz do sintetizador da mesma forma que se escolhe a de um navegador ou da Siri. Ann disse aos pesquisadores que ouvir sua própria voz a ajudava a se conectar com a máquina. Começa a ser prática comum gravar pessoas com deterioração cognitiva ou doenças que ameaçam sua capacidade de falar no futuro, com a esperança de que a ciência possa devolver-lhes a voz um dia.
A segunda grande contribuição deste trabalho é a velocidade. Esta BCI não é a única que conseguiu fazer com que pessoas que perderam a capacidade de falar voltassem a se comunicar. Mas, até agora, eram sistemas muito lentos. O processo pelo qual os indivíduos tentavam falar ou escrever passava por várias etapas. Até que algo inteligível — fosse voz ou texto — aparecesse do outro lado do sistema, levava vários segundos, tempo demais para uma comunicação real e fluida. Esta nova BCI reduz consideravelmente essa latência.
“Cerca de um segundo, medido a partir do momento em que nosso decodificador de voz detecta sua intenção de falar nos sinais neurais”, diz Anumanchipalli. Para esse neurocientista, especialista em processamento de linguagem e inteligência artificial, esse novo método de transmissão converte os sinais cerebrais de Ann em sua voz personalizada quase em tempo real. “Ela não precisa esperar terminar uma frase ou palavra, já que o decodificador funciona em sincronia com sua intenção de falar, de forma semelhante à fala de pessoas saudáveis”, acrescenta.
Para descartar a possibilidade de que Ann e a BCI tivessem aprendido a repetir como papagaios as frases oferecidas pelo sistema (embora houvesse milhares de combinações possíveis), na fase final dos experimentos, os pesquisadores fizeram com que a tela exibisse as 26 palavras que formam o chamado alfabeto fonético da OTAN. Essa linguagem foi um método iniciado há um século e adotado pela organização militar nos anos 50 para facilitar comunicações por rádio, soletrando comandos. Começa com as palavras alfa, bravo, charlie, delta… Ann, que não havia treinado com elas, conseguiu dizê-las sem grandes diferenças em relação aos vocabulários com os quais havia treinado.
O que foi alcançado é apenas uma pequena parte do que ainda falta
Já estão trabalhando para que a IA capte as dimensões não formais da comunicação, como o tom, a expressividade, as exclamações, as perguntas… “Temos um trabalho em andamento para tentar ver se conseguimos decodificar essas características paralinguísticas a partir da atividade cerebral”, diz em uma nota Kaylo Littlejohn, também coautor desta pesquisa. “Trata-se de um problema antigo, até mesmo nos campos clássicos da síntese de áudio, e [cuja solução] permitiria alcançar uma naturalidade completa”.
Outros problemas são, por enquanto, também insolúveis. Um deles é a necessidade de abrir o crânio e colocar 253 eletrodos sobre o cérebro. Anumanchipalli reconhece: “Por enquanto, apenas as técnicas invasivas demonstraram eficácia com BCI de fala para pessoas com paralisia. Se as não invasivas melhorarem a captação do sinal de forma precisa, seria razoável supor que poderemos criar uma BCI não invasiva”. Mas, por ora, admite o especialista, ainda não chegaram a esse ponto.
Miguel Ángel Criado (Almería, 1968) é um destacado jornalista científico e escritor espanhol
Licenciado em Ciências Políticas e Sociologia, é cofundador da Materia, a seção de ciência do jornal El País desde 2014, onde publica artigos sobre mudança climática, meio ambiente, biologia, inteligência artificial e antropologia.
Anteriormente, trabalhou em meios como Público, Cuarto Poder e El Mundo.
É autor do ensaio Calor. Cómo nos afecta la crisis climática (Debate, 2024), no qual combina dados científicos, narrativas pessoais e experiências de campo para abordar o impacto do aquecimento global na Espanha.





0 Comments