Em Foco

O emocionante e perigoso mundo da linguagem de inteligência artificial

Centenas de cientistas em todo o mundo estão a trabalhar para compreender uma das mais poderosas tecnologias emergentes: a linguagem de inteligência artificial. Poderão os chatbots tornar-se demasiado pessoais?

O poder da comunicação da IA
Em Maio, o CEO da Google, Sundar Pichai, anunciou uma nova e impressionante ferramenta: um sistema de IA chamado LaMDA que pode conversar com os utilizadores sobre qualquer assunto. Literalmente qualquer assunto. Numa primeira fase, a Google pretende integrar o LaMDA no seu motor de busca principal, no seu assistente de voz e na sua colecção de software na nuvem (Gmail, Docs e Drive). Contudo, o objectivo final, disse Pichai, é criar uma interface de conversação que permita às pessoas recuperar qualquer tipo de informação – texto, visual, áudio – em todos os produtos da Google. Tudo através da voz.

No entanto, o MIT Technology Review lança um alerta. Estes algoritmos de aprendizagem, conhecidos como modelos de LLM (Large Language Model, ou seja um algoritmo de deep-learning treinado para lidar com enormes quantidades de dados de texto), «terão embutidas ideias racistas, sexistas e abusivas, associando categorias como médicos com homens e enfermeiras com mulheres; boas palavras com brancos e más palavras com negros», lê-se na MIT Technology Review. «Devido à sua fluência, facilmente confundem as pessoas fazendo-as pensar que um humano escreveu as frases, o que os especialistas alertam que pode permitir a produção em massa de desinformação».

Não é apenas o Google que está a implementar esta tecnologia. Os modelos de linguagem de maior perfil até agora foram GPT-2 e GPT-3 da OpenAI, capazes de criar excertos de texto notavelmente convincentes ou mesmo terminar composições musicais ou código de computador. A Microsoft licenciou o GPT-3 para incorporar em produtos ainda não anunciados. O Facebook desenvolveu os seus próprios LLM para tradução e moderação de conteúdos. E as startups estão a criar dezenas de produtos e serviços com base nos modelos dos gigantes tecnológicos. Em breve, todas as nossas interacções digitais – quando enviarmos um e-mail, pesquisarmos ou publicarmos nas redes sociais – serão filtradas por intermédio de LLM.

Projectos para um bem comum
Segundo a MIT Technology Review, mais de quinhentos pesquisadores de todo o mundo estão a trabalhar no denominado ‘BigScience’, que pretende explorar as capacidades e limitações destes modelos. O projecto é liderado pela Huggingface, uma startup que adopta uma abordagem de ‘ciência aberta’ para entender o processamento de linguagem natural (PNL), procurando construir um LLM de código aberto que servirá como um recurso compartilhado para a comunidade científica. Mas como não há fome que não traga fartura, no mesmo mês em que o BigScience iniciou as suas actividades, uma startup chamada Cohere, de ex-pesquisadores do Google, anunciou que consegue aplicar LLM a qualquer empresa com uma única linha de código. Aliás, segundo a MIT, a Cohere é apenas uma das várias startups e iniciativas que agora querem levar LLM aos mais diversos sectores. Há também a Aleph Alpha, uma startup com sede na Alemanha que quer criar um GPT-3 alemão; há ainda outro projecto ainda sem nome iniciado por vários ex-pesquisadores da OpenAI; ou ainda a iniciativa de código aberto Eleuther, que lançou recentemente o GPT-Neo, uma reprodução gratuita (e um pouco menos poderosa, dizem os especialistas) do GPT-3.

Mas é a lacuna entre o que estes algoritmos de deep-learning treinados para lidar com enormes quantidades de dados de texto são e o que aspiram ser que preocupa um número crescente de pesquisadores, até porque os LLM são “apresentados” como as tecnologias de preenchimento automático mais poderosas do mundo. Ao “ingerir” milhões de frases, parágrafos e até mesmo excertos de diálogo, aprendem os padrões estatísticos e constroem conversas numa ordem particularmente sensata. Isso significa que os LLM podem aprimorar certas actividades. Por exemplo, são excelentes para criar chatbots mais interactivos e fluidos de conversação que seguem um guião bem estabelecido, apesar de não entenderem realmente o que estão a ler ou dizer.