Em Foco

A ascensão dos dados sintéticos

Os dados sintéticos são artificialmente criados por algoritmos para imitar padrões do mundo real e servem para testar/validar modelos. Existentes há décadas, bastou Elon Musk falar neles e eis que há novo tema em cima da mesa. Mas será que vão mesmo ser o futuro da IA e resolver os desafios da escassez de dados, reduzir os custos e proteger a privacidade?

starline / Freepik

A inteligência artificial vive dos dados (isto não é novidade), mas, de acordo com alguns especialistas, as empresas que trabalham com LLM e sistemas de IA/machine learning estão a ficar sem recursos para treinar os seus modelos. Elon Musk, CEO do X, Tesla e Starlink diz que já se «esgotou a soma de todo o conhecimento humano» e sugere uma alternativa: «A única forma de complementar [os dados do mundo real] é com dados sintéticos», em que a IA «cria os dados de treino».

Artificialmente gerados por algoritmos, surgiram com a computação e os primeiros sistemas de IA, mas foi, em 1993, que o termo ‘dados sintéticos’ foi usado pela primeira vez, por um professor de Harvard, Donald Rubin. O docente utilizou o conceito para resolver problemas de sub-representatividade e privacidade num conjunto de dados de recenseamento. Foram precisos mais de trinta anos para que esta ferramenta chegasse “à ribalta” e, actualmente, são já várias as tecnológicas que usam dados sintéticos para treinar os seus grandes modelos de linguagem: Microsoft, Meta, OpenAI, Google e Anthropic, por exemplo. Este mercado deverá crescer exponencialmente com a Gartner a indicar que 60% dos dados utilizados em projectos de IA e analytics em 2024 já foram gerados sinteticamente e que, em 2030, vão «ofuscar completamente» os dados reais nos modelos de IA.

Vantagens reais
Os dados reais são «quase sempre a melhor fonte de informação», diz Alexander Linden, VP Analyst da Gartner. No entanto, são «frequentemente dispendiosos, desequilibrados, indisponíveis ou inutilizáveis devido a regulamentos de privacidade». É por isso que os dados sintéticos «podem ser um substituto eficaz» e «quando combinados com dados reais» podem «atenuar os pontos fracos» destes últimos. O responsável diz que os dados sintéticos são passíveis de ser usados pelas empresas «para testar um novo sistema quando não existem dados reais ou quando os dados são tendenciosos», «para complementar pequenos conjuntos de dados existentes ou quando os dados reais não podem ser utilizados, ou partilhados».

André Carreiro © Centro de IA Responsável

O Centro de IA Responsável, consórcio liderado pela Unbabel e do qual fazem parte diversas startups, centros de investigação e empresas nacionais, vê esta temática como um recurso «versátil», que pode «tornar o desenvolvimento e a aplicação de sistemas de IA mais confiáveis e robustos», afirma, André Carreiro, investigador sénior na Fraunhofer Portugal AICOS e membro do centro, onde lidera o projecto de investigação ‘Privacy-Preserving AI Systems’. Nesta instituição, «vários parceiros têm vindo a explorar o potencial dos dados sintéticos, tanto numa perspectiva de investigação como num âmbito mais aplicado».

1 comentário

  • Forjar dados para treinar modelos, é como treinar cães de guarda para só atacarem brancos/negros/amarelos ou só encontrar droga em determinados contentores e deixar outros passar.

Deixe um comentário