Maior privacidade
O principal analytics and artificial intelligence advisor do SAS Portugal adianta que, «como os dados sintéticos são desvinculados de indivíduos reais, não há risco de exposição de dados pessoais» e que «as empresas podem trocar dados sintéticos sem preocupações legais, facilitando colaborações internacionais» Além disso, AI Act da União Europeia «exige transparência e segurança no uso de IA», tornando os dados sintéticos uma «solução eficaz para evitar infracções e garantir responsabilidade no uso» desta tecnologia. Já o IBM strategic accounts manager realça que em indústrias reguladas, «pode simplificar e acelerar diversos processos, por via da não-necessidade de manipulação massiva de PII [personal identifiable information]».
No que diz respeito à privacidade, o head of specialist solutions architects da AWS esclarece que, pelo facto de os dados sintéticos «não conterem informações reais» oferecem uma «camada adicional de protecção», o que permite «treinar modelos sem comprometer dados sensíveis».
Ultrapassar limitações
Soluções de IA mais responsáveis podem também aproveitar os pontos fortes dos dados sintéticos. André Carreiro explica que este uso «tem revelado um enorme potencial para colmatar diversas limitações ao longo do ciclo de vida da IA» e específica que pode «reduzir o enviesamento», já que é possível «gerar amostras sintéticas que aumentem a representatividade de grupos pouco representados». Podem também servir para «proteger a privacidade, ao adicionar ruído a amostras reais ou substituir completamente o conjunto original por uma versão sintética que retém as características estatísticas essenciais, mas que evita riscos de privacidade e, idealmente, sem comprometer o desempenho dos modelos».
O membro do Centro de IA Responsável dá um exemplo concreto na área da saúde: «Tem-se explorado a criação de bases de dados sintéticas que simulam registos clínicos ou imagens médicas, permitindo investigar e treinar algoritmos de suporte ao diagnóstico sem expor dados sensíveis dos pacientes. Assim, os investigadores podem desenvolver novas soluções de IA de forma mais segura, garantindo a privacidade dos indivíduos e, em simultâneo, aumentando a diversidade e a robustez dos resultados, o que se traduz em maior confiança. Além disso, é possível criar dados sintéticos fora das distribuições reais, de modo a testar os limites dos modelos treinados e identificar os seus pontos fracos de forma mais controlada para os corrigir ou, pelo menos, reportar».
Nem tudo é positivo
Apesar dos inúmeros benefícios, os especialistas deixam alguns alertas: «A utilização de dados sintéticos não será, certamente, uma “silver bullet” para todos os casos enunciados, mas poderá ter uma contribuição em várias situações», reitera Rui Barata Ribeiro. A IBM explica que os dados sintéticos «não são uma solução perfeita para os enviesamentos» e refere uma investigação médica em que «grupos de doentes foram sub-representados nos dados do mundo real» e, por conseguinte, os «preconceitos foram transferidos para a aprendizagem automática», mesmo usando dados artificialmente criados.
Forjar dados para treinar modelos, é como treinar cães de guarda para só atacarem brancos/negros/amarelos ou só encontrar droga em determinados contentores e deixar outros passar.