Ricardo Galante destaca que dados sintéticos são um meio «fundamental para permitir o desenvolvimento de modelos de IA que respeitem os direitos fundamentais, a privacidade e a transparência, minimizando riscos associados ao uso de dados reais», mas que «precisam de ser implementados com governança e validação contínua» e destaca alguns desafios a considerar que estão alinhados com as restantes empresas. Assim, «se os dados originais tiverem viés, os sintéticos podem ampliá-lo, impactando a equidade dos modelos de IA»; este responsável revela ainda necessidade de os «modelos treinados com dados sintéticos precisarem ser testados com dados reais para garantir que suas previsões sejam confiáveis».
Qualidade pode ser um desafio
A qualidade dos dados sintéticos é« crucial para o seu sucesso», assegura Carlos Sanchiz, já que se os gerados artificialmente «não representarem adequadamente a complexidade dos dados reais, o desempenho dos modelos treinados poderá ser prejudicado». O responsável salienta que a «complexidade técnica da criação de dados sintéticos de alta qualidade também representa um desafio», pois exige «expertise em algoritmos de IA e um profundo conhecimento dos dados»; para serem aceites, os dados sintéticos têm de «demonstrar a sua validade e utilidade, esse ponto é essencial». É por isso que Carlos Sanchiz considera que, apesar de «serem uma ferramenta promissora, é essencial pensá-los de forma estratégica; reconhecer as suas limitações e utilizá-los como um complemento, e em alguns casos, substituto, dos dados reais».
Já o investigador André Carreiro deixa um aviso: é necessário ter em conta a questão da «avaliação da qualidade destes dados artificiais». Este é um dos «focos de investigação no centro, cujo objectivo é permitir aos criadores de soluções de IA um uso mais eficaz e seguro destas técnicas na prática».
Forjar dados para treinar modelos, é como treinar cães de guarda para só atacarem brancos/negros/amarelos ou só encontrar droga em determinados contentores e deixar outros passar.