Um recurso importante
Rui Barata Ribeiro, IBM strategic accounts manager – Data Platform da IBM Portugal, sublinha que em «nenhuma outra área tecnológica a necessidade de consumo e processamento de dados é tão grande como a da inteligência artificial», onde «os dados são, de facto, o “combustível”». Neste contexto, as organizações têm uma «necessidade sempre crescente de dados que representem a realidade, o que os torna cada vez mais difíceis de obter – e é aqui que o recurso aos dados sintéticos pode ser crucial», refere.
Carlos Sanchiz, head of specialist solutions architects for Europe South da Amazon Web Services, salienta que os dados sintéticos são uma solução valiosa para treinar modelos de machine learning, pois permitem que os programadores superem limitações de dados reais, como custos de aquisição, preocupações com privacidade e vieses presentes em conjuntos de dados públicos». O responsável realça que empresa «ajuda os clientes no processo de gerar dados sintéticos» e dá um exemplo: «A plataforma SageMaker oferece várias opções que permitem às empresas e organizações etiquetar dados em bruto – como imagens, ficheiros de texto e vídeos – e gerar dados sintéticos estruturados, a fim de criar conjuntos de dados de alta qualidade para o treino de modelos de machine learning».
Relevância crescente
O SAS reconhece os dados sintéticos como uma ferramenta «essencial para impulsionar a inteligência artificial de forma ética e segura, garantindo conformidade com regulamentações de protecção de dados, como o AI Act aprovado pelo Parlamento Europeu», indica Ricardo Galante, principal analytics and artificial intelligence advisor da empresa em Portugal.
O responsável revela, em concreto, quais vão ser alguns dos benefícios dos dados sintéticos na aplicação do regulamento: «No sector de saúde, hospitais e laboratórios frequentemente enfrentam desafios para partilhar informações de pacientes devido a normas como o RGPD e a o Health Insurance Portability and Accountability Act dos EUA», assim, «o uso de dados sintéticos permite que investigadores desenvolvam e testem modelos preditivos de IA sem expor informações pessoais, garantindo assim conformidade com essas regulamentações».
A verdade é que, não é apenas na área da saúde, que o SAS vê utilidade para estes dados e tem auxiliado «empresas e governos a proteger informações sensíveis, garantir conformidade regulatória e melhorar a eficiência dos seus modelos de IA».
Forjar dados para treinar modelos, é como treinar cães de guarda para só atacarem brancos/negros/amarelos ou só encontrar droga em determinados contentores e deixar outros passar.