Escassez e redução de custos
Um dos problemas que os dados sintéticos prometem resolver é a falta de dados; Carlos Sanchiz diz que «podem ser uma alternativa viável, especialmente quando a recolha de dados reais é inviável, ou demorada». Já na redução de custos para as empresas, a geração de dados sintéticos é «frequentemente mais económica que a recolha e rotulagem de dados reais, particularmente em grande escala».
Ricardo Galante ressalva que, em sectores onde há «poucos dados disponíveis, como em doenças raras ou fraudes bancárias, os dados sintéticos podem ajudar a criar bases de treino mais diversificadas e balanceadas, evitando que os modelos de IA tenham viés» e dá um exemplo de onde podem fazer a diferença – no sector automóvel: «As empresas de automóveis autónomos utilizam dados sintéticos para simular milhões de cenários de condução, reduzindo a necessidade de recolher grandes quantidades de dados do mundo real». Já ao nível dos custos, Ricardo Galante fala das poupanças em relação à «etiquetagem dos dados reais» que exigem «muito tempo e dinheiro».
A IBM tem uma visão alinhada com esta ideia. Rui Barata Ribeiro atesta que a utilização de dados sintéticos «poderá desde logo aumentar a eficiência e rapidez de desenvolvimento e inovação, pelo simples aumento da simplicidade de disponibilização de dados para estes processos – sem necessidade de criação, integração, transformação e adaptação de repositórios de dados em ambientes heterogéneos». Por outro lado, permite a utilização de modelos «mais pequenos, eficientes e flexíveis», o que poderá ter um «enorme impacto nos custos de desenvolvimento e implementação de IA nas organizações».
A IBM refere ainda uma maior qualidade dos dados como uma das vantagens, uma vez que «eliminam as imprecisões ou erros» que podem ocorrer quando se trabalha com dados reais. A escalabilidade (já que os modelos precisam de grandes quantidades de dados que nem sempre estão disponíveis); a inclusão de casos extremos (quando se «trata de eventos ou instâncias que podem ocorrer com pouca frequência, mas que são vitais para o modelo de IA»); e a facilidade de utilização (é «simples gerar e eliminar as imprecisões e os duplicados») são outros dos grandes argumentos.
Forjar dados para treinar modelos, é como treinar cães de guarda para só atacarem brancos/negros/amarelos ou só encontrar droga em determinados contentores e deixar outros passar.