Em Foco

A ascensão dos dados sintéticos

Os dados sintéticos são artificialmente criados por algoritmos para imitar padrões do mundo real e servem para testar/validar modelos. Existentes há décadas, bastou Elon Musk falar neles e eis que há novo tema em cima da mesa. Mas será que vão mesmo ser o futuro da IA e resolver os desafios da escassez de dados, reduzir os custos e proteger a privacidade?

starline / Freepik

Escassez e redução de custos
Um dos problemas que os dados sintéticos prometem resolver é a falta de dados; Carlos Sanchiz diz que «podem ser uma alternativa viável, especialmente quando a recolha de dados reais é inviável, ou demorada». Já na redução de custos para as empresas, a geração de dados sintéticos é «frequentemente mais económica que a recolha e rotulagem de dados reais, particularmente em grande escala».

Ricardo Galante ressalva que, em sectores onde há «poucos dados disponíveis, como em doenças raras ou fraudes bancárias, os dados sintéticos podem ajudar a criar bases de treino mais diversificadas e balanceadas, evitando que os modelos de IA tenham viés» e dá um exemplo de onde podem fazer a diferença – no sector automóvel: «As empresas de automóveis autónomos utilizam dados sintéticos para simular milhões de cenários de condução, reduzindo a necessidade de recolher grandes quantidades de dados do mundo real». Já ao nível dos custos, Ricardo Galante fala das poupanças em relação à «etiquetagem dos dados reais» que exigem «muito tempo e dinheiro».

Rui Barata Ribeiro © IBM

A IBM tem uma visão alinhada com esta ideia. Rui Barata Ribeiro atesta que a utilização de dados sintéticos «poderá desde logo aumentar a eficiência e rapidez de desenvolvimento e inovação, pelo simples aumento da simplicidade de disponibilização de dados para estes processos – sem necessidade de criação, integração, transformação e adaptação de repositórios de dados em ambientes heterogéneos». Por outro lado, permite a utilização de modelos «mais pequenos, eficientes e flexíveis», o que poderá ter um «enorme impacto nos custos de desenvolvimento e implementação de IA nas organizações».

A IBM refere ainda uma maior qualidade dos dados como uma das vantagens, uma vez que «eliminam as imprecisões ou erros» que podem ocorrer quando se trabalha com dados reais. A escalabilidade (já que os modelos precisam de grandes quantidades de dados que nem sempre estão disponíveis); a inclusão de casos extremos (quando se «trata de eventos ou instâncias que podem ocorrer com pouca frequência, mas que são vitais para o modelo de IA»); e a facilidade de utilização (é «simples gerar e eliminar as imprecisões e os duplicados») são outros dos grandes argumentos.

1 comentário

  • Forjar dados para treinar modelos, é como treinar cães de guarda para só atacarem brancos/negros/amarelos ou só encontrar droga em determinados contentores e deixar outros passar.

Deixe um comentário