La generación de datos sintéticos se ha convertido en un área de creciente interés en el campo de la inteligencia artificial y la ciencia de datos. Esta técnica permite crear conjuntos de datos artificiales que imitan las propiedades estadísticas de los datos reales, pero sin contener información personal o sensible que pueda comprometer la privacidad de los individuos. En este artículo, exploraremos en detalle la generación de datos sintéticos, incluyendo sus casos de uso, métodos de generación, estrategias para la reducción de sesgos y escenarios de aplicación.

¿Qué son los Datos Sintéticos?

Los datos sintéticos son datos generados artificialmente que reflejan las características estadísticas de los datos reales, pero sin contener información que pueda ser rastreada a individuos específicos 1. Se crean mediante algoritmos de computación y simulaciones basadas en tecnologías de inteligencia artificial generativa 1. Un conjunto de datos sintéticos conserva las mismas propiedades matemáticas que los datos reales en los que se basa, pero no incluye los mismos datos individuales, lo que lo hace ideal para proteger la privacidad y la confidencialidad 1.

Dependiendo del propósito para el que se vayan a utilizar, se pueden considerar dos tipos de datos sintéticos: datos totalmente sintéticos, donde se sintetizan todas las variables del conjunto de datos original, y datos parcialmente sintéticos, donde solo se sintetizan algunas de las variables, por ejemplo, las más sensibles 2. En el caso de los datos parcialmente sintéticos, el riesgo de divulgación de datos personales es mayor, ya que contienen datos originales junto con datos sintéticos 2.

Propósito y beneficios de los datos sintéticos

El propósito principal de los datos sintéticos es proporcionar una alternativa a los datos reales cuando estos no están disponibles, cuando su uso está restringido por preocupaciones de privacidad 3, o para fines de prueba de software y sistemas informáticos 4. Al generar conjuntos de datos realistas pero sintéticos, los desarrolladores pueden simular escenarios diversos y evaluar el rendimiento, la escalabilidad y la seguridad de sus aplicaciones sin exponer datos reales ni correr riesgos innecesarios 5. Los datos sintéticos permiten a las organizaciones:

  • Proteger la privacidad de los datos: Al no contener información personal identificable, los datos sintéticos eliminan las preocupaciones sobre la privacidad y el cumplimiento de las regulaciones de protección de datos 2.
  • Superar la escasez de datos: En muchos casos, la cantidad de datos reales disponibles puede ser limitada. Los datos sintéticos permiten generar grandes volúmenes de datos para entrenar modelos de IA y realizar análisis 6.
  • Mejorar la calidad de los datos: Los datos sintéticos pueden ser utilizados para crear conjuntos de datos más equilibrados y completos, eliminando sesgos y errores presentes en los datos reales 3.
  • Facilitar la innovación: Los datos sintéticos permiten realizar experimentos y análisis que serían inviables o éticamente cuestionables con datos reales, promoviendo la innovación en diversos campos 9.

Casos de uso de datos sintéticos

Los datos sintéticos tienen una amplia gama de aplicaciones en diversas industrias. Para facilitar la lectura, se presenta la información en formato de tabla:

Industria

Aplicación

Descripción

Salud

Investigación y desarrollo

Examinar condiciones médicas, resultados de tratamientos y demografía de pacientes sin comprometer la privacidad del paciente. Por ejemplo, estudiar los efectos de un nuevo tratamiento y predecir las respuestas de los pacientes 10. Permite estudiar eventos raros que podrían ser difíciles de capturar con datos reales 6.

Salud

Entrenamiento de IA

Entrenar modelos de aprendizaje automático para diagnósticos, medicina personalizada y predicción de enfermedades sin comprometer la privacidad del paciente 11.

Salud

Simulación de escenarios

Generar datos tabulares para facilitar el desarrollo y evaluación de cualquier aplicación de aprendizaje automático 12.

Finanzas

Gestión de riesgos

Simular diversos escenarios financieros y evaluar riesgos sin revelar datos confidenciales de los clientes 11.

Finanzas

Detección de fraudes

Entrenar algoritmos sólidos de detección de fraudes, asegurando así las transacciones financieras 11.

Finanzas

Cumplimiento normativo

Optimizar la toma de decisiones, mejorar el cumplimiento normativo y desarrollar estrategias innovadoras sin comprometer la información confidencial de los clientes 13.

Retail

Análisis del consumidor

Conocer las preferencias generales de los clientes para diseñar estrategias promocionales acordes a sus hábitos que ayuden a impulsar el proceso de compra 14.

Retail

Optimización de inventario

Mejorar la gestión del inventario, la planificación de surtido, la comercialización, el marketing y otras actividades comerciales 15.

Retail

Marketing

Personalizar la experiencia del cliente y desarrollar estrategias de marketing 16.

Manufactura

Optimización de procesos

Obtener datos de entrenamiento para casos extremos, eventos o instancias que podrían ocurrir con poca frecuencia, pero que son fundamentales para el modelo de IA 17.

Manufactura

Mantenimiento predictivo

Entrenar modelos de mantenimiento predictivo 18.

Manufactura

Desarrollo de productos

Simular escenarios de fabricación 19.

Seguridad

Detección de intrusos

Entrenar sistemas de detección de intrusos y prevención de amenazas 3.

Seguridad

Simulación de ataques

Simular ataques cibernéticos para la evaluación de la seguridad 2.

Seguridad

Análisis forense

Desarrollar herramientas de análisis forense digital 19.

Métodos de generación de datos sintéticos

Existen diferentes métodos para generar datos sintéticos, cada uno con sus propias ventajas y desventajas. Algunos de los métodos más comunes incluyen:

Modelos Basados en Aprendizaje Automático:

Para la generación de datos sintéticos se requiere una inteligencia artificial altamente calificada, o especialistas en IA, que comprendan las complejidades de cómo funcionan los datos 17.

  • Redes Generativas Antagónicas (GANs): Las GANs son un tipo de modelo de aprendizaje automático que utiliza dos redes neuronales, un generador y un discriminador, que compiten entre sí para generar datos sintéticos de alta calidad 12. El generador crea datos sintéticos, mientras que el discriminador intenta distinguir entre los datos reales y los sintéticos. Este proceso iterativo continúa hasta que el generador produce datos sintéticos que son indistinguibles de los datos reales 21. Las GANs se utilizan con frecuencia para generar imágenes, videos y otros tipos de datos complejos 20.
  • Codificadores Automáticos Variacionales (VAEs): Mientras que las GANs sobresalen en la generación de datos complejos como imágenes, los VAEs ofrecen ventajas en la captura de estructuras de datos intrincadas. Los VAEs son otro tipo de modelo de aprendizaje automático que se utiliza para generar datos sintéticos 22. Los VAEs aprenden una representación comprimida de los datos reales y luego utilizan esta representación para generar nuevos datos sintéticos 11. Los VAEs son particularmente útiles para generar datos que tienen una estructura compleja, como imágenes y datos de series temporales 23.

Métodos Estadísticos:

  • Distribución estadística: En este enfoque, se analizan los datos reales para identificar sus distribuciones estadísticas subyacentes, como las distribuciones normales, exponenciales o de chi-cuadrados 22. Luego, se generan muestras sintéticas a partir de estas distribuciones para crear un conjunto de datos que se parezca estadísticamente al original 22.
  • Modelos matemáticos: Estos modelos tienen como objetivo producir un modelo estadístico del conjunto de datos o el proceso subyacente que explica la variación en los datos 24. Estos incluyen modelos de procesos gaussianos, simulaciones de Monte Carlo, muestreo de modelos probabilísticos y suavizado de densidad del núcleo 24.
  • Remuestreo: Las técnicas de remuestreo, como el bootstrapping, se utilizan para generar nuevos datos sintéticos a partir de los datos reales existentes 5. Estas técnicas implican la creación de múltiples muestras aleatorias a partir de los datos reales y la combinación de estas muestras para generar un nuevo conjunto de datos sintéticos.
  • Técnicas adicionales: Además de los métodos mencionados anteriormente, existen otras técnicas para generar datos sintéticos, como la desidentificación y síntesis, la generación basada en reglas y la creación de subconjuntos 4.

Estrategias y técnicas para la reducción de sesgos

Uno de los desafíos en la generación de datos sintéticos es asegurar que los datos generados no perpetúen los sesgos presentes en los datos reales. Los modelos generativos, como las GANs, están diseñados para aprender patrones a partir de extensos conjuntos de datos y generar nuevas instancias que conservan la coherencia estadística con los datos originales 25. Sin embargo, es importante recordar que el sesgo en la IA no es solo un problema técnico, sino también un reflejo de las desigualdades sociales 26. Para abordar este problema, se pueden utilizar diversas estrategias y técnicas, como:

  • Mejorar la calidad de los datos: Antes de generar datos sintéticos, es fundamental limpiar y preprocesar los datos reales para eliminar errores, inconsistencias y sesgos 27.
  • Diversificar los datos de entrenamiento: Se deben utilizar conjuntos de datos de entrenamiento diversos e inclusivos para asegurar que los modelos de generación de datos sintéticos no aprendan patrones discriminatorios 27.
  • Probar los algoritmos en busca de sesgos: Es importante evaluar los modelos de generación de datos sintéticos para identificar y mitigar cualquier sesgo que pueda estar presente 27. Hay cuatro tipos comunes de sesgos relacionados con el aprendizaje automático: sesgo de muestra, sesgo de prejuicio, sesgo de medición y sesgo algorítmico 28.
  • Adoptar marcos normativos: Se deben establecer marcos normativos y éticos para guiar el desarrollo y la aplicación de la generación de datos sintéticos 27.
  • Fairness en la generación de datos sintéticos: Se están desarrollando nuevas técnicas para imponer restricciones de fairness en la generación de datos sintéticos, asegurando que los datos generados sean justos y equitativos 29.

Escenarios de aplicación de la generación de datos sintéticos

La generación de datos sintéticos puede ser especialmente útil en los siguientes escenarios:

  • Protección de datos sensibles: Cuando se trabaja con datos que contienen información personal o confidencial, la generación de datos sintéticos permite proteger la privacidad de los individuos 2.
  • Desarrollo de modelos de IA: Los datos sintéticos pueden ser utilizados para entrenar modelos de IA en situaciones donde los datos reales son escasos o costosos de obtener 3.
  • Simulación de escenarios: Los datos sintéticos permiten simular escenarios complejos y evaluar el impacto de diferentes variables en un sistema 4.

Ejemplos de empresas e instituciones que usan datos sintéticos

Cada vez más empresas e instituciones están adoptando la generación de datos sintéticos para diversas aplicaciones. Algunos ejemplos incluyen:

  • Empresas de tecnología: Compañías como Amazon y Spotify utilizan la inteligencia artificial, y por ende, los datos sintéticos, para optimizar sus servicios y la experiencia que brindan a sus clientes 33.
  • Empresas de servicios financieros: Instituciones financieras utilizan la IA y los datos sintéticos para la detección de fraudes, la gestión de riesgos y la personalización de servicios 34.
  • Organizaciones internacionales: La UNESCO, en colaboración con otras organizaciones internacionales, ha lanzado un portal sobre Inteligencia Artificial que promueve el uso responsable de la IA y los datos sintéticos 35.
  • Sector salud: El interés del sector de la atención médica se deriva de las regulaciones de cumplimiento en torno a los datos de los pacientes. La Ley de Portabilidad y Responsabilidad del Seguro Médico (HIPPA) es una ley federal que protege la información de las personas contra la discriminación, que los datos sintéticos ayudan a superar mediante la creación de datos generados por IA 17. Gartner, una compañía de investigación de mercado, predice que para 2024, el 60% de los datos empleados en el entrenamiento de modelos de IA se generarán sintéticamente 17.

Limitaciones y desafíos de la generación de datos sintéticos

A pesar de sus beneficios, la generación de datos sintéticos también presenta algunas limitaciones y desafíos:

  • Complejidad: La generación de datos sintéticos de alta calidad puede ser un proceso complejo que requiere conocimientos especializados y herramientas sofisticadas 5.
  • Precisión: La precisión de los datos sintéticos depende de la calidad de los datos reales utilizados para entrenar los modelos de generación 36.
  • Generalización: Los datos sintéticos pueden no capturar completamente la complejidad y la variabilidad de los datos reales, lo que puede afectar la generalización de los modelos de IA entrenados con datos sintéticos 11.
  • Representación: Si los datos reales subrepresentan a ciertos grupos demográficos, los datos sintéticos podrían perpetuar esa falta de representatividad 37.

Conclusiones

La generación de datos sintéticos es una técnica prometedora con el potencial de revolucionar la forma en que se utilizan los datos en diversas industrias. Al proporcionar una alternativa a los datos reales, los datos sintéticos permiten proteger la privacidad, superar la escasez de datos y facilitar la innovación. Sin embargo, es importante tener en cuenta las limitaciones y desafíos de la generación de datos sintéticos y utilizar las estrategias adecuadas para garantizar la calidad, la precisión y la fairness de los datos generados. A medida que la tecnología continúa avanzando, la generación de datos sintéticos se convertirá en una herramienta cada vez más importante para las organizaciones que buscan aprovechar el poder de los datos sin comprometer la privacidad o la seguridad.

En resumen, la generación de datos sintéticos ofrece una solución viable para abordar las crecientes preocupaciones sobre la privacidad de los datos y la escasez de datos en el desarrollo de la IA. Al tiempo que se aprovechan los beneficios de los datos sintéticos, es crucial ser conscientes de sus limitaciones y emplear estrategias para mitigar los sesgos y garantizar la precisión. Con un enfoque responsable y ético, la generación de datos sintéticos puede impulsar la innovación y el progreso en diversas industrias.

Se recomienda a las organizaciones que consideren la posibilidad de explorar e implementar la generación de datos sintéticos en sus operaciones, especialmente cuando se trabaja con datos sensibles, se desarrollan modelos de IA o se simulan escenarios complejos. La inversión en experiencia en IA y la adopción de las mejores prácticas para la reducción de sesgos serán cruciales para el éxito de la implementación de datos sintéticos.

Works cited

  1. aws.amazon.com, accessed January 20, 2025, https://aws.amazon.com/es/what-is/synthetic-data/#:~:text=Se%20crea%20mediante%20algoritmos%20de,no%20contiene%20la%20misma%20informaci%C3%B3n.
  2. Datos sintéticos y protección de datos | AEPD, accessed January 20, 2025, https://www.aepd.es/prensa-y-comunicacion/blog/datos-sinteticos-y-proteccion-de-datos
  3. ¿Qué son los datos sintéticos? – IBM, accessed January 20, 2025, https://www.ibm.com/es-es/topics/synthetic-data
  4. ¿Qué son los datos sintéticos? | Syntho te ayudará a resolverlo, accessed January 20, 2025, https://www.syntho.ai/es/what-is-synthetic-data/
  5. datos sintéticos: – ¿qué son y para qué se usan?, accessed January 20, 2025, https://datos.gob.es/sites/default/files/doc/file/informe-datos-sinteticos-es.pdf
  6. Guía de datos sintéticos: usos, beneficios, riesgos y aplicaciones – Shaip, accessed January 20, 2025, https://es.shaip.com/blog/synthetic-data-uses-risk-applications/
  7. Generación de Datos Sintéticos: Una guía práctica en Python – DataCamp, accessed January 20, 2025, https://www.datacamp.com/es/tutorial/synthetic-data-generation
  8. Casos de uso de datos sintéticos | Sinto – Syntho.ai, accessed January 20, 2025, https://www.syntho.ai/es/use-cases/
  9. Datos sintéticos: ¿Qué son y para qué se utilizan? – El blog de Orange, accessed January 20, 2025, https://blog.orange.es/empresas/datos-sinteticos-que-son-para-que-se-utilizan/
  10. Datos sintéticos en sanidad: Conoce su rol en la investigación – QuestionPro, accessed January 20, 2025, https://www.questionpro.com/blog/es/datos-sinteticos-en-sanidad/
  11. Generación de datos sintéticos: Técnicas y consideraciones – QuestionPro, accessed January 20, 2025, https://www.questionpro.com/blog/es/generacion-de-datos-sinteticos/
  12. Generación de datos sintéticos de salud mediante GANs – IIC, accessed January 20, 2025, https://www.iic.uam.es/lasalud/generacion-datos-sinteticos-salud-mediante-gans/
  13. Datos sintéticos en finanzas | Sinto – Syntho.ai, accessed January 20, 2025, https://www.syntho.ai/es/synthetic-data-in-finance/
  14. Casos de uso en Retail Analytics – Keyrus | Insights, accessed January 20, 2025, https://keyrus.com/sp/es/insights/casos-de-uso-en-retail-analytics
  15. Diez ejemplos de inteligencia artificial (IA) en el sector retail – Oracle, accessed January 20, 2025, https://www.oracle.com/es/retail/ai-retail/
  16. Casos de usos de la AI en retail. Ventajas – The Flash Co, accessed January 20, 2025, https://theflashco.com/casos-de-usos-de-la-ai-en-retail/
  17. ¿Qué son los datos sintéticos? – IBM, accessed January 20, 2025, https://www.ibm.com/mx-es/topics/synthetic-data
  18. Cómo se utiliza la IA en la fabricación: Ejemplos, casos de uso y beneficios – Azumuta, accessed January 20, 2025, https://www.azumuta.com/es/blog/how-is-ai-used-in-manufacturing-examples-use-cases-and-benefits/
  19. Datos sintéticos: ¿Qué son y para qué se usan?, accessed January 20, 2025, https://datos.gob.es/es/documentacion/datos-sinteticos-que-son-y-para-que-se-usan
  20. ¿Qué es una GAN? – Explicación sobre las redes generativas antagónicas – AWS, accessed January 20, 2025, https://aws.amazon.com/es/what-is/gan/
  21. Guía completa de la red generativa adversarial (GAN), accessed January 20, 2025, https://www.carmatec.com/es_mx/blog/guia-completa-de-redes-generativas-adversariales-gan/
  22. ¿Qué son los datos sintéticos? – AWS, accessed January 20, 2025, https://aws.amazon.com/es/what-is/synthetic-data/
  23. Modelos generativos: Tipos y rol en generación de datos sintéticos – QuestionPro, accessed January 20, 2025, https://www.questionpro.com/blog/es/modelos-generativos/
  24. Generación de datos sintéticos en el sector sanitario: avances futuros | Globant Blog, accessed January 20, 2025, https://stayrelevant.globant.com/es/technology/healthcare-life-sciences/generacion-de-datos-sinteticos-en-contextos-de-salud-y-ciencias-biologicas-ya-estamos-ahi/
  25. Modelos generativos y su rol en la generación de datos sintéticos – MAPFRE, accessed January 20, 2025, https://www.mapfre.com/actualidad/innovacion/modelos-generativos-generacion-datos-sinteticos/
  26. Claves para combatir sesgos en modelos automatizados – SEIDOR, accessed January 20, 2025, https://www.seidor.com/es-es/blog/claves-combatir-sesgos-modelos-automatizados
  27. Desafío al sesgo en el aprendizaje automático – Mailchimp, accessed January 20, 2025, https://mailchimp.com/es/resources/bias-in-machine-learning/
  28. La eliminación de los sesgos en los algoritmos | Nº 11 – Revista UNE, accessed January 20, 2025, https://revista.une.org/11/la-eliminacion-de-los-sesgos-en-los-algoritmos.html
  29. Imposing Fairness Constraints in Synthetic Data Generation, accessed January 20, 2025, https://proceedings.mlr.press/v238/abroshan24a.html
  30. Diving Deep Into Fair Synthetic Data Generation (Fairness Series Part 5) – MOSTLY AI, accessed January 20, 2025, https://mostly.ai/blog/diving-deep-into-fair-synthetic-data-generation-fairness-series-part-5
  31. Datos Sintéticos para Workflows de IA y Simulación 3D | Caso de Uso | NVIDIA, accessed January 20, 2025, https://www.nvidia.com/es-la/use-cases/synthetic-data/
  32. Datos sintéticos para flujos de trabajo de simulación 3D e IA | NVIDIA, accessed January 20, 2025, https://www.nvidia.com/es-es/use-cases/synthetic-data/
  33. www.zendesk.com.mx, accessed January 20, 2025, https://www.zendesk.com.mx/blog/ejemplos-de-empresas-que-usan-inteligencia-artificial/#:~:text=Las%20empresas%20que%20se%20aventuran,%3A%20Spotify%2C%20Amazon%20y%20Tesla.
  34. Las 10 empresas de big data e inteligencia artificial más punteras – APD, accessed January 20, 2025, https://www.apd.es/empresas-big-data-e-inteligencia-artificial/
  35. La UNESCO y siete importantes organizaciones internacionales lanzan un portal sobre Inteligencia Artificial, accessed January 20, 2025, https://www.unesco.org/es/articles/la-unesco-y-siete-importantes-organizaciones-internacionales-lanzan-un-portal-sobre-inteligencia
  36. Generación de datos sintéticos: el problema de datos insuficientes – Juan Barrios, accessed January 20, 2025, https://www.juanbarrios.com/generacion-de-datos-sinteticos-el-problema-de-datos-insuficientes/
  37. Escasez de Datos en la IA: Los Datos Sintéticos como Solución y sus Riesgos, accessed January 20, 2025, https://algoritmomag.com/escasez-de-datos-en-la-ia-los-datos-sinteticos-como-solucion-y-sus-riesgos/
  38. Limitaciones de la IA generativa – PGR Marketing & Tecnología, accessed January 20, 2025, https://www.pgrmt.com/blog/limitaciones-de-la-ia-generativa