Datos sintéticos (synthetic data)

NATURALEZA

Es un concepto propio de la ciencia de datos.

CONCEPTO

Los datos sintéticos son datos generados artificialmente, que se crean a partir de un conjunto de datos reales cuya estructura y características imitan. Su similitud con los datos a partir de los que han sido creados permite que se extraigan de su estudio conclusiones similares a las que se habrían extraído del análisis de los datos originales. El proceso de creación de estos datos, llamado
síntesis, puede llevarse a cabo empleando distintas técnicas, entre ellas técnicas de aprendizaje profundo. Los datos sintéticos se crean con un propósito específico, y ese propósito determinará los parámetros utilizados en su construcción, así como el nivel de fidelidad a los datos originales que resulta necesario para su consecución.
Los datos sintéticos son datos no creados por humanos que imitan datos del mundo real. Se crea mediante algoritmos de computación y simulaciones basadas en tecnologías de inteligencia artificial generativa. Un conjunto de datos sintéticos tiene las mismas propiedades matemáticas que los datos reales en los que se basa, pero no contiene la misma información. Las organizaciones utilizan datos sintéticos para la investigación, las pruebas, los nuevos desarrollos y la investigación sobre machine learning. Las innovaciones recientes en inteligencia artificial han hecho que la generación de datos sintéticos sea eficiente y rápida, pero también han aumentado su importancia en las preocupaciones reguladoras de datos.
Hay dos tipos principales de datos sintéticos: parciales y completos.

  • Datos sintéticos parciales: Los datos parcialmente sintéticos sustituyen una pequeña parte de un conjunto de datos real por información sintética. Puede usarlo para proteger partes sensibles de un conjunto de datos. Por ejemplo, si necesita analizar datos específicos de los clientes,puede sintetizar atributos como el nombre, los detalles de contacto y otra información del mundo real que alguien pueda rastrear hasta una persona específica.
  • Datos totalmente sintéticos: Los datos totalmente sintéticos son aquellos en los que se generan datos completamente nuevos. Un conjunto de datos totalmente sintético no contendrá ningún dato del mundo real. Sin embargo, utilizará las mismas relaciones, distribuciones gráficas y propiedades estadísticas que los datos reales. Si bien estos datos no provienen de datos reales registrados, le permiten sacar las mismas conclusiones. Se puede utilizar datos totalmente sintéticos al probar modelos de machine learning. Resulta útil cuando se quiere probar o crear nuevos modelos, pero no se dispone de suficientes datos de entrenamiento reales para mejorar la precisión del machine learning.

La generación de datos sintéticos implica el uso de métodos computacionales y simulaciones. El resultado imita las propiedades estadísticas delos datos del mundo real, pero no contiene observaciones reales del mundo real. Estos datos generados pueden adoptar diversas formas, como texto, números, tablas o tipos más complejos, como imágenes y videos. Hay tres enfoques principales para generar datos sintéticos, cada uno delos cuales ofrece diferentes niveles de precisión y tipos de datos.

  1. Distribución estadística: En este enfoque, los datos reales se analizan primero para identificar sus distribuciones estadísticas subyacentes,como las distribuciones normales, exponenciales o de chi-cuadrados. Luego, los científicos de datos generan muestras sintéticas a partir de estas distribuciones identificadas para crear un conjunto de datos que se parezca estadísticamente al original.
  2. Basado en modelos: En este enfoque, se entrena un modelo de machine learning para comprender y replicar las características de los datos reales. Una vez que se ha entrenado el modelo, puede generar datos artificiales que siguen la misma distribución estadística que los datos reales.Este enfoque es particularmente útil para crear conjuntos de datos híbridos, que combinan las propiedades estadísticas de los datos reales con elementos sintéticos adicionales.
  3. Métodos de aprendizaje profundo: Se pueden emplear técnicas avanzadas como las redes generativas antagónicas (GAN), los codificadores automáticos variacionales (VAE) y otras para generar datos sintéticos. Estos métodos se utilizan con frecuencia para tipos de datos más complejos,como imágenes o datos de series temporales, y pueden producir conjuntos de datos sintéticos de alta calidad.
IMPORTANCIA

La síntesis de datos puede resultar de utilidad allí donde no es posible o resulta excesivamente costoso disponer de una cantidad suficiente de datos reales para alcanzar un determinado objetivo, o en situaciones en las que los datos reales presentan algún obstáculo para su tratamiento(por ejemplo, presentan sesgos que se quieren corregir o incorporan datos personales que no resulta imprescindible utilizar para alcanzar las conclusiones u objetivos buscados). Cada vez es más habitual que se utilicen datos sintéticos para desarrollar o testar el funcionamiento de sistemas de inteligencia artificial.
Los datos sintéticos ofrecen varios beneficios a las organizaciones. Repasamos algunos de ellos a continuación.

  • Generación de datos ilimitada: Puede producir datos sintéticos a pedido y a una escala casi ilimitada. Las herramientas de generación de datos sintéticos son una forma rentable de obtener más datos. También pueden etiquetar previamente (categorizar o marcar) los datos que generan para los casos de uso de machine learning. Obtiene acceso a datos estructurados y etiquetados sin tener que pasar por el proceso de transformar los datos sin procesar desde cero. También puede agregar datos sintéticos al volumen total de datos que tiene, lo que permite obtener más datos de entrenamiento para el análisis.
  • Protección de la privacidad: Campos como la salud, las finanzas y el sector legal tienen muchas regulaciones de privacidad, derechos de autor y cumplimiento para proteger los datos confidenciales. Sin embargo, deben usar los datos para el análisis y la investigación y a menudo tienen que subcontratar los datos a terceros para su máxima utilización. En lugar de datos personales, pueden usar datos sintéticos para cumplir el mismo propósito que estos conjuntos de datos privados. Crean datos similares que muestran la misma información estadísticamente relevante sin exponer datos privados o confidenciales. Piense en la investigación médica que crea datos sintéticos a partir de un conjunto de datos en tiempo real: los datos sintéticos mantienen el mismo porcentaje de características biológicas y marcadores genéticos que el conjunto de datos original, pero todos los nombres, direcciones y demás información personal del paciente son falsos.
  • Reducción de sesgos: Puede utilizar datos sintéticos para reducir el sesgo en los modelos de entrenamiento de IA. Como los modelos grandes suelen basarse en datos disponibles públicamente, puede haber sesgos en el texto. Los investigadores pueden utilizar datos sintéticos para contrastar con cualquier lenguaje o información sesgada que recopilen los modelos de IA. Por ejemplo, si cierto contenido basado en opiniones favorece a un grupo en particular, puedes crear datos sintéticos para equilibrar el conjunto de datos general.
USOS Y RIESGOS

Los datos sintéticos pueden emplearse como una forma de privacy enhanced technology, al permitir que se evite o se reduzca el procesamiento de datos personales, sin renunciar a la obtención de las conclusiones o resultados que se habrían extraído del análisis o tratamiento de los datos reales. No obstante, es importante que en su proceso de síntesis se neutralicen los riesgos de re-identificación, es decir, que se evite la posibilidad de que a partir de los datos sintéticos se puedan obtener los datos personales que se pretendía proteger. Es necesario vigilar también que los datos sintéticos no reproduzcan sesgos indeseados presentes en los datos originales ni introduzcan nuevos sesgos que puedan dar lugar a resultados discriminatorios.
Existen varios desafíos a la hora de crear datos sintéticos. A continuación, se presentan algunas limitaciones y desafíos generales que probablemente experimentará con los datos sintéticos.

  1. Control de calidad. La calidad de los datos es vital en las estadísticas y el análisis. Antes de incorporar datos sintéticos en los modelos de aprendizaje, debe comprobar que sean precisos y que tengan un nivel mínimo de calidad de datos. Sin embargo, garantizar que nadie pueda rastrear los puntos de datos sintéticos hasta la información real puede requerir una reducción de la precisión. Un equilibrio entre privacidad y precisión podría afectar a la calidad. Puede realizar comprobaciones manuales de los datos sintéticos antes de usarlos, lo que puede ayudar a solucionar este problema. Sin embargo, la comprobación manual puede llevar mucho tiempo si necesita generar muchos datos sintéticos.
  2. Desafíos técnicos. La creación de datos sintéticos es difícil: debe comprender las técnicas, las reglas y los métodos actuales para garantizar su precisión y utilidad. Necesita una gran experiencia en este campo antes de generar datos sintéticos útiles.No importa la experiencia que tenga de su lado, es difícil generar datos sintéticos como una imitación perfecta de sus homólogos del mundo real. Por ejemplo, los datos del mundo real suelen incluir valores atípicos y anomalías que los algoritmos de generación de datos sintéticos rara vez pueden recrear.
    Confusión de las partes interesadas.

Si bien los datos sintéticos son una herramienta complementaria útil, es posible que no todas las partes interesadas comprendan su importancia.Como tecnología más reciente, es posible que algunos usuarios no acepten que el análisis de datos sintéticos tenga relevancia en el mundo real.Por otro lado, otros pueden exagerar los resultados debido al aspecto controlado de la generación. Han de comunicarse los límites de esta tecnología y sus resultados a las partes interesadas, asegurándose de que comprendan tanto las ventajas como las deficiencias.

BIBLIOGRAFÍA
AUTORES

Laura Hernández Llinás

Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from - Youtube
Vimeo
Consent to display content from - Vimeo
Google Maps
Consent to display content from - Google
Spotify
Consent to display content from - Spotify
Sound Cloud
Consent to display content from - Sound