DATOS SINTÉTICOS: UNA NUEVA CULTURA DE PROTECCIÓN DE DATOS
La Agencia Española de Protección de Datos (AEPD) acaba de traducir al español la denominada “Guía sobre generación de datos sintéticos”, dentro del marco de la colaboración que la Agencia mantiene con su entidad homóloga de Singapur, la “Personal Data Protection Commission” (PDPC)
Dicho documento, elaborado por la Autoridad Nacional de Protección de Datos de Singapur (PDPC), se ha traducido por su valor didáctico y relevancia para responsables, encargados de tratamientos y delegados de protección de datos, a quienes puede proporcionar orientación práctica y técnica así como facilitarles mucho sus tareas en el día a día.
Comienza señalando la Guía que las tecnologías de mejora de la privacidad (PET, en inglés Privacy Enhancing Technology) son un conjunto de herramientas y técnicas que permiten el tratamiento, el análisis y la extracción de información de los datos sin revelar los datos personales o comercialmente confidenciales subyacentes. Al incorporar PET, las empresas pueden mantener ventajas competitivas en el mercado aprovechando sus activos de datos existentes para la innovación, a la vez que cumplen con las regulaciones de protección de datos, reducen el riesgo de brechas de datos y constituyen, sin duda alguna, un compromiso con la normativa de protección de datos.
Las PET serán de enorme importancia para fomentar lo que viene siendo una cultura de protección de datos y mejorar la imagen de una empresa en la era digital.
Pero, antes de continuar, debemos comprender y conocer exactamente qué son estos “datos sintéticos”.
Pues bien, se conocen como datos sintéticos aquellos datos artificiales que se han generado utilizando un modelo matemático especialmente diseñado (incluidos los modelos de inteligencia artificial (IA)/aprendizaje automático (ML, en inglés)) o algoritmo. Se puede derivar entrenando un modelo (o algoritmo) con un conjunto de datos de origen para imitar las características y la estructura de los datos de origen.
Los datos sintéticos pueden conservar en gran medida las propiedades estadísticas y los patrones de los datos de origen. Como resultado, la realización del análisis en datos sintéticos puede producir de igual manera resultados similares a los obtenidos con los datos de origen.
Asimismo, este tipo de datos se pueden utilizar en una variedad de situaciones, que van desde la generación de conjuntos de datos de entrenamiento para modelos de IA hasta el análisis de datos y la colaboración. Su uso no sólo puede acelerar la investigación, la innovación, la colaboración y la toma de decisiones, sino que también puede reducir incidentes de ciberseguridad y brechas de datos, lo que permite un mejor cumplimiento de las regulaciones de protección de datos.
Como comentábamos, son generados artificialmente con el fin de simular datos reales y deben conservar sus características estadísticas esenciales para resultar útiles sin comprometer la información personal. Su generación debe planificarse cuidadosamente, situándose en una gama que va desde los datos completamente aleatorios hasta los datos reales.
Por otra parte, los datos sintéticos están íntimamente conectados con lo que se conoce como “la economía del dato”, siempre que se valore adecuadamente su idoneidad según el caso de uso y se garantice un equilibrio entre su utilidad y los riesgos para la privacidad.
Pero, cuidado, el uso de estos datos no sólo puede acelerar la investigación, la innovación, la colaboración y la toma de decisiones, sino que también puede mitigar el impacto de las brechas de datos.
Los datos sintéticos tienen el potencial de impulsar el crecimiento de la IA/ML al permitir el entrenamiento de modelos de IA y proteger los datos personales subyacentes. También aborda los desafíos relacionados con los conjuntos de datos para el entrenamiento de modelos de IA, como los datos insuficientes y sesgados, al permitir el aumento y la extensión de la diversidad de los conjuntos de datos de entrenamiento.
Además, los datos sintéticos se pueden utilizar para facilitar y respaldar las necesidades de análisis de datos, colaboración y desarrollo de software de las organizaciones. Un beneficio adicional de usar datos sintéticos en lugar de datos de producción para facilitar el desarrollo de software es que se pueden evitar brechas de datos personales en caso de que el entorno de desarrollo se vea comprometido.
En resumen el PDPC recomienda un conjunto de buenas prácticas, evaluaciones/consideraciones de riesgos para generar datos sintéticos y reducir los riesgos residuales de la denominada singularmente “reidentificación” a través de controles de gobernanza, procesos contractuales y medidas técnicas y. en este sentido, desde el Despacho seguiremos informando.
Dejar un comentario
¿Quieres unirte a la conversación?Siéntete libre de contribuir!