Datos Faltantes (Missing values)

NATURALEZA

Este término se circunscribe al ámbito de la minería de datos (data mining). Se consideran “datos faltantes” las lagunas o inexactitudes de información relevante que afectan al resultado de esa labor de minería. Por extensión, el concepto resulta relevante para el aprendizaje automático y la propia inteligencia artificial (AI), pues compromete el grado de fiabilidad de sus respuestas.

CONCEPTO

Los datos faltantes son un problema común e inevitable que admite un enorme casuismo, desde errores en la recopilación de datos (datos erróneos), hasta la ausencia, voluntaria o no, de los éstos. Esta diversidad provoca que su tratamiento técnico sea complejo.En general, existen cuatro estrategias posibles: eliminación de los ejemplos donde se contienen los datos faltantes; interpolación de un valor en atención a los elementos adyacentes; imputación de un valor mediante una estimación basada en la información de todo el conjunto de datos; y asignación de un valor idéntico y distinto de los observados a todos los datos de este tipo. Para los datos erróneos puede añadirse una quinta estrategia: la corrección, siempre que sea posible. Sea como fuere, los científicos de datos coinciden en señalar las virtudes de la imputación, aunque la técnica elegida debe tener en cuenta el origen de la pérdida. En un ejemplo del ámbito clínico, no es igual que la ausencia de resultados de un análisis se deba a la pérdida accidental de los tubos de muestra (dato faltante totalmente al azar, MCAR en inglés); a la pertenencia del paciente a un colectivo para el que dicho análisis es opcional (faltante al azar,MAR en inglés); o a su negativa a someterse a la prueba ante las molestias particularmente intensas que le supone (dato no faltante al azar, NMAR en inglés) También cabe la posibilidad de que la fecha de nacimiento del paciente sea errónea e imposible. La estrategia para completar estas lagunas dependerá del uso que vaya a darse a la información.

IMPORTANCIA

La existencia de lagunas o errores en la información a tratar puede comprometer la exactitud de la observación, cuando no introducir sesgos en la misma, y comprometer la exactitud de los hallazgos obtenidos. La cuestión es especialmente importante cuando nos referimos a ámbitos que no toleran la inexactitud, como la investigación médica.
El problema es que las estrategias para completar la información no evitan el problema. Teniendo en cuenta que sólo desde la óptica de la imputación existen más de una decena de métodos posibles, la preferencia del programador por emplear una determinada técnica puede condicionar el resultado del análisis, lo que se compadece mal con el funcionamiento de la Administración Pública.

USOS Y RIESGOS

Los datos faltantes son una brecha de seguridad para el funcionamiento de un Estado de Derecho digital. Para minimizar este impacto, cuando la información obtenida de la labor de minería pueda afectar al funcionamiento del Estado la elección de la técnica para el tratamiento de estas lagunas no debería depender de la libre decisión del programador.

AUTORES

Roberto C. Rosino Calle

Privacy Settings
We use cookies to enhance your experience while using our website. If you are using our Services via a browser you can restrict, block or remove cookies through your web browser settings. We also use content and scripts from third parties that may use tracking technologies. You can selectively provide your consent below to allow such third party embeds. For complete information about the cookies we use, data we collect and how we process them, please check our Privacy Policy
Youtube
Consent to display content from - Youtube
Vimeo
Consent to display content from - Vimeo
Google Maps
Consent to display content from - Google
Spotify
Consent to display content from - Spotify
Sound Cloud
Consent to display content from - Sound