Minería de datos (Data mining)
NATURALEZA
Esta técnica pertenece a los campos científicos de la Estadística y de la Computación. Es una técnica menos nueva delo que parece. El término ya apareció en los años sesenta (data mining, en inglés) junto con otros términos como “data fishing” o “data archeology”. Inicialmente se pensó en ella como una técnica al servicio de la mejora y crecimiento de las empresas de tal forma que usando diferentes tecnologías y bases de datos gigantes se pudieran extraer tendencias y reglas explicativas del comportamiento de los datos de tal manera que se pudieran apoyar los procesos de toma de decisiones con más conocimiento de causa.
CONCEPTO
La minería de datos es una técnica (algorítmica) de exploración o análisis automático o semiautomático de datos. Forma parte del proceso conocido por sus siglas en inglés: KDD o Knowledge Discovery in Databases. Con ella se busca identificar patrones desconocidos, hasta el momento en que se aplica, en grandes volúmenes de conjuntos de datos, extraer información y convertirla en una estructura comprensible que pueda ser utilizada con posterioridad. Lo propio de la minería es el análisis,pero otras etapas forman parte del KDD, así, la recolección de los datos, su preparación, la interpretación de los resultados y la información. Con esta técnica se pueden obtener (a) grupos de registros de datos o análisis cluster; (b) registros poco frecuentes (anomalías); (c) dependencias (minería por asociación). Ello puede usarse en el aprendizaje automático (machine learning) y los análisis predictivos, ambos relacionados con la Inteligencia Artificial. Las técnicas más habituales en minería de datos son las redes neuronales, la regresión lineal, los árboles de decisión, los modelos estadísticos, el agrupamiento y las reglas de asociación.
IMPORTANCIA
La relevancia de la minería de datos estriba en su aplicabilidad a muy diferentes ámbitos de conocimiento y de la vida. Así, en el ámbito empresarial, permite apuntar justo a los clientes que podrían interesarse por el producto o servicio, centrando la oferta al máximo; pueden fomentarse las “ventas compulsivas” al identificar los productos que se adquieren un determinado día por un perfil concreto de comprador;puede detectarse el cliente proclive a irse a la competencia, con el fin de retenerlo; pueden detectarse transacciones fraudulentas, que suelen seguir el mismo patrón; pueden emplearse en los departamentos de recursos humanos para identificar las cualidades de los empleados más eficientes y aplicar estos rasgos en la contratación posterior; en las ventas por Internet, es posible anticipar comportamientos de clientes y dirigir publicidad específica a los perfiles identificados; permite identificar terroristas o delincuentes; se puede usar para extraer estrategias empleadas en juegos de mesa y alimentar los “oráculos” o máquinas que estudian problemas de decisión; para estudiar los gustos de los jugadores de videojuegos y ofrecer productos mejorados en su calidad; también se usa en la genética humana, para averiguar cómo cambios en el ADN pueden anticipar la proclividad a desarrollar una enfermedad; para detectar anomalías en las instalaciones eléctricas; para identificar gases disueltos en los transformadores eléctricos, entre otros muchos usos.
USOS Y RIESGOS
Los casos de uso que podrían darse en la Administración Pública son variados y afectarían a todas las instituciones y a todos los ministerios, desde la gestión del bono social eléctrico para las familias vulnerables, que ya hadado lugar a un caso en tribunales ( el conocido como caso “Bosco”) hasta el análisis de las condiciones socioeconómicas de aldeas y pueblos, y sus habitantes, en la España rural, pasando por el trazado, ya ilegal, de perfiles a efectos políticos. Por lo tanto, los riesgos aquí son abundantes desde la perspectiva de los derechos fundamentales de los ciudadanos y del control de la administración. Pero también lo son desde la óptica de su uso por parte de agentes privados sobre la privacidad de los ciudadanos.
AUTORES
Pilar Cousido