Agrupamientos (clustering)
NATURALEZA
El concepto surge, durante la primera mitad del siglo XX, en el marco de dos disciplinas científicas: la antropología y,con posterioridad, la psicología. A partir de la segunda mitad de dicho siglo, la evolución de la tecnología y la relevancia de la clasificación como procedimiento científico determinan, en primer lugar, su expansión a múltiples ramas de la ciencia, como, por ejemplo, la biología; su paulatino desarrollo; y, en fin, la popularización de su utilidad al conectarse con las ciencias de la computación, la estadística y la ciencia de datos puesto que las técnicas de clustering modernas no fueron posibles hasta que se desarrollaron las posibilidades de análisis sobre bases estadísticas
CONCEPTO
Técnica que, mediante el manejo de distintos métodos, consiste en estudiar y dividir un conjunto de objetos de diversa naturaleza o,en concreto, de datos en diferentes subconjuntos, de tal modo que se maximice la homogeneidad dentro de cada subconjunto y la heterogeneidad entre los propios subconjuntos.
Imaginemos, por ejemplo, que tenemos un conjunto de libros o CDs que hay que clasificar. Ese comienza, pues, a clasificarlos por géneros musicales y literarios y se va desglosando hasta organizar una biblioteca, de manera que cada una de las pertenencias tienen un lugar específico en el estante. Así, el clustering o agrupamiento este consiste en juntar ejemplares sin etiqueta que ahora tienen un lugar y pertenecen a algún grupo.
El Clustering, o análisis de agrupamiento, utiliza diferentes técnicas y algoritmos según el caso y los datos objeto de análisis. Lo primero que necesitamos calcular para hacer un ejercicio de clustering o agrupamiento es la distancia. Es decir, antes de agrupar los elementos por su similitud, tenemos que definir la similitud misma. A un ordenador no le podemos decir, por ejemplo, que el clustering o agrupamiento lo haga por conjuntos de datos que sean mamíferos o que sean más verdes o más rojos; a este tenemos que darle información mucho más detallada y meticulosa.
En general, se puede describir el proceso de clustering de la siguiente manera:
- Selección de datos: El primer paso es elegir los datos que se van a utilizar para el análisis de clustering. Estos datos pueden ser de diferentes tipos, como texto, imágenes, sonidos, etc.
- Selección del algoritmo: A continuación, se selecciona el algoritmo o técnica de clustering adecuada para los datos y el objetivo del análisis.Algunos de los algoritmos más comunes son k-means, clustering jerárquico, clustering basado en densidad, etc.
- Definición del número de clusters: Una vez seleccionado el algoritmo, se debe especificar el número de clusters que se requieren. Este número puede ser determinado por el analista o puede ser determinado automáticamente por el algoritmo.
- Ejecución del algoritmo: Se ejecuta el algoritmo de clustering en los datos seleccionados y se genera un modelo de clusters.
- Evaluación del modelo: Se evalúa el modelo de clustering generado para determinar su eficacia, utilizando diferentes métricas según el objetivo del análisis. Algunas de las métricas más comunes incluyen la distancia entre los puntos, la cohesión y la separación de los clusters, etc
Tipos de Clustering
Existen diferentes tipos de clustering, cada uno con sus propias características y aplicaciones. Los principales tipos de clustering son:
- Clustering jerárquico: este tipo de clustering se basa en la construcción de una jerarquía de clusters, en la que los clusters se fusionan gradualmente en clusters más grandes. Se pueden distinguir dos tipos de clustering jerárquico: aglomerativo (bottom-up), en el que cada punto de datos se toma como un cluster individual y se van fusionando en clusters mayores, y divisivo (top-down), en el que partes el conjunto de datos total en subconjuntos cada vez más pequeños.
- Clustering basado en densidad (DBSCAN): este tipo de clustering se basa en la densidad de los puntos de datos. Los clusters se forman alrededor de las regiones de alta densidad de puntos, mientras que los puntos aislados se consideran ruido.
- Clustering k-means: este tipo de clustering divide el conjunto de datos en k clusters, cada uno con un centroide que representa el centro del cluster. Los puntos de datos se asignan al cluster más cercano en función de la distancia euclidiana.
- Clustering por mezcla de gaussianas: este tipo de clustering asume que los datos se distribuyen normalmente y busca ajustar una mezcla de gaussianas que mejor se ajuste a los datos. Los datos se asignan a clusters de acuerdo con las gaussianas a las que pertenecen.
- Clustering por partición (PAM): este tipo de clustering se divide en k particiones y, a continuación, asigna cada dato al cluster más cercano.En función del criterio de distancia que se utilice (por ejemplo, la distancia Manhattan, la distancia euclidiana), se pueden obtener diferentes resultados.
IMPORTANCIA
Se trata de una técnica de aprendizaje automático (machine learning) y, específicamente, de aprendizaje no supervisado (unsupervised learning). De este modo, posibilita el hallazgo de patrones y relaciones entre, generalmente, grandes volúmenes de datos sobre los que no existe ningún tipo de conocimiento previo. Ello permite alcanzar varias finalidades, destacando: la descripción de la realidad, por lo que contribuye a su análisis y comprensión; la clasificación de futuras muestras de datos, tratándose de una técnica de aprendizaje no supervisado (supervised learning) caracterizada por su objetivo predictivo; y el perfeccionamiento de los algoritmos al servir como entrenamiento.
USOS Y RIESGOS
Por una parte, la técnica se puede introducir en todos los ámbitos que guardan relación con el Estado de Derecho, los derechos y la democracia debido a que, fruto de su capacidad a la hora de contribuir a la descripción, el análisis y la comprensión de la realidad, favorece la adopción de decisiones. Partiendo de esta base, en el momento actual, su aplicación se encuentra más extendida en, al menos, dos ámbitos.Primero: la delincuencia, donde, por ejemplo, la identificación de tendencias delictuales o de áreas críticas incide en las estrategias de prevención del delito o en la eficacia y la eficiencia en la gestión de los recursos. Segundo: el comportamiento político y/o electoral, donde, por ejemplo, la segmentación de la ciudadanía orienta el diseño de las estrategias impulsadas por los actores políticos o la eficacia y la eficiencia en la gestión delos recursos de tales actores. Por otra parte, la técnica presenta una limitación, ya que la homogeneidad y la heterogeneidad alcanzadas no resultan absolutas, y una notable dependencia de aquellas decisiones que guían su diseño y aplicación, las cuales moldean la interpretación delos resultados y, como consecuencia, la adopción de decisiones. En este sentido, considérese la elección del algoritmo a manejar o la fijación del número de subconjuntos a crear.
BIBLIOGRAFÍA
- E. DIETRICH, Alghoritm, in R. A. Wilson, F.C. Keil, The MIT Encyclopedia of the Cognitive Sciences, Cambridge, 1999.
- M. I. JORDAN and S. RUSSELL, Computational Intelligence, in R. A. Wilson, F.C. Keil, The MIT Encyclopedia of the Cognitive Sciences, Cambridge,1999.
AUTORES
Óscar Moreno Corchete