Análisis de asociación

Análisis de asociación: función, algoritmos y aplicación

Tim Filzinger

Hace tiempo que los datos se han convertido en uno de los recursos más valiosos de nuestro tiempo. Sin embargo, este valor sólo se materializa cuando se reconocen las correlaciones, a menudo ocultas, y se extraen las conclusiones adecuadas. Como se trata de una tarea muy compleja, ha surgido un campo de estudio interdisciplinar en informática y estadística: La minería de datos utiliza diversos métodos informáticos para desentrañar los secretos del tesoro de los datos. El llamado análisis de asociación, que utiliza unos principios asombrosamente sencillos, tiene especial éxito.

¿Qué es un análisis de asociación?

El análisis de asociación es un método de minería de datos para identificar correlaciones entre objetos de una base de datos. Basándose en las frecuencias, puede utilizarse para determinar si diferentes combinaciones se producen con una cierta probabilidad. El objetivo final es establecer reglas de asociación, que suelen expresarse mediante frases simples del tipo si-entonces (X → Y). Otros métodos, como el análisis de varianza, se centran más en las propiedades numéricas y los valores objetivo. 

El análisis de asociación puede automatizarse en gran medida mediante diversos algoritmos. Dado que se trata de un análisis de datos controlado por ordenador y de las decisiones o previsiones derivadas del mismo, se trata de Aprendizaje automático en el sentido clásico. La técnica tiene su origen en el análisis de la cesta de la compra, que analiza las relaciones entre las decisiones de compra. Éste sigue siendo el caso de uso más común hoy en día y servirá cada vez más como ejemplo en este documento. Sin embargo, el principio se ha extendido desde entonces a otras estructuras de datos.

Términos básicos importantes

fundamentos del análisis de asociación

El primer paso consiste en definir algunos términos básicos y ratios. Su vinculación matemática y lógica constituye, en última instancia, el proceso real del análisis de asociaciones.

Artículos: Son los objetos de la población entre los que el análisis de asociación analiza las relaciones. Cuando se trata de artículos de un supermercado, a menudo se trata de más de 10.000 unidades. Sin embargo, para proveedores de comercio electrónico como Amazon, analizar cestas de la compra con varios cientos de millones de productos se convierte rápidamente en un proyecto de big data.

Juego de artículos: Se refiere a una combinación de artículos, normalmente para expresar que han aparecido o se han comprado juntos con cierta frecuencia (por ejemplo, {leche, pan, mantequilla}). La frecuencia del conjunto también determina si puede derivarse de él una regla de asociación.

Apoyo: Más significativa que la frecuencia absoluta es su proporción con respecto a todas las transacciones, es decir, la frecuencia relativa. Para la decisión binaria de si un conjunto de artículos se considera frecuente, se establece un valor umbral correspondiente de la apoyo mínimo ser fijado.

Confianza: Este ratio corresponde a la frecuencia relativa con la que diferentes conjuntos de artículos aparecen juntos o se encuentran en una transacción. Para calcular la confianza, la frecuencia del conjunto (o su apoyo) se divide por la frecuencia de un elemento individual en el análisis de asociación. Esto da como resultado valores hasta un máximo de 1 - en este caso sólo habría transacciones comunes.

Ascensor: No todas las reglas de asociación tienen un alto contenido informativo. Para mapearlo, la confianza de una regla se divide por un valor de confianza esperado. El resultado es una métrica que indica si un hallazgo basado en datos es de especial relevancia. Una elevación de 1 significa que la regla se corresponde con la expectativa estadística. Cuanto mayor sea la elevación, más significativa será la correlación establecida.

Derivar reglas de asociación

Todos los ratios mostrados se utilizan en última instancia para derivar reglas de asociación significativas. Éstas tienen la forma típica X → Y(Apoyo, confianza) y, por tanto, indican la probabilidad de que el elemento Y se añada al elemento X. Lingüísticamente, esto puede expresarse en hipótesis como "Si (premisa)... entonces (consecuencia)". Para alcanzar este objetivo del análisis de asociación, son necesarios varios pasos, que se basan en un conjunto de datos estructurado de conjuntos de ítems.

  1. Identificar el conjunto de elementos frecuentes

    Cada regla comienza con una sospecha o hipótesis. Para ello puede utilizarse un simple recuento de frecuencias de varios conjuntos de artículos, que también pueden formarse a partir de partes de transacciones/conjuntos existentes. Si, además de una determinada frecuencia, existe también una elevada Ayuda antes de, confirma la sospecha de que X → Y. De este modo, un algoritmo filtraría el mayor número posible de conjuntos de elementos llamativos.

  2. Examinar la norma

    En Confianza forma ahora la siguiente instancia de análisis y revela más sobre la precisión de una regla. Aquí se puede ordenar de nuevo para que sólo queden correlaciones con un nivel de confianza de una diferencia deseada baja respecto al valor 1. El hecho de que una regla esté establecida no significa que sea relevante para la investigación prevista.

  3. Evaluar y aplicar la norma

    Sólo quedan las reglas de asociación que corresponden a las métricas definidas previamente. A menudo, sin embargo, uno es consciente de algunas correlaciones desde el principio, de modo que sólo una fuerza de efecto inesperadamente alta da lugar a una ganancia de conocimiento. Para esta evaluación, el Ascensor, que se limita a comparar el nivel de confianza con la expectativa. Si se supera, los procesos empresariales, inventarios o cadenas de suministro pueden ajustarse en consecuencia.

Ejemplo

La siguiente lista de cestas de la compra es el resultado de transacciones en un supermercado:

ID de transacciónArtículos
1Pan, leche
2Pan, huevos, cerveza
3Leche, huevos, cola
4Pan, leche, huevos, cerveza
5Pan, leche, huevos, cola

Incluso un simple recuento de frecuencias muestra que el conjunto de artículos {pan, leche}, por ejemplo, aparece con bastante frecuencia, concretamente en tres de cada cinco transacciones. El soporte mínimo es Smin=50%.

El soporte de {pan, leche} S = ⅗ = 60% > 50%. Por tanto, existe realmente una frecuencia interesante para la investigación. Por tanto, asumimos la regla pan → leche (60%, C%). La confianza C sigue siendo desconocida.

Queremos cambiar esto y dividir el soporte de {pan, leche} por el soporte de {pan}: C = 60% / 80% = 75%. La regla de asociación completa es Pan → Leche (60%, 75%). Esto parece convincente, ya que tres cuartas partes de las compras de pan van acompañadas también de leche.

A la hora de tomar medidas para aumentar las ventas, los operadores de supermercados sólo quieren tener en cuenta las normas más significativas. Se ha observado con frecuencia que los artículos pan y leche se desplazan juntos por la cinta transportadora de la caja, por lo que se asumió un nivel de confianza de 60%. El resultado es un Ascensor L = 75% / 60% = 1,25 > 1. tiempo para mover el estante del pan en dirección a la leche.

Tres algoritmos habituales

Por supuesto, las aplicaciones de la vida real son mucho más complejas y difícilmente pueden resolverse con este tipo de cálculos manuales. Por ello, los análisis de asociación suelen realizarse mediante los algoritmos correspondientes. Esto permite analizar volúmenes de datos significativamente mayores, por no hablar de las correlaciones entre amplios conjuntos de ítems.

Apriori

El algoritmo Apriori es uno de los primeros de su clase y aún hoy se utiliza con frecuencia. Esto se debe, en particular, a su sencillez de manejo y aplicación. Además de la base de datos, las únicas entradas necesarias son el apoyo mínimo y el confianza mínima. De acuerdo con el procedimiento descrito, el programa identifica todos los conjuntos de elementos frecuentes en los datos y filtra las reglas que coinciden con la entrada. Una característica especial es la consideración del denominado principio a priori. Éste establece que los conjuntos de elementos frecuentes sólo contienen elementos frecuentes. Si no es así, el programa depura los datos mediante los llamados Podaque optimiza la calidad de la selección.

FP-Crecimiento

Como evolución de Apriori, FP-Growth es capaz de hacer frente a volúmenes de datos en rápido crecimiento y aumenta la escalabilidad y la velocidad. Un efecto secundario, sin embargo, es una aplicación más complicada. Los conjuntos de elementos originales se estructuran mediante una Frequent Pattern Tree, cuyos nodos de conexión representan cada uno un artículo. Esta compresión ofrece ventajas en la recogida y almacenamiento de datos, que requerirían innumerables ejecuciones de escaneo con Apriori. Los conjuntos de artículos coincidentes de las transacciones reciben cada uno un prefijo común con la raíz como ramas del árbol. Esto ayuda al algoritmo a filtrar en última instancia todos los patrones frecuentes.

ECLAT

Agrupación de clases de equivalencia y recorrido reticular ascendente es otro algoritmo moderno que no tiene nada que envidiar a FP-Growth. También analiza un conjunto de datos generado de forma independiente en lugar de analizar repetidamente los datos originales. Se trata de un vertical es decir, los artículos se enumerarían en una tabla a la izquierda y las transacciones respectivas se asignarían a la derecha. Los llamados Tidsets son analizados por ECLAT para formar pares de artículos con nuevos conjuntos de datos coincidentes. Cuantas más transacciones comunes comprendan, más probable es que exista una conexión entre los artículos.

Casos prácticos de análisis de asociación

Ámbitos de aplicación

El caso de uso más común del método no es sorprendente a estas alturas: Las reglas de asociación se utilizan en todo el sector minorista para analizar las cestas de la compra con el fin de facilitar las decisiones de compra y aumentar las ventas mediante la venta cruzada. Sin embargo, ésta no es ni mucho menos la única ventaja de la minería de datos basada en reglas. Los siguientes ámbitos de aplicación se benefician especialmente del análisis de asociación:

Medicina

A menudo no se sabe inicialmente con exactitud qué características pueden ser factores de riesgo o indicadores de una enfermedad concreta. Con la ayuda de reglas de asociación basadas en datos sanitarios, se puede facilitar el diagnóstico y la prevención. Utilizando los algoritmos descritos anteriormente junto con Procesamiento del lenguaje natural Los investigadores indios lograron demostrar cómo se pueden extraer esas conexiones.

Diseño UX

La experiencia del usuario es un aspecto clave de los sitios web y otros productos digitales. El objetivo es que la aplicación y la navegación sean lo más agradables y sencillas posible para que los usuarios encuentren exactamente lo que buscan. Esto puede facilitarse analizando asociaciones basadas en datos históricos de uso, por ejemplo adaptando botones y enlaces. Después de todo, ¿de qué sirve un análisis de la cesta de la compra si el camino hasta la tienda online es demasiado complicado?

Gestión de almacenes

En los grandes almacenes, la posición de los artículos desempeña un papel decisivo en la eficiencia de la empresa. Lo ideal es que los grandes pedidos se tramiten lo más rápidamente posible, y lo mismo ocurre con las mercancías solicitadas con frecuencia y las secuencias frecuentes. Apriori y algoritmos similares pueden contribuir significativamente a minimizar las distancias necesarias para ello.

Apoyo inteligente a la extracción de datos con Konfuzio

La versatilidad de las aplicaciones posibles deja claro que casi todas las empresas de cierto tamaño pueden beneficiarse de la minería de datos. Sin embargo, métodos como los análisis de asociación requieren en primer lugar una base de datos muy estructurada y de alta calidad. El punto de partida suele ser diferente: Archivos de imagen y texto, correos electrónicos, PDF, etc. caracterizan muchos procesos. Por eso, la Plataforma de IA Konfuzio apoya a las empresas en todos los pasos necesarios hasta que se adquieren conocimientos efectivos.

  1. Extraer y estructurar datos

Konfuzio sabe cómo tratar todos estos formatos utilizando diferentes enfoques técnicos. Por ejemplo Reconocimiento de textos, Tratamiento de imágenesa Integración de bajo código para la extracción de correo electrónico y mucho más. Los datos contenidos se extraen con precisión, se limpian y se preparan en archivos estructurados. Esto crea una valiosa base para la minería de datos.

  1. Análisis y tratamiento de datos

Posteriormente, Konfuzio permite analizar los datos obtenidos de forma altamente automatizada utilizando conceptos de inteligencia artificial y minería de datos. Varias funciones integradas Modelos y algoritmos. La información extraída también puede migrarse a herramientas externas para realizar análisis (de asociación) altamente individualizados.

Conclusión

Con la ayuda de un análisis de asociación, se pueden determinar de forma sencilla las relaciones entre objetos, elementos o artículos. El factor clave aquí es la frecuencia con la que se producen diferentes combinaciones. Por ello, el proceso de minería de datos es especialmente adecuado para analizar las compras en el marco de un análisis de la cesta de la compra. Los algoritmos más utilizados son Apriori, FP-Growth y ECLAT, que también se emplean para otras aplicaciones basadas en datos estructurados. De este modo se obtienen conocimientos que favorecen una conservación sostenible de los recursos o un aumento de las ventas.

¿Quiere saber más sobre la minería de datos, los beneficios de estos procesos para las empresas y cómo Konfuzio puede acompañarle en este viaje? Escríbanos un mensaje.

    Sobre mí

    Más artículos interesantes

    Cuentas por cobrar: procesamiento más eficaz mediante IA

    Comprobar la solvencia, controlar los cobros y redactar recordatorios: El esfuerzo que supone para las empresas garantizar su propia liquidez mediante la contabilidad de las cuentas por cobrar es elevado...

    Leer el artículo

    Estimación adaptativa del momento: entender a Adam y utilizarlo correctamente

    Para entrenar redes neuronales y lograr así mejores resultados en ámbitos de aplicación como el procesamiento del lenguaje natural y el aprendizaje por refuerzo,...

    Leer el artículo

    Digitalización en el sector de la construcción: 9 tendencias importantes y sus ventajas

    En el sector alemán de la construcción faltan actualmente unos 300.000 trabajadores cualificados. Así lo estima IG Bau. Al mismo tiempo, también prevé que la...

    Leer el artículo
    Flecha arriba