Analyse d'association

Analyse d'association - fonction, algorithmes et application

Tim Filzinger

Depuis longtemps, les données sont devenues l'une des ressources les plus précieuses de notre époque. Toutefois, cette valeur n'apparaît que lorsque l'on reconnaît les relations souvent cachées et que l'on en tire les bonnes conclusions. Comme il s'agit d'une entreprise très complexe, un champ d'investigation interdisciplinaire de l'informatique et de la statistique s'est constitué à cet effet : Le Data Mining utilise une multitude de procédés assistés par ordinateur pour décrypter les secrets du trésor de données. L'analyse d'association, qui utilise des principes parfois étonnamment simples, est particulièrement efficace.

Qu'est-ce qu'une analyse d'association ?

L'analyse d'association est une méthode de data mining permettant d'identifier les relations entre les objets d'une base de données. Elle permet de déterminer, à l'aide de fréquences, si différentes combinaisons apparaissent pour une probabilité donnée. L'objectif final est d'établir des règles d'association, qui peuvent typiquement être exprimées par de simples phrases si-alors (X → Y). D'autres méthodes, telles que l'analyse des écarts, s'intéressent en revanche davantage aux propriétés numériques et aux valeurs cibles. 

L'analyse d'association peut être en grande partie automatisée grâce à différents algorithmes. Étant donné qu'il s'agit donc d'une analyse de données informatisée avec des décisions ou des prévisions qui en découlent, il s'agit de Apprentissage automatique au sens classique du terme. Cette technique trouve son origine dans l'analyse du panier d'achat, qui étudie les relations entre les décisions d'achat. C'est encore aujourd'hui le cas d'application le plus courant et il servira de plus en plus d'exemple ici. Toutefois, le principe a depuis été étendu à d'autres structures de données.

Principales notions de base

association analysis basics

Il convient tout d'abord de définir quelques notions de base et ratios. Leur combinaison mathématique et logique constitue finalement le processus proprement dit de l'analyse d'association.

Items : Ce sont les objets de la population entre lesquels l'analyse d'association examine les relations. S'il s'agit des articles d'un supermarché, cela concerne dans de nombreux cas plus de 10.000 unités. En revanche, chez les fournisseurs de commerce électronique comme Amazon, l'analyse du panier d'achat devient rapidement un projet Big Data avec quelques centaines de millions de produits.

Set d'articles : Il s'agit d'une combinaison d'items - généralement pour exprimer le fait qu'ils sont apparus ou ont été achetés ensemble à une certaine fréquence (p. ex. {lait, pain, beurre}). La fréquence de l'ensemble détermine si une règle d'association peut en être déduite.

Support : Ce qui est plus parlant que la fréquence absolue, c'est son rapport avec toutes les transactions, c'est-à-dire la fréquence relative. Pour décider de manière binaire si un item set est considéré comme fréquent, il est possible de définir un seuil correspondant du un soutien minimal être mis en place.

Confiance : Cet indicateur correspond à la fréquence relative d'apparition commune de différents ensembles d'items ou de leur présence dans une transaction. Pour calculer le degré de confiance, on divise, dans l'analyse d'association, la fréquence de l'ensemble (ou de son support) par la fréquence d'un seul item. On obtient ainsi des valeurs allant jusqu'à 1 au maximum - dans ce cas, il n'y aurait que des transactions communes.

Ascenseur : Les règles d'association n'ont pas toutes un contenu informatif élevé. Pour le représenter, on divise le degré de confiance d'une règle par une valeur de confiance attendue. Il en résulte une métrique qui indique si une connaissance basée sur des données est particulièrement pertinente. Un ascenseur de 1 signifie que la règle correspond à l'attente statistique. Plus le lift est élevé, plus la relation constatée est significative.

Déduire des règles d'association

Tous les ratios présentés servent en fin de compte à déduire des règles d'association pertinentes. Celles-ci ont la forme typique X → Y(Support, confiance) et indiquent ainsi la probabilité que l'article Y s'ajoute à l'article X. En termes linguistiques, cela peut être exprimé par des hypothèses du type "Si (prémisse)... alors (conséquence)". Pour atteindre cet objectif de l'analyse d'association, plusieurs étapes de travail sont nécessaires, sur la base d'un ensemble de données structuré composé d'ensembles d'items.

  1. Identifier l'ensemble d'items fréquents

    Chaque règle commence par un soupçon ou une hypothèse. Pour cela, on peut procéder à un simple comptage de la fréquence de divers ensembles d'items, qui peuvent également être constitués de parties de transactions/ensembles existants. Si, en plus d'une certaine fréquence, il y a un taux élevé de Support avant, le soupçon que X → Y se renforce. Un algorithme filtrerait de cette manière le plus grand nombre possible d'ensembles d'items remarquables.

  2. Examiner la règle

    Le site Confiance constitue maintenant la prochaine instance d'analyse et en dit plus sur la précision d'une règle. Ici, il est possible de procéder à un nouveau tri, de sorte qu'il ne reste que des corrélations avec un niveau de confiance d'une différence souhaitée faible par rapport à la valeur 1. Ce n'est pas parce qu'une règle est établie qu'elle est pertinente pour l'étude prévue.

  3. Évaluer et appliquer la règle

    Il ne reste plus que les règles d'association qui correspondent aux métriques définies auparavant. Souvent, on est cependant conscient de certaines associations dès le départ, de sorte qu'un gain de connaissances ne résulte que d'une intensité d'effet élevée et inattendue. C'est à cette évaluation que sert le Ascenseur, qui se contente de comparer le niveau de confiance avec l'attente. Si celle-ci est dépassée, les processus commerciaux, les stocks ou les chaînes d'approvisionnement peuvent être adaptés en conséquence.

Exemple

Les transactions effectuées dans un supermarché ont permis d'établir la liste suivante de paniers d'achat :

ID de la transactionItems
1Pain, lait
2Pain, œufs, bière
3Lait, œufs, coca
4Pain, lait, œufs, bière
5Pain, lait, œufs, coca

Un simple comptage des fréquences montre que l'ensemble d'items {pain, lait}, par exemple, apparaît assez fréquemment, à savoir dans trois transactions sur cinq. Le support minimal est Smin=50%.

Le support de {pain, lait} S = ⅗ = 60% > 50%. Il y a donc effectivement une fréquence intéressante pour l'étude. Nous partons donc de la règle pain → lait (60%, C%). Le degré de confiance C est encore inconnu.

Nous voulons changer cela et diviser le support de {Pain, lait} par le support de {Bread} : C = 60% / 80% = 75%. La règle d'association complète est donc Pain → lait (60%, 75%). Cela semble convaincant, car les trois quarts des achats de pain s'accompagnent également de lait.

Afin de prendre des mesures pour augmenter les ventes, les gérants du supermarché ne veulent prendre en compte que les règles les plus significatives. On a déjà vu plus d'une fois les articles pain et lait passer ensemble sur le tapis de caisse et on a supposé un degré de confiance de 60%. Il en résulte un Ascenseur L = 75% / 60% = 1,25 > 1. Il est temps de déplacer l'étagère à pain vers le lait.

Trois algorithmes courants

Les cas d'application réels sont bien sûr beaucoup plus complexes et ne peuvent guère être résolus par des calculs manuels de ce type. C'est pourquoi l'analyse d'association est généralement effectuée par des algorithmes appropriés. Il est ainsi possible d'analyser des quantités de données nettement plus importantes, sans parler des relations entre des ensembles d'éléments étendus.

Apriori

L'algorithme Apriori est l'un des premiers de ce type et est encore souvent utilisé aujourd'hui. Sa simplicité d'utilisation et de mise en œuvre y est pour beaucoup. Outre la base de données, les entrées nécessaires sont uniquement le support minimal et les niveau de confiance minimal. Conformément à la procédure décrite, le programme identifie dans les données tous les item sets fréquents et filtre les règles correspondant à l'input. La particularité ici est la prise en compte du principe dit "a priori". Selon ce principe, les item sets fréquents ne contiennent que des items fréquents. Si ce n'est pas le cas, un nettoyage est effectué par le biais de ce que l'on appelle le "nettoyage de l'arbre". PruningLa qualité de la sélection est ainsi optimisée.

FP-Croissance

En tant qu'évolution d'Apriori, FP-Growth est en mesure de faire face à la croissance rapide des volumes de données, tout en augmentant l'évolutivité et la vitesse. L'effet secondaire est toutefois une application plus compliquée. Pour structurer les item sets d'origine, on utilise ce que l'on appelle un Frequent Pattern Tree, dont les nœuds de connexion représentent chacun un item. Cette compression présente des avantages pour la saisie et le stockage des données, qui nécessiteraient d'innombrables balayages avec Apriori. Les ensembles d'items correspondants des transactions reçoivent chacun un préfixe commun avec la racine en tant que branches de l'arbre. Cela aide l'algorithme à filtrer finalement tous les Frequent Patterns.

ECLAT

Clustering de classes d'équivalence et traversée de lattice ascendante est un autre algorithme moderne qui n'a rien à envier à FP-Growth. Il analyse également un ensemble de données généré de manière autonome, au lieu d'analyser de manière répétée les données d'origine. Ce faisant, un vertical Cela signifie qu'à gauche, les articles seraient listés les uns en dessous des autres et qu'à droite, les transactions correspondantes seraient attribuées. Ces soi-disant Tidsets sont analysées par ECLAT pour former des paires d'items avec de nouveaux tidsets correspondants. Plus les transactions communes sont nombreuses, plus il est probable qu'il existe un lien entre les items.

Cas d'utilisation de l'analyse d'association

Domaines d'application

Le cas d'utilisation le plus fréquent de la méthode ne devrait pas surprendre à ce stade : Dans tout le commerce, les règles d'association sont utilisées pour l'analyse du panier d'achat, afin de faciliter les décisions d'achat et d'augmenter les chiffres d'affaires grâce aux ventes croisées. Mais c'est loin d'être la seule utilité du Data Mining basé sur des règles. Les domaines d'application suivants profitent particulièrement de l'analyse d'association :

Médecine

Souvent, on ne sait pas exactement, au départ, quelles caractéristiques peuvent être des facteurs de risque ou des indices d'une certaine maladie. Les règles d'association basées sur les données de santé peuvent faciliter le diagnostic et la prévention. En utilisant les algorithmes présentés en combinaison avec des Traitement du langage naturel des chercheuses indiennes ont pu montrer de manière exemplaire comment il est possible d'extraire de telles corrélations.

Conception UX

L'expérience utilisateur est un aspect central des sites web et autres produits numériques. L'objectif est de rendre l'utilisation et la navigation aussi agréables et simples que possible afin que les utilisateurs trouvent exactement ce qu'ils recherchent. Cela peut être facilité par une analyse d'association basée sur des données d'utilisation historiques, en adaptant par exemple les boutons et les liens. Après tout, à quoi sert une analyse du panier d'achat si le chemin vers la boutique en ligne est trop compliqué ?

Gestion des stocks

Dans les grands entrepôts, la position des articles joue un rôle décisif pour l'efficacité de l'entreprise. Il est préférable de traiter les commandes volumineuses le plus rapidement possible, de même que les marchandises demandées à haute fréquence et les séquences fréquentes. Apriori et d'autres algorithmes similaires peuvent contribuer de manière décisive à minimiser les distances nécessaires à cet effet.

Prise en charge intelligente du data mining avec Konfuzio

La diversité des applications possibles montre que presque toutes les entreprises d'une certaine taille peuvent tirer profit du data mining. Toutefois, des méthodes telles que l'analyse d'association requièrent d'abord une base de données d'un haut niveau de structuration et de qualité. La situation de départ est souvent différente : Les fichiers image et texte, les e-mails, les PDF, etc. caractérisent de nombreux processus. C'est pourquoi la Plate-forme d'IA Konfuzio aide les entreprises à franchir toutes les étapes nécessaires à l'obtention de connaissances efficaces.

  1. Extraire et structurer les données

Konfuzio sait gérer tous les formats mentionnés grâce à différentes approches techniques. Cela comprend Reconnaissance de texte, Traitement d'images, une Intégration de code bas pour l'extraction d'e-mails et bien plus encore. Les données contenues sont extraites de manière ciblée, nettoyées et préparées dans des fichiers structurés. Il en résulte une base précieuse pour l'exploration de données.

  1. Analyse et traitement des données

Ensuite, Konfuzio permet une analyse hautement automatisée des données obtenues en utilisant des concepts d'intelligence artificielle et de data mining. Diverses méthodes intégrées sont disponibles à cet effet. Modèles et algorithmes sont disponibles. De même, les informations extraites peuvent également être migrées vers des outils externes afin de réaliser des analyses (d'association) hautement personnalisées.

Conclusion

L'analyse d'association est un moyen simple d'établir des liens entre des objets, des items ou des articles. La fréquence d'apparition des différentes combinaisons est déterminante. Le procédé d'exploration de données est donc particulièrement adapté à l'étude des achats dans le cadre d'une analyse du panier d'achat. Les algorithmes fréquemment utilisés sont Apriori, FP-Growth et ECLAT, qui sont également utilisés pour divers autres cas d'application sur la base de données structurées. Cela crée des connaissances qui favorisent une préservation durable des ressources ou une augmentation du chiffre d'affaires.

Vous souhaitez en savoir plus sur le data mining, l'utilité de ces procédés pour les entreprises et comment Konfuzio peut vous accompagner dans cette démarche ? Envoyez-nous un message.

    À propos de moi

    Autres grands articles

    end to end titre

    Optimisation de bout en bout pour des processus commerciaux efficaces

    Les processus de bout en bout, qui englobent l'ensemble de la chaîne de création de valeur, s'avèrent être la pierre angulaire de la réussite dans une...

    Lire l'article
    Titre de l'usine de données

    Konfuzio, une alternative performante à Data Factory

    Dans le paysage actuel axé sur les données, les entreprises ont besoin d'outils puissants pour transformer et intégrer des données brutes non structurées en connaissances exploitables. Azure...

    Lire l'article
    L'homme tient la tablette Extraction de données

    Extraction de données de PDF à Excel

    Dans votre travail quotidien, vous devez régulièrement procéder à l'extraction de données de fichiers PDF vers Excel ? Selon le nombre de...

    Lire l'article
    Arrow-up