Mining de données - Gestion des connaissances

Concepts de base

Les systèmes OLAP fournissent des outils d'analyse pour tester des hypothèses lors de l'analyse des données, c'est-à-dire que la tâche principale de l'analyste est la génération des hypothèses, qu'il la résout, sur la base de ses connaissances et de ses expériences. Cependant, la connaissance n'est pas seulement chez l'homme, mais également dans des données accumulées en cours d'analyse. Une telle connaissance est contenue dans une énorme quantité d'informations qu'une personne ne peut pas explorer de manière indépendante. À cet égard, il est possible de sauter des hypothèses pouvant apporter des avantages significatifs.

Pour la détection de connaissances "cachées", des méthodes spéciales d'analyse automatique sont utilisées, avec lesquelles ils doivent pratiquement extraire des connaissances de la "Dawn" d'informations. Pour cela, le terme "Datamining)" ou "analyse de données intelligente" a été mentionné.

Il y a beaucoup de définitions Datage qui se complètent. Voici certains d'entre eux.

Datamining est un modèle non trivial et pratiquement utile dans les bases de données. (Groupe de base)

Datamining est le processus de sélection, de recherche et de modélisation de grandes quantités de données permettant de détecter des inconnues de ces structures (patters) afin de tirer parti des entreprises (SAS Institute)

Datamining est un processus dont l'objectif est de détecter de nouvelles corrélations significatives, des tendances des échantillons résultant de la tamisage d'une grande quantité de données stockées avec l'utilisation de la méthode de reconnaissance de modèle plus l'utilisation de méthodes statistiques et mathématiques (GartnerGroup)

Datamining est une étude et une «machine» (algorithmes, intelligence artificielle) dans les données de connaissances cachées brutes ils n'étaient pas connus auparavant, non professionnels, presque utiles, disponibles pour interpréter par l'homme. (A. Bargues "Technologies d'analyse des données")

Datamining est un processus de détection de connaissances utiles sur les affaires. (N.M. Abdikeev "KBA")

Propriétés des connaissances détectables

Considérez les propriétés des connaissances détectables.

  • La connaissance doit être nouvelle, auparavant inconnue. Les efforts estimés pour ouvrir les connaissances déjà connues de l'utilisateur ne sont pas remboursés. Par conséquent, une nouvelle connaissance inconnue est précieuse.
  • La connaissance doit être non triviale. Les résultats de l'analyse doivent refléter non évident, inattendu Schémas dans les données constituant les connaissances soignées cachées. Les résultats qui pourraient être obtenus des moyens plus facilement (par exemple, visualisation visuelle), ne justifient pas l'attraction de méthodes de datage puissantes.
  • Les connaissances doivent être pratiquement utiles. Les connaissances trouvées doivent être applicables, y compris sur de nouvelles données, avec un degré de fiabilité assez élevé. L'utilité est que ces connaissances peuvent apporter un certain avantage lorsqu'elles sont appliquées.
  • Les connaissances doivent être disponibles pour comprendre la personne. Les modèles trouvés doivent être expliqués logiquement, sinon il est possible qu'ils soient aléatoires. En outre, les connaissances découvertes devraient être présentées dans une personne compréhensible.

En train de présenter les connaissances acquises, le modèle sert. Les types de modèles dépendent des méthodes de leur création. Les règles les plus courantes sont les suivantes: règles, arbres de solutions, grappes et fonctions mathématiques.

Tâches de données

Rappelez-vous que la technologie de la technologie de données est basée sur le concept de modèles de modèles. À la suite de la détection de ceux-ci, les motifs cachés de l'œil nu, les tâches de données sont résolues. Différents types de motifs pouvant être exprimés sous la forme d'une personne claire correspondent à certaines tâches de données.

Il n'y a pas d'avis unique sur quelles tâches doivent être attribuées à la source de données. Les sources les plus réputées énumèrent les éléments suivants: Classification,

Clusterisation, prévision, association, visualisation, analyse et détection

Déviations, estimation, analyse des connexions, résumant.

Le but de la description, qui suit, est de donner une idée générale des tâches de données, de comparer certains d'entre elles et de soumettre également des méthodes avec lesquelles ces tâches sont résolues. Les tâches de données les plus courantes sont la classification, la clustering, l'association, la prévision et la visualisation. Ainsi, les tâches sont divisées en types d'informations générées, c'est la classification la plus courante des tâches de données.

Classification (classification)

La tâche de diviser une variété d'objets ou d'observations sur des groupes spécifiés à priori, appelés classes, à l'intérieur de chacun d'entre eux, ils sont supposés semblables les uns aux autres avec approximativement les mêmes propriétés et signes. Dans ce cas, la solution est basée sur Une analyse Valeurs d'attribut (signes).

La classification est l'une des tâches les plus importantes. Datage . Il est utilisé dans Commercialisation Lors de l'évaluation de la solvabilité des emprunteurs, déterminer fidélité clients Reconnaissance des images , diagnostic médical et de nombreuses autres applications. Si l'analyste connaît les propriétés des objets de chaque classe, alors lorsqu'une nouvelle observation fait référence à une classe spécifique, ces propriétés s'appliquent automatiquement à elle.

Si le nombre de classes est limité à deux, alors a lieu Classification binaire Auquel de nombreuses tâches plus complexes peuvent être réduites. Par exemple, au lieu de déterminer de tels degrés de risque de crédit, comme «élevé», «moyen» ou «faible», vous ne pouvez utiliser que deux - "problème" ou "refuser".

Pour la classification dans la source de données, de nombreux modèles différents sont utilisés: les réseaux de neurones , Solutions d'arbres , vecteurs de machines, méthode de k-voisins les plus proches, algorithmes de revêtement, etc., lors de la formation d'une formation avec un enseignant, quand Variable de sortie (Étiquette de classe ) défini pour chaque observation. Officiellement, la classification est faite sur la base de la partition Panneaux d'espace sur la zone, dans chacun d'eux Vecteurs multidimensionnels Considéré comme identique. En d'autres termes, si l'objet est tombé dans la zone d'espace associé à une classe spécifique, il se réfère à celui-ci.

Clustering (regroupement)

Brève description. La clustering est une continuation logique de l'idée

Classification. Cette tâche est plus compliquée, la caractéristique du regroupement est que les classes d'objets n'étaient pas initialement prédéterminées. Le résultat du regroupement est la partition d'objets en groupes.

Exemple de la méthode de résolution du problème de clustering: apprendre "sans enseignant" d'un type spécial de réseaux de neurones - Cartes de Kohonen auto-organisant.

Association (associations)

Brève description. Lors de la solution de la recherche de règles associatives, des régularités entre événements connexes dans l'ensemble de données se trouvent.

La différence entre l'association des deux tâches précédentes Datamining: la recherche de régularités est effectuée non basée sur les propriétés de l'objet analysées, mais entre plusieurs événements qui se produisent simultanément. L'algorithme le plus célèbre de résolution de la tâche de rechercher des règles associatives - Apriori Algorithm.

Séquence ou association séquentielle (séquentialisociation)

Brève description. La séquence vous permet de trouver des modèles temporaires entre les transactions. La séquence est similaire à celle de l'association, mais son objectif est d'établir des schémas qui n'étaient pas entre des événements à venir simultanément, mais entre des événements liés à temps (c'est-à-dire en se déroulant avec un intervalle de temps spécifique). En d'autres termes, la séquence est déterminée par la probabilité élevée des événements liés à la chaîne. En fait, l'association est un cas particulier d'une séquence avec un décalage temporaire égal à zéro. Cette saisie de données s'appelle également la tâche de trouver des modèles consécutifs (séquentialpattern).

Règle de séquence: Après l'événement X après un certain temps, vous aurez lieu.

Exemple. Après avoir acheté un appartement, les locataires de 60% des cas pendant deux semaines acquièrent un réfrigérateur et une télévision par deux mois est achetée dans 50% des cas. La solution à cette tâche est largement utilisée dans le marketing et la gestion, par exemple lors de la gestion de la clientèleLIFECLEMANAGEMENT (CLIENTLIFECLEMANAGAGEMENT).

 

Régression, prévision (prévision)

Brève description. À la suite de la solution du problème de prévision sur la base des caractéristiques des données historiques, les valeurs manquées ou futures d'indicateurs numériques cibles sont estimées.

Pour résoudre ces tâches, des méthodes de statistiques mathématiques, de réseaux de neurones, etc. sont largement utilisés.

Des tâches supplémentaires

Définition Déviationdection (Déviationdection) , analyse des écarts ou des émissions

Brève description. Le but de résoudre cette tâche est de détecter et d'analyser les données les plus différentes de l'ensemble total des données, identifiant les schémas thoracteristiques.

Estimation (estimation)

La tâche d'estimation est réduite à prédire des signes continus.

Analyse de la relation (linkalalyse)

La tâche de trouver des dépendances dans le jeu de données.

Visualisation (visualisation, graphique)

À la suite de la visualisation, une image graphique des données analysées est créée. Pour résoudre la tâche de visualisation, des méthodes graphiques sont utilisées, montrant la présence de motifs dans les données.

Un exemple de méthodes de visualisation est la présentation des données dans les dimensions 2-D et 3D.

Résumé (résumation)

La tâche dont l'objet est une description de groupes spécifiques d'objets à partir du jeu de données analysé.

A proximité de la classification ci-dessus est l'unité de tâche de données ci-dessus aux éléments suivants: Recherche et découvertes, prévisions et classification, explications et descriptions.

Recherche et découverte automatique (recherche gratuite)

Exemple de tâche: détection de nouveaux segments de marché.

Pour résoudre cette tâche de classe, des méthodes d'analyse de grappes sont utilisées.

Prévision et classification

Exemple de problème: prévision de la croissance des ventes en fonction des valeurs actuelles.

Méthodes: régression, réseaux de neurones, algorithmes génétiques, arbres de solutions.

Les tâches de classification et de prévision constituent un groupe de modélisation dite inductive, à la suite de laquelle l'objet ou le système analysé est étudié. En train de résoudre ces tâches sur la base d'un ensemble de données, un modèle général ou une hypothèse est en cours de développement.

Explication et description

Exemple de problème: caractéristiques des clients sur les données démographiques et les histoires de shopping.

Méthodes: arbres de décision, système de règles, règles d'association, analyse de connexion.

Si le revenu du client est plus de 50 unités conditionnelles et que son âge est supérieur à 30 ans, la classe client est la première.

Comparaison de la clustering et de la classification

Caractéristique

Classification

Clustering

Contrôle en apprenant

Contrôlé

Incontrôlable

Stratégie

Formation avec enseignant

Formation sans enseignant

Disponibilité du label de classe

Ensemble éducatif

accompagné d'une étiquette indiquant

classe à laquelle appartient

Observation

Tags de classe d'étude

Se couche inconnue

Base pour la classification

Les nouvelles données sont classées sur la base d'un ensemble d'apprentissage.

Donné beaucoup de données aux fins de

Établir l'existence

Classes ou clusters de données

Portée de l'application DataMining

Il convient de noter qu'aujourd'hui la technologie de données a reçu la plus grande répartition dans la résolution des tâches commerciales. La raison est peut-être que c'est dans cette direction que le retour de l'utilisation des outils de données peut être, selon certaines sources, jusqu'à 1 000% et que les coûts de sa mise en œuvre peuvent être rentables rapidement.

Nous examinerons les quatre principales applications de la technologie de données en détail: la science, les entreprises, la recherche pour le gouvernement et la direction du Web.

Datamine d'application à résoudre Tâches d'affaires . Principales destinations: bancaire, finance, assurance, CRM, production, télécommunications, communication électronique, marketing, marché boursier et autres.

  • Le crédit de crédit sera-t-il

  • Segmentation du marché

  • Attraction de nouveaux clients

  • Fraudeurs de cartes de crédit

Dataminage de l'application pour Solutions aux objectifs du niveau d'état . Basicing: rechercher des personnes qui échappent aux taxes; Fonds dans la lutte contre le terrorisme.

Dataminage de l'application pour Recherche scientifique . Directions principales: médecine, biologie, génétique moléculaire et génie génétique, bioinformatique, astronomie, chimie appliquée, recherche sur la toxicomanie et autres.

Datamine d'application à résoudre Tâches Web . Principales destinations: Sacs à la recherche de sacs (fouilleurs), compteurs et autres.

Commerce électronique

Dans le domaine de la création de données de commerce électronique s'applique à la formation

Systèmes et solutions de recommandation aux tâches de la classification des visiteurs des sites Web.

Une telle classification permet aux entreprises d'identifier certains groupes de clients et de mener des politiques de marketing conformément aux intérêts et aux besoins des clients. La technologie de données pour le commerce électronique est étroitement liée à la technologie WebMining.

Les principales tâches de la création de données industrielles:

· Analyse complexe du système des situations de production;

· Prévisions à court terme et à long terme pour le développement de situations de production;

· Développement d'options pour des solutions d'optimisation;

· Prévision de la qualité du produit en fonction de certains paramètres

processus technologique;

· Détection de tendances cachées et de modèles de production

processus;

· Prévision des schémas de processus de production;

· Détection d'effets cachés de l'influence;

· Détection et identification des interconnexions précédemment inconnues entre

paramètres de production et facteurs d'influence;

· Analyse de l'environnement d'interaction des processus de production et des prévisions

changements apportés à ses caractéristiques;

· Développement des recommandations d'optimisation pour la gestion industrielle

processus;

· Visualisation des résultats d'analyse, préparant des rapports préliminaires et des projets

Solutions admissibles avec évaluations de validation et efficacité des implémentations possibles.

Commercialisation

Dans le domaine de la création de données marketing, trouve une utilisation très généralisée.

Les principaux problèmes de marketing "Qu'est-ce qui est vendu?", "Comment vendre?", "Qui est

consommateur? "

Dans les conférences sur les tâches de classification et de clustering, il décrit en détail l'utilisation de l'analyse de grappes pour résoudre des problèmes de marketing, tels que la segmentation des consommateurs.

Un autre ensemble commun de méthodes de résolution de problèmes de marketing - méthodes et algorithmes de recherche de règles associatives.

Aussi avec succès ici est la recherche de modèles temporaires.

Vendre au détail

Dans le domaine du commerce de détail, comme dans le marketing, postuler:

· Algorithmes pour trouver des règles associatives (pour déterminer des ensembles fréquemment rencontrés

biens que les acheteurs achètent en même temps). Identifier de telles règles aide

Placez des marchandises sur les étagères des salles de négociation, produisent des stratégies pour l'achat de biens

et leur placement dans les entrepôts, etc.

· Utilisez des séquences de temps, par exemple pour déterminer

Les volumes requis des stocks de marchandises en stock.

· Méthodes de classification et de clustering pour définir des groupes ou des catégories de clients,

La connaissance qui contribue à la promotion réussie des marchandises.

Marché boursier

Voici la liste des défis du marché boursier, qui peut être résolu à l'aide de la technologie de données

Exploitation minière: · Prévision Valeurs futures des instruments financiers et des indicateurs

valeurs passées;

· Prévisions tendancières (direction du mouvement futur - croissance, chute, flate)

outil et sa force (forte, modérément forte, etc.);

· Sélection de la structure de grappes du marché, de l'industrie, des secteurs de certains établissements

les caractéristiques;

· Gestion de portefeuille dynamique;

· Prévision de volatilité;

· L'évaluation des risques;

· Prévision de la survenue de la crise et de ses prévisions de son développement;

· Sélection d'actifs, etc.

Outre les activités décrites ci-dessus, la technologie de données peut être appliquée dans une grande variété de domaines d'activité dans lesquels une analyse de données est nécessaire et accumulait une certaine quantité d'informations rétrospectives.

Dataminage de l'application en CRM

L'une des directions les plus prometteuses pour l'application de données est l'utilisation de cette technologie dans le CRM analytique.

CRM (CustomERRelationShipManagement) - Gestion de la relation client.

Lors de l'utilisation de ces technologies, l'exploitation minière des connaissances est associée à "mines d'argent" des données client.

Un aspect important dans le travail des départements de marketing et de vente est de compiler Présentation holistique des clients, informations sur leurs caractéristiques, caractéristiques, structure de la clientèle. CRM utilise le profilé dit Les clients, qui donnent une présentation complète de toutes les informations nécessaires sur les clients.

Le profilage des clients comprend les composants suivants: segmentation des clients, rentabilité des clients, rétention client, analyse de la réaction du client. Chacun de ces composants peut être exploré à l'aide de la création de données et de leur analyse dans un ensemble, car les composants du profilage peuvent donc donner à ces connaissances qui ne peuvent pas être obtenues à partir de chaque caractéristique individuelle.

Webminer.

Le WebMining peut être traduit par «Mining de données dans Web». WebIntelligence ou Web.

L'intellect est prêt à «ouvrir un nouveau chapitre» dans le développement rapide de l'e-business. La capacité de déterminer les intérêts et les préférences de chaque visiteur, en regardant son comportement, est un avantage sérieux et critique de la lutte concurrentielle sur le marché du commerce électronique.

Les systèmes WebMining Systems peuvent répondre à de nombreuses questions, par exemple, qui des visiteurs est un client potentiel Web-magasin, quel groupe de clients Web-Store apporte le plus grand revenu, quels sont les intérêts d'un certain visiteur ou groupe de visiteurs.

Méthodes

Classification des méthodes

Distinguer deux groupes Méthodes :

  • statistique Méthodes basé sur l'utilisation d'une expérience accumulée en moyenne, qui est reflétée dans des données rétrospectives;
  • Cybernétique Méthodes comprenant de nombreuses approches mathématiques hétérogènes.

Manque de cette classification: et statistique et cybernétique Algorithmes Ceux qui s'appuient autrement sur la comparaison de l'expérience statistique avec les résultats de la surveillance de la situation actuelle.

L'avantage de cette classification est sa commodité pour interprétation - il est utilisé pour décrire des moyens mathématiques d'une approche moderne de l'extraction des connaissances des tableaux des observations initiales (opérationnelles et rétrospectives), c'est-à-dire. Dans les tâches d'extraction de données.

Considérez plus en détail les groupes ci-dessus.

Méthodes statistiques Données minières

Dans ces Méthodes représentent quatre sections interdépendantes:

  • Analyse préliminaire de la nature des données statistiques (inspection de l'hypothèse de la stationnarité, de la normalité, de l'indépendance, de l'uniformité, de l'évaluation du type de fonction de distribution, de ses paramètres, etc.);
  • Détection des connexions I. Lois (analyse de régression linéaire et non linéaire, analyse de corrélation, etc.);
  • Analyse statistique multidimensionnelle (analyse discriminante linéaire et non linéaire, analyse de grappes, analyse des composants, analyse factorielle, etc.);
  • Modèles dynamiques et pronostics basés sur des séries chronologiques.

Arsenal statistique Méthodes L'exploitation minière de données est classée pour quatre groupes. Méthodes :

  1. Analyse descriptive et description des données source.
  2. Analyse de la connexion (analyse de corrélation et de régression, analyse factorielle, analyse de la dispersion).
  3. Analyse statistique multidimensionnelle (analyse des composants, analyse discriminante, analyse de régression multidimensionnelle, corrélations canoniques, etc.).
  4. Analyse de la série temporaire (modèles dynamiques et prévisions).

Méthodes de cybernétique Données minières

La deuxième direction de l'exploitation minière de données est de nombreuses approches, l'idée de mathématiques informatiques et de la théorie de l'intelligence artificielle.

Ce groupe comprend de tels Méthodes :

  • réseaux de neurones artificiels (reconnaissance, clustering, prévisions);
  • Programmation évolutive (incl. Algorithmes méthode d'arguments de comptabilité de groupe);
  • Génétique Algorithmes (optimisation);
  • Mémoire associative (recherche d'analogues, de prototypes);
  • logique floue;
  • Arbres de solutions;
  • Systèmes de traitement des connaissances expertes.

Ensuite, considérons certaines des méthodes présentées.

L'analyse par grappes

Le clustering est de rechercher des structures existantes.

La clustering est une procédure descriptive, elle ne fait aucune conclusion statistique, mais permet d'effectuer une analyse d'exploration et d'explorer la "structure de données".

Le concept de "cluster" est déterminé de manière ambiguë: dans chaque étude, ses "clusters". Le concept de cluster (cluster) est traduit par «cluster», «bouquet». Le cluster peut être décrit comme un groupe d'objets ayant des propriétés générales.

Les caractéristiques du cluster peuvent être appelées deux caractéristiques:

  • homogénéité interne;
  • Isolement extérieur.

La question définie par les analystes dans la résolution de nombreuses tâches est de savoir comment organiser des données dans des structures visuelles, c'est-à-dire Élargir la taxonomie.

Le plus grand regroupement d'applications reçue initialement en sciences telles que la biologie, l'anthropologie, la psychologie. Pour résoudre les problèmes économiques, le regroupement était petit pendant longtemps en raison des spécificités des données et des phénomènes économiques.

Les grappes peuvent être non rigides ou exclusives (non superposées, exclusives) et intersectives (chevauchement) [22].

Il convient de noter que, à la suite de l'utilisation de diverses méthodes d'analyse de grappes, des grappes de différentes formes peuvent être obtenues. Par exemple, des grappes du type "chaîne" sont possibles lorsque les grappes sont représentées par de longues "chaînes", les grappes de la forme allongée, etc., et certaines méthodes peuvent créer des grappes arbitraires.

Diverses méthodes peuvent s'efforcer de créer des grappes de certaines tailles (par exemple, petites ou grandes) ou assumer la présence de grappes de différentes tailles dans un ensemble de données. Certaines méthodes d'analyse des grappes sont particulièrement sensibles au bruit ou aux émissions, d'autres moins. À la suite de l'utilisation de diverses méthodes de clustering, des résultats inégaux peuvent être obtenus, c'est normal et constitue une caractéristique du travail d'un algorithme particulier. Ces caractéristiques doivent être prises en compte lors du choix d'une méthode de clustering.

Nous présentons une brève description des approches du regroupement.

Algorithmes à base de partitionnementalgorithmes, incl. Itératif:

  • séparation des objets sur k grappes;
  • Redistribution itérative des objets pour améliorer la clustering.
  • Algorithmes hiérarchiques (hiérarchyalgorithmes):
  • Agglomération: chaque objet est initialement un groupe, des clusters,
  • Se connecter les uns avec les autres, former un groupe plus grand, etc.

Méthodes basées sur des concentrations d'objet (base de densitéMethods):

  • basé sur la possibilité de connecter des objets;
  • Ignorer le bruit, trouver des grappes de forme arbitraire.

Grille -Méthodes (Méthodes basées sur la grille):

  • Quantification d'objets dans la structure de la grille.

Méthodes de modèle (basé sur le modèle):

  • Utilisation du modèle pour trouver des clusters les données les plus pertinentes.

Méthodes d'analyse de grappes. Méthodes itératives.

Avec un grand nombre d'observations, les méthodes hiérarchiques d'analyse des grappes ne conviennent pas. Dans de tels cas, des méthodes non ioniques sont utilisées en fonction de la séparation, qui sont les méthodes itératives d'écrasement de l'agrégat initial. Dans le processus de division, de nouvelles grappes sont formées jusqu'à ce que la règle d'arrêt soit effectuée.

Un tel clustering non erchique consiste à séparer les données définies par certains clusters individuels. Il y a deux approches. Le premier consiste à déterminer les limites des grappes comme les sections les plus denses de l'espace multidimensionnel des données source, c'est-à-dire La définition du cluster où il y a un grand "épaississement de points". La deuxième approche consiste à minimiser les différences de mesure

K-intermédiaire algorithme (k-moyen)

Le plus courant entre les méthodes non érythoriques de l'algorithme K-Medium, également appelée Analyse de grappes rapide . La description complète de l'algorithme se trouve à Hartigan et à Wong (Hartiganandwong, 1978). Contrairement aux méthodes hiérarchiques qui n'exigent pas d'hypothèses préliminaires concernant le nombre de grappes, il est nécessaire d'avoir une hypothèse sur le nombre le plus probable de grappes.

L'algorithme de K-Moyenne K-Moyenne construit K clusters situés à de possibles distances de l'autre. Le principal type de tâches qui résout l'algorithme k-moyen k est la présence d'hypothèses (hypothèses) par rapport au nombre de grappes, bien qu'ils soient le plus possible. Le choix du nombre k peut être basé sur les résultats des études précédentes, des considérations théoriques ou de l'intuition.

L'idée générale de l'algorithme: une note fixe donnée K Les grappes d'observation sont mappées à des grappes de sorte que la moyenne dans le cluster (pour toutes les variables) diffère maximalement les unes des autres.

Description de l'algorithme

1. La distribution initiale d'objets selon des grappes.

  • Le nombre k est sélectionné et, dans la première étape, ces points sont considérés comme des "centres" de clusters.
  • Chaque cluster correspond à un centre.

La sélection de la base initiale peut être effectuée comme suit:

  • Sélection d'observations K pour maximiser la distance initiale;
  • sélection aléatoire des observations K;
  • Le choix des premières observations de K.

En conséquence, chaque objet est attribué à un cluster spécifique.

2. Processus itératif.

Les centres de clusters sont calculés, qui sont alors considérés comme les grappes de support coordonnées. Les objets sont redistribués à nouveau.

Le processus de calcul des centres et de la redistribution des objets continue jusqu'à ce que l'une des conditions soit satisfaite:

  • Centres de grappes stabilisés, c'est-à-dire Toutes les observations appartiennent au cluster auquel appartenait l'itération actuelle;
  • Le nombre d'itérations est égal au nombre maximal d'itérations.

La figure montre un exemple du fonctionnement de l'algorithme k-moyen pour K égal à deux.

Un exemple de fonctionnement de l'algorithme k-moyen k (k = 2)

Le choix du nombre de clusters est une question difficile. S'il n'y a aucune hypothèse sur ce numéro, il est recommandé de créer 2 clusters, puis 3, 4, 5, etc., comparer les résultats obtenus.

Vérification de la qualité du clustering

Après avoir obtenu les résultats de l'analyse de grappes par la méthode K-Moyenne K, il est nécessaire de vérifier l'exactitude de la clustering (c'est-à-dire d'évaluer la quantité de grappes différées les unes des autres).

Pour cela, les valeurs moyennes de chaque cluster sont calculées. Avec un bon regroupement, des moyennes très différentes doivent être obtenues pour toutes les mesures ou au moins plus d'entre elles.

Les avantages de l'algorithme K-Medium:

  • Utilisation facile;
  • utilisation de la vitesse;
  • Commodité et transparence de l'algorithme.

Inconvénients de l'algorithme K-Medium:

  • L'algorithme est trop sensible aux émissions pouvant déformer la moyenne.

La solution possible de ce problème est de modifier l'algorithme d'algorithme K-Median;

  • L'algorithme peut lentement travailler sur de grandes bases de données. La solution possible de ce problème est d'utiliser un échantillonnage de données.

Réseaux bayésiens

En théorie de la probabilité, le concept de dépendance à l'information est modélisé par la dépendance conventionnelle (ou strictement: le manque d'indépendance conditionnelle), qui décrit la manière dont notre confiance dans le résultat d'un certain événement change lors de la réception d'une nouvelle connaissance des faits, à condition que que nous avons déjà connu un ensemble d'autres faits.

Comprenez convenablement et intuitivement de la dépendance entre les éléments au moyen d'un chemin directionnel reliant ces éléments dans le graphique. Si la dépendance entre les éléments X et Y n'est pas directement et qu'elle est effectuée au moyen du troisième élément Z, il est logique de s'attendre à ce que l'élément Z soit sur le chemin entre X et Y. De tels nœuds intermédiaires vont "couper" la relation entre x et y, c'est-à-dire. Modéliser la situation de l'indépendance conditionnelle entre eux avec un sens connu de facteurs d'influence directs. De telles langues de modélisation sont des réseaux bayésiens qui servent à décrire les dépendances conventionnelles entre les concepts d'une certaine zone.

Les réseaux bayésiens sont des structures graphiques pour la représentation des relations probabilistes entre un grand nombre de variables et la mise en œuvre de la production probabiliste sur la base de ces variables. "Naïf" (Bayesovskaya) La classification est une méthode de classification assez transparente et compréhensible. "Naïf" on l'appelle parce qu'il provient de l'hypothèse de mutuelle Indépendance des signes.

Propriétés de la classification:

1. Utilisation de toutes les variables et identifier toutes les dépendances entre elles.

2. Disponibilité de deux hypothèses sur les variables:

  • Toutes les variables sont tout aussi importantes;
  • Toutes les variables sont statistiquement indépendantes, c'est-à-dire La valeur d'une personne autorisée ne dit rien sur la valeur d'une autre.

Il existe deux scripts principaux pour l'utilisation de réseaux bayésiens:

1. Analyse descriptive. Le sujet est affiché sous forme de graphique, dont les nœuds représentent les concepts et les arcs directionnels affichés par les flèches illustrent les dépendances immédiates entre ces concepts. La relation entre les concepts X et Y signifie: la connaissance de la valeur x aide à apporter une hypothèse plus raisonnable de la valeur de Y. L'absence d'une connexion directe entre les concepts simule l'indépendance conditionnelle entre elles avec les valeurs connues d'un certain ensemble de concepts "diviseur". Par exemple, la taille des chaussures de l'enfant est évidemment associée à la capacité de l'enfant à lire l'âge. Ainsi, les images plus grandes confirment une grande confiance que l'enfant lit déjà, mais si nous sommes déjà connus pour vieillir, la connaissance de la taille des chaussures ne nous donnera plus d'informations supplémentaires sur la capacité de l'enfant à lire.

Comme un autre, l'opposé, l'exemple, envisager de tels facteurs initialement non liés comme fumer et froid. Mais si nous sommes célèbres pour le symptôme, par exemple, qu'une personne souffre dans la toux du matin, alors la connaissance qu'une personne ne fume pas, augmente notre confiance qu'une personne est coupée.

2. Classification et prévision. Réseau bayésien, permettant l'indépendance conditionnelle d'un certain nombre de concepts, permet de réduire le nombre de paramètres collatéraux, ce qui permet d'évaluer leur évaluation confidentielle sur les volumes de données disponibles. Donc, à 10 variables, chacune d'elles peut prendre 10 valeurs, le nombre de paramètres de distribution collaborative est de 10 milliards - 1. Si nous supposons que seules 2 variables dépendent l'une de l'autre, le nombre de paramètres devient 8 * (10-1) + (10 * 10-1) = 171. Avoir un modèle de distribution solide avec des ressources informatiques, une valeur inconnue de toute idée que nous pouvons prédire, par exemple, la valeur la plus probable de ce concept avec les valeurs connues d'autres concepts .

Notes de tels avantages des réseaux bayésiens en tant que méthode de données:

• Les modèles définissent la relation entre toutes les variables, cela facilite la tâche. les situations de processus dans lesquelles certaines variables sont inconnues;

• Les réseaux bayésiens sont simplement interprétés et autorisés au stade La modélisation pronostique est facile à analyser le script "que si";

• La méthode bayésienne vous permet de combiner naturellement des motifs, dérivé des données, et par exemple, des connaissances expertes obtenues explicitement;

• L'utilisation de réseaux bayésiens évite le problème de la réaffection (survêtement), c'est-à-dire une complication redondante du modèle, ce qui est un côté faible De nombreuses méthodes (par exemple, décisions et arbres de réseau neuronal).

L'approche Nao-Bayesovsky a les défauts suivants:

• Multiplier les probabilités conditionnelles correctement uniquement lorsque toutes les entrées Les variables sont vraiment statistiquement indépendantes; Bien que souvent cette méthode montre des résultats assez bons dans le non-respect des conditions statistiques L'indépendance, mais théoriquement, une telle situation devrait être traitée plus complexe méthodes basées sur l'enseignement des réseaux bayésiens;

• Le traitement immédiat des variables continues n'est pas possible - ils sont nécessaires transformation à l'intervalle des attributs à distinct; Cependant, telle La transformation peut parfois entraîner une perte de modèles importants;

• sur le résultat de la classification de l'approche naïf-bayésienne n'affecte que Valeurs individuelles des variables d'entrée, effet combiné des couples ou Les troupes de valeurs de différents attributs ne sont pas prises en compte ici. Cela pourrait améliorer La qualité du modèle de classification en termes de précision prédictive, Cependant, augmenterait le nombre d'options applicables.

Réseaux de neurones artificiels

Les réseaux de neurones artificiels (ci-après réseaux de neurones) peuvent être synchrones et asynchrones. Dans les réseaux de neurones synchrones à chaque fois de temps, ne change que son état Un neurone. En asynchrones - l'État change immédiatement à l'ensemble du groupe de neurones, en règle générale, au total couche. Vous pouvez sélectionner deux architectures de base - des réseaux connectés en couches et complets. La clé des réseaux en couches est le concept de couche. La couche est un ou plusieurs neurones, dont les entrées sont servies par le même signal général. Réseaux de neurones en couches - Réseaux de neurones Dans lesquels les neurones sont cassés en groupes distincts (couches) afin que le traitement de l'information soit effectué dans des couches. Les neurones en couches des neurones de la i-ème couche, les signaux d'entrée sont obtenus, les convertissent et à travers les points de branche sont transmis à la couche neurones (i + 1). Et donc avant la k-ème couche, qui donne Signaux de sortie pour l'interprète et l'utilisateur. Le nombre de neurones dans chaque couche n'est pas associé au nombre de neurones dans d'autres couches peut être arbitraire. Dans le cadre d'une couche, les données sont traitées en parallèle et sur l'échelle de l'ensemble du réseau, le traitement est effectué successivement - de la couche à la couche. Les réseaux de neurones en couches comprennent, par exemple, les perceptions multicouches, les réseaux de fonctions de base radiale, les réseaux de mémoire associatifs de Cognitron, non-Zynitron et associatifs. Cependant, le signal n'est pas toujours introduit à tous les neurones de la couche. Dans le clanitron, par exemple, chaque neurone de la couche de courant ne reçoit que des signaux des neurones proches de celui-ci de la couche précédente.

Les réseaux en couches, à leur tour, peuvent être une couche simple et multicouche.

Réseau à couche unique - Réseau constitué d'une couche.

Réseau multicouche - Réseau ayant plusieurs couches.

Dans un réseau multicouche, la première couche est appelée entrée, ultérieure - interne ou masquée, la dernière couche - sortie. Ainsi, les couches intermédiaires sont toutes des couches dans un réseau de neurones multicouches, à l'exception de l'entrée et de la sortie. La couche d'entrée réseau implémente la communication avec les données d'entrée, la sortie - sur la sortie. Ainsi, les neurones peuvent être entrés, émis et cachés. La couche d'entrée est organisée à partir de neurones d'entrée (INPUTNEURON), qui reçoivent des données et les distribuent aux entrées des neurones de la couche cachée du réseau. Neurone caché (Hiddenneuron) est un neurone situé dans une couche cachée du réseau neuronal. Neurones de sortie (Outwutneuron), dont la couche de sortie du réseau est organisée, des problèmes Les résultats du réseau neuronal.

Dans les réseaux complets Chaque neurone transmet sa sortie au reste des neurones, y compris lui-même. Les sorties du réseau peuvent être toutes des signaux de sortie de neurones après plusieurs cycles de fonctionnement du réseau.

Tous les signaux d'entrée sont introduits à tous les neurones.

Former des réseaux de neurones

Avant d'utiliser le réseau de neurones, il doit être formé. Le processus d'apprentissage du réseau neuronal est d'ajuster ses paramètres internes pour une tâche spécifique. L'algorithme du réseau neuronal est itératif, ses étapes sont appelées époques ou cycles. L'ère est une itération du processus d'apprentissage, y compris la présentation de tous les exemples de l'ensemble d'apprentissage et, éventuellement, vérifiez la qualité de la formation dans le contrôle. Ensemble. Le processus d'apprentissage est effectué sur l'échantillon de formation. La sélection de l'entraînement comprend des valeurs d'entrée et correspond à des valeurs de sortie de l'ensemble de données. Au cours de la formation, le réseau neural trouve certaines dépendances des champs de sortie de l'entrée. Ainsi, nous avons une question - Quels champs d'entrée (signes) à nous Nessésaire à utiliser. Initialement, le choix est effectué de manière heuristique, plus loin Le nombre d'entrées peut être modifié.

Des difficultés peuvent causer une question sur le nombre d'observations dans le jeu de données. Et bien qu'il existe certaines règles décrivant la relation entre le nombre nécessaire d'observations et la taille du réseau, leur fidélité n'est pas prouvée. Le nombre d'observations nécessaires dépend de la complexité du problème résolu. Avec une augmentation du nombre de signes, le nombre d'observations augmente de manière non linéaire, ce problème est appelé "malédiction de dimension". Avec une quantité insuffisante Données Il est recommandé d'utiliser un modèle linéaire.

Un analyste doit déterminer le nombre de couches sur le réseau et le nombre de neurones dans chaque couche. Ensuite, il est nécessaire d'attribuer de telles valeurs et déplacements qui seront capables de Minimiser l'erreur de solution. Le poids et le décalage sont automatiquement configurés de manière à minimiser la différence entre le signal souhaité et le signal de sortie, appelé l'erreur d'apprentissage. Erreur lors de l'apprentissage du réseau neuronal construit est calculé en comparant Week-ends et valeurs cible (désirées). La fonction d'erreur est générée à partir des différences.

La fonction d'erreur est une fonction cible nécessitant une minimisation dans le processus. Réseau de neurones d'apprentissage géré. En utilisant la fonction d'erreur, vous pouvez estimer la qualité du réseau neuronal lors de la formation. Par exemple, la somme des carrés d'erreurs est souvent utilisée. Cela dépend de la qualité de l'apprentissage du réseau neuronal dépend de sa capacité à résoudre la tâche opposée.

Retourner le réseau de neurones

Lors de l'apprentissage de réseaux de neurones, une difficulté grave est souvent appelée Problème de traitement (survêtement). Périner, ou un réglage excessivement étroit - est trop précis Réseau de neurones à un ensemble spécifique d'exemples de formation dans lesquels le réseau perd Capacité à généraliser. Robustion se produit en cas de formation trop longue, nombre insuffisant Exemples éducatifs ou structure louée du réseau neuronal. Le recyclage est due au fait que le choix de la formation (formation) définit est aléatoire. De la première étape d'apprentissage, une erreur diminue. Sur le Étapes ultérieures pour réduire les paramètres d'erreur (fonction cible) S'adapte aux caractéristiques du jeu d'apprentissage. Cependant, ça arrive "ajustement" n'est pas sous les modes généraux d'un nombre, mais sous la partie particulière de celui-ci - Sous-ensembles éducatifs. Dans ce cas, la précision des prévisions diminue. Une des options pour faire face au recyclage du réseau - diviser l'échantillon de formation pour deux Ensembles (apprentissage et test). Sur l'ensemble d'apprentissage, la formation au réseau neuronal se produit. L'ensemble de test est vérifié par un modèle construit. Ces ensembles ne doivent pas intersecter. À chaque étape, les paramètres de modèle changent, mais une diminution constante Les valeurs de la fonction cible se produisent sur le jeu d'apprentissage. Lors du scission d'une multitude de deux, nous pouvons observer la modification de l'erreur de prévision sur le test défini en parallèle avec les observations au-dessus de l'ensemble éducatif. Une sorte Le nombre d'étapes d'erreur de pronostic diminue sur les deux ensembles. Cependant, sur Une erreur d'étape sur l'ensemble de tests commence à augmenter, tandis que l'erreur de l'ensemble d'apprentissage continue de diminuer. Ce moment est considéré comme le début de la reconversion.

Outils Datage

Le développement du secteur Datamining World Software est occupé par des dirigeants mondiaux et de nouvelles entreprises en développement. Les outils de données peuvent être représentés comme une application indépendante ou en tant que suppléments du produit principal. La dernière option est mise en œuvre par de nombreux leaders du marché du logiciel. Ainsi, c'était déjà une tradition que les développeurs de paquets statistiques universels, une trempette aux méthodes traditionnelles d'analyse statistique, incluent dans le paquet Définitions Datamination. Mentaipacekak SPSS (SPSS, Clementine), Statistica (STATSOFT), SAS Institute (SAS Enterprise Miner). Certains développeurs OLAP offrent également un ensemble de méthodes de données, par exemple une famille de produits Cognos. Il y a des fournisseurs, y compris des solutions de données dans la fonctionnalité de la DBMS: c'est Microsoft. (MicrosoftsqlServer. ), Oracle , IBM. (Ibmintelligentminerfordata. ).

Liste de références

  1. Abdikeev n.m. Danko TP Ildemenov s.v. KISELV A.D, "Réingénierie des processus métier. Cours de MBA, M.: EKSMO, 2005. - 592 p. - (MVA)
  1. Abdikeev n.m., Kiselev A.D. "Gestion des connaissances dans la société et la réingénierie d'entreprise" - M.: Infra-M, 2011.- 382 p. - ISBN 978-5-16-004300-5
  1. BARSEGEGIAN A.A., Kupriyanov M.S., Stepanenko V.v., Chokhod.i. "Modèles et modèles d'analyse de données: OLAP et mining de données", Saint-Pétersbourg: BHV-PETERSBURG, 2004,36C., ISBN 5-94157-522-X
  1. Duc В., Samoilenko А., "Mining de données. Cours de formation "Saint-Pétersbourg: Peter, 2001, 386C.
  1. Chubukova I.A., Mining de données de cours, http://www.intuit.ru/department/database/Datamining/
  1. Ianh. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Mining de données: Outils et techniques d'apprentissage de la machine pratique (troisième édition), ISBN 978-0-12-374856-0
  1. Petrushin V.a. , Khan L., Multimédia Data Mining et Découverte des connaissances

1. Qu'est-ce que l'exploitation minière de données?

L'exploitation minière des données est traduite comme "mines" ou "excavation de données". Souvent à côté de l'exploitation minière des données, des mots "connaissances de connaissances dans des bases de données" et "analyse de données intelligente". Ils peuvent être considérés comme synonymes d'exploitation minière de données. L'émergence de tous ces termes est associée au nouveau tour dans le développement de fonds et de méthodes de traitement de données.

Jusqu'au début des années 90, il semblait qu'il n'était pas nécessaire de repenser la situation dans ce domaine. Tout s'est passé comme un guide dans le cadre de la direction appelée Statistiques d'application (voir par exemple, [1]). Les théoriques ont mené des conférences et des séminaires, ont écrit des articles impressionnants et des monographies qui abourvent des calculs analytiques.

Dans le même temps, les pratiquants savaient toujours que des tentatives d'application des exercices théoriques pour résoudre des problèmes réels dans la plupart des cas se révèlent être infructueux. Mais sur la préoccupation des praticiens pour le moment, il était possible de ne pas accorder une attention particulière - ils ont résolu leurs problèmes privés de traitement de petites bases de données locales.

Et l'appel a sonné. Dans le cadre de l'amélioration des technologies pour enregistrer et stocker des données sur des personnes, les flux colossaux de minerai d'information dans divers domaines étaient en colossing. L'activité de toute entreprise (commerciale, industrielle, médicale, scientifique, etc.) est maintenant accompagnée d'enregistrement et d'enregistrement de tous les détails de ses activités. Que faire avec ces informations "Il est devenu clair que sans traitement productif, les flux de données brutes ne sont pas la décharge nécessaire.

La spécificité des exigences modernes pour un tel recyclage est la suivante:

  • Les données ont un volume illimité
  • Les données sont hétérogènes (quantitative, de haute qualité, textuelle)
  • Les résultats doivent être spécifiques et compréhensibles.
  • Les outils de traitement des données brutes doivent être faciles à utiliser.

Statistiques mathématiques traditionnelles, pendant une longue période, réclamant l'outil principal d'analyse des données, franchement sauvés face aux problèmes soulevés. Raison principale - Concept en moyenne sur l'échantillon , conduisant à des opérations sur des valeurs fictives (telles que la température moyenne des patients à l'hôpital, la hauteur moyenne de la maison dans la rue constituée de palais et de cabanes, etc.). Les méthodes de statistiques mathématiques ont été utiles principalement pour vérifier les hypothèses pré-formulées (mines de données axées sur la vérification) et pour l'analyse d'exploration «grossière» qui constitue la base du traitement des données analytiques opérationnelles (traitement analytique en ligne, OLAP).

La base de la technologie moderne de l'exploitation minière de données (extraction de données axée sur la découverte) est le concept de modèles (motifs) reflétant Fragments relations multidimensionnelles dans les données. Ces modèles sont particuliers Sous-sections de données qui peut être compactement exprimé dans un homme clair en forme. La recherche de modèles est faite par des procédés qui ne se limitent pas au cadre d'hypothèses priori sur la structure de l'échantillon et la forme des valeurs des valeurs des indicateurs analysés. Des exemples de tâches pour une telle recherche lors de l'utilisation de données minières sont données dans le tableau. une.

Tableau 1. Exemples de libellé de tâche lors de l'utilisation des méthodes d'OLAP et de mines de données [2]

OLAP. Mining de données.
Quelles sont les blessures moyennes pour fumer et non-fumeur? Quels facteurs sont mieux prévus par les accidents?
Quelles sont les tailles moyennes des comptes téléphoniques des clients existants par rapport aux comptes d'anciens clients (refusés par la compagnie de téléphone)? Quelles caractéristiques sont des clients qui, sous vraisemblance, vont-ils abandonner les services d'une compagnie de téléphone?
Quelle est la quantité moyenne d'achats quotidiens sur la carte de crédit volée et non volée? Quels systèmes de magasinage sont caractéristiques de la fraude par carte de crédit?

Une position importante de l'exploitation minière de données est la non-trivialité des modèles recherchés. Cela signifie que les modèles trouvés doivent refléter une régularité non évidente et inattendue (inattendue) dans les données constituant la connaissance dit cachée (connaissances cachées). La Société a compris que les données brutes (données brutes) contiennent une couche de connaissances profonde, avec une excavation compétente de laquelle des pépites réelles peuvent être détectées (Fig. 1).

  Moins (<).

Figure 1. Niveaux de connaissances extraites des données

En général, la technologie des mines de données détermine définitivement la grigory Piatsky-Shapiro - l'un des fondateurs de cette direction:

L'exploitation minière des données est un processus de détection des données brutes.

  • Précédemment inconnu
  • Non trivial
  • Pratiquement utile
  • et interprétations de connaissances abordables
  • nécessaire pour la prise de décision dans divers domaines
  • activité humaine.

G. PIatsky-Shapiro, Partenaires de la connaissance de la connaissance

2. Qui a besoin

La portée de l'exploitation minière des données n'est pas limitée à rien - c'est partout où il y a des données. Mais tout d'abord, les méthodes d'exploration de données aujourd'hui, de la mettre à la fois légèrement, des entreprises commerciales intriguées, de déployer des projets basés sur des voûtes de données (entrepôt de données). L'expérience de nombreuses entreprises de ce type montre que le retour sur l'utilisation de l'exploitation minière de données peut atteindre 1000%. Par exemple, il existe des rapports d'effet économique, 10 à 70 fois les coûts initiaux de 350 à 750 000 dollars. [3]. Il existe des informations sur le projet de 20 millions de dollars, qui a payé en seulement 4 mois. Un autre exemple est l'économie annuelle de 700 mille dollars. En mettant en œuvre des données minières dans le réseau des univers au Royaume-Uni.

L'exploitation minière des données est d'une grande valeur pour les gestionnaires et les analystes de leurs activités quotidiennes. Les hommes d'affaires ont compris qu'avec l'aide de méthodes d'exploration de données, elles peuvent obtenir des avantages tangibles dans une lutte concurrentielle. Décrivez brièvement quelques applications d'entreprise possibles minières de données [2].

2.1. Quelques applications métiers d'extraction de données

Vendre au détail

Les entreprises de vente au détail collectent aujourd'hui des informations détaillées sur chaque achat à l'aide de cartes de crédit avec une marque de magasin et des systèmes de contrôle informatisés. Voici les tâches typiques que vous pouvez résoudre à l'aide de l'exploitation minière des données dans le secteur de la vente au détail:

  • Analyse du panier d'achat (L'analyse de la similitude) est destinée à identifier les biens que les acheteurs cherchent à acquérir ensemble. La connaissance du panier d'achat est nécessaire pour améliorer la publicité, élaborer des stratégies de création de stocks de biens et de méthodes de mise en page dans les salles de négoce.
  • Étude des modèles temporaires Aide à la négociation d'entreprises à prendre des décisions sur la création d'inventaires. Il donne des réponses aux questions telles que "Si aujourd'hui, l'acheteur a acquis une caméra vidéo, puis après quelle heure il est le plus susceptible d'acheter de nouvelles batteries et de nouveaux films" "
  • Création de modèles prédictifs Il permet d'échanger des entreprises d'apprendre la nature des besoins de diverses catégories de clients avec certains comportements, par exemple, d'acheter des marchandises de concepteurs célèbres ou d'assister aux ventes. Ces connaissances sont nécessaires pour développer des activités précises et rentables pour promouvoir des marchandises.

Bancaire

Les réalisations de la technologie des mines de données sont utilisées dans le secteur bancaire pour résoudre les tâches communes suivantes:

  • Détection de la fraude par carte de crédit . En analysant les transactions passées, qui ont ensuite été frauduleuses, la Banque identifie certains stéréotypes de cette fraude.
  • Segmentation des clients . Cuisson des clients à diverses catégories, les banques rendent leurs politiques marketing plus ciblées et efficaces, offrant différents types de services à divers groupes de clients.
  • Prévision de la clientèle change . Data Mining aide les banques à créer des modèles de valeur prédictifs de leurs clients et à servir chaque catégorie en conséquence.

Télécommunications

Dans le domaine des télécommunications, les méthodes d'extraction des données aident les entreprises à promouvoir plus vigoureusement leurs programmes de marketing et de tarification afin de tenir les clients existants et d'attirer de nouveaux. Parmi les activités typiques, nous notons ce qui suit:

  • Analyse des enregistrements sur les caractéristiques d'appels détaillées. La nomination d'une telle analyse consiste à identifier les catégories de clients avec des stéréotypes similaires d'utilisation de leurs services et de l'élaboration d'ensembles de prix et de services attrayants;
  • Détection de la fidélité des clients . L'exploration de données peut être utilisée pour déterminer les caractéristiques des clients, qui, une fois en profitant des services de cette société, la probabilité restera fidèle à celle-ci. En conséquence, les fonds alloués au marketing peuvent être dépensés là où le retour est le plus.

Assurance

Les compagnies d'assurance accumulent de grandes quantités de données pendant plusieurs années. Voici un vaste champ d'activité pour les méthodes d'exploration de données:

  • Détection de fraude . Les compagnies d'assurance peuvent réduire le niveau de fraude en recherchant certains stéréotypes dans des demandes de paiement de la rémunération de l'assurance caractérisant la relation entre les avocats, les médecins et les candidats.
  • Analyse de risque . En identifiant les combinaisons de facteurs liés aux déclarations rémunérées, les assureurs peuvent réduire leurs pertes sur le passif. Il existe une affaire lorsque, aux États-Unis, une grande compagnie d'assurance a révélé que les montants versés sur les déclarations de personnes mariées deux fois les montants des déclarations de personnes solitaires. La société a répondu à cette nouvelle révision des connaissances de ses politiques générales pour fournir des réductions aux clients de la famille.

Autres applications en entreprise

L'exploitation minière des données peut être utilisée dans une variété d'autres domaines:

  • Développement de l'industrie automobile . Lors de l'assemblage de voitures, les fabricants doivent prendre en compte les exigences de chaque client. Ils ont donc besoin de la capacité de prédire la popularité de certaines caractéristiques et la connaissance de quelles caractéristiques sont généralement commandées ensemble;
  • Politique de garantie . Les fabricants doivent prédire le nombre de clients qui seront envoyés des applications de garantie et la valeur moyenne des applications;
  • Promotion des clients volants fréquemment . Les compagnies aériennes peuvent détecter un groupe de clients pouvant encourager davantage ces mesures d'incitation. Par exemple, une compagnie aérienne a trouvé la catégorie de clients qui a fait de nombreux vols à de courtes distances, ne pas accumuler suffisamment de kilomètres pour rejoindre leurs clubs. Il a ainsi modifié les règles d'admission au club pour encourager le nombre de vols ainsi que des milles.

2.2. Applications spéciales

Médicament

De nombreux systèmes d'experts sont connus pour formuler des diagnostics médicaux. Ils sont principalement construits sur la base des règles décrivant les combinaisons de divers symptômes de diverses maladies. Avec l'aide de ces règles, il est non seulement reconnu que le patient malade, mais aussi comment le traiter. Les règles aident à choisir des moyens d'influence de la drogue, identifier les témoignages - contre-indications, orienter les procédures de traitement, créer les conditions du traitement le plus efficace, afin de prédire les résultats du cours de traitement prescrit, etc. La technologie de mines de données vous permet de détecter des modèles dans des données médicales qui composent la base de ces règles.

Génétique moléculaire et génie génétique

Peut-être le plus de manière extrême et en même temps, la tâche de détecter des modèles dans des données expérimentales est en génétique moléculaire et en génie génétique. Ici, il est formulé comme déterminant les soi-disant marqueurs, dans lesquels des codes génétiques qui contrôlent certains signes phénotypiques d'un organisme vivant sont compris. Ces codes peuvent contenir des centaines, des milliers et des éléments plus connectés.

Les grands outils sont alloués au développement d'études génétiques. Récemment, dans ce domaine, il y avait un intérêt particulier pour l'utilisation de méthodes d'exploration de données. Il existe plusieurs grandes entreprises spécialisées dans l'application de ces méthodes pour déchiffrer le génome de l'homme et des plantes.

Chimie appliquée

Les méthodes d'extraction de données sont largement utilisées en chimie appliquée (biologique et inorganique). Il y a souvent la question de trouver les particularités de la structure chimique de certains composés définissant leurs propriétés. Cette tâche est particulièrement pertinente dans l'analyse de composés chimiques complexes, dont la description comprend des centaines et des milliers d'éléments structurels et de leurs connexions.

Vous pouvez donner beaucoup plus d'exemples de divers domaines de connaissances dans lesquels les méthodes d'exploration de données jouent un rôle de premier plan. La particularité de ces zones est leur organisation du système complexe. Ils se réfèrent principalement au niveau supersubestic de l'organisation des systèmes [4], dont les modèles ne peuvent être décrits suffisamment dans la langue des modèles mathématiques analytiques statistiques ou autres [5]. Les données dans ces zones sont hétérogènes, hétérogènes, non statistionnaires et sont souvent caractérisées par une dimension élevée.

3. Types de motifs

Il existe cinq types de motifs standard qui vous permettent d'identifier les méthodes d'exploration de données: association, séquence, classification, clustering et prédiction (Fig. 2).

  Moins (<).

Figure 2. Types de motifs détectés par les méthodes d'extraction de données

Association Dans le cas où plusieurs événements sont connectés les uns aux autres. Par exemple, une enquête menée dans le supermarché peut montrer que 65% de la coca-clause ont acheté des puces de maïs également prises, et s'il y a une réduction pour un tel kit, le Kola est acquis dans 85% des cas. Avoir des informations sur une telle association, les gestionnaires sont faciles à évaluer la réduction de la réduction fournie.

S'il y a une chaîne d'événements associée à temps, alors parler de séquences . Par exemple, après avoir acheté une maison dans 45% des cas, un nouveau poêle de cuisine est acheté dans un mois et dans deux semaines, 60% des nouveaux arrivants sont saisis avec un réfrigérateur.

Par Classifications Signes caractérisant le groupe sur lequel l'une ou l'autre appartient est détectée. Ceci est fait en analysant des objets déjà classés et la formulation d'un certain ensemble de règles.

Clustering Il diffère de la classification par le fait que les groupes eux-mêmes ne sont pas spécifiés à l'avance. En utilisant le clustering de l'extraction de données, divers groupes de données homogènes allouent de manière indépendante.

La base de toutes sortes de systèmes Prévision Il sert d'informations historiques stockées dans la base de données sous forme de séries temporaires. Si vous parvenez à créer des modèles de recherche qui reflètent adéquatement la dynamique du comportement des objectifs, il est possible que vous puissiez prédire le comportement du système à l'avenir.

4. Classes de systèmes d'extraction de données

L'exploitation minière des données est une zone multidisciplinaire survenue et développée sur la base des réalisations des statistiques appliquées, de la reconnaissance des images, des méthodes d'intelligence artificielle, de la théorie de la base de données, etc. (Fig. 3). D'où l'abondance de méthodes et d'algorithmes mis en œuvre dans divers systèmes d'exploitation de données d'exploitation. Bon nombre de ces systèmes intègrent plusieurs approches à la fois. Néanmoins, en règle générale, chaque système a une composante clé à laquelle le taux principal est effectué. Vous trouverez ci-dessous la classification des composants clés spécifiés basés sur [6]. Les classes sélectionnées reçoivent une brève description.

  Moins (<).

Figure 3. Mining de données - Zone multidisciplinaire

  Moins (<).

Figure 4. Produits populaires pour mines de données

4.1. Systèmes analytiques orientés indépendants

Les systèmes analytiques orientés versés sont très divers. La sous-classe la plus large de ces systèmes, qui a été distribuée dans le domaine des marchés financiers, s'appelle "analyse technique". Il s'agit d'une combinaison de plusieurs douzaines de méthodes de prévision de la dynamique des prix et du choix de la structure optimale du portefeuille de placements basé sur divers modèles empiriques de dynamique du marché. Ces méthodes utilisent souvent un appareil statistique simple, mais prennent maximalement en compte la spécificité actuelle (langue professionnelle, systèmes de divers index, etc.). Il existe de nombreux programmes de cette classe sur le marché. En règle générale, ils sont plutôt bon marché (généralement 300-1000 $).

4.2. Forfaits statistiques

Les dernières versions de presque tous les forfaits statistiques connus incluent ainsi que des méthodes statistiques traditionnelles également des éléments miniers de données. Mais le foyer d'entre eux est accordé aux mêmes méthodes classiques - corrélation, régression, analyse factorielle et autres. La vue détaillée la plus récente des paquets d'analyse statistique est fournie sur les pages de la CEMI. L'inconvénient de ces systèmes de classe considère l'exigence d'une préparation spéciale des utilisateurs. Il est également noté que de puissants forfaits statistiques modernes sont trop lourds pour une application de masse en finance et en affaires. De plus, ces systèmes sont souvent assez coûteux - de 1 000 $ à 15 000 $.

Il existe un manque d'emballages statistiques encore plus sérieux, limitant leur application dans l'exploitation minière de données. La plupart des méthodes qui composent les packages sont basées sur le paradigme statistique, dans laquelle les caractéristiques moyennes de l'échantillon sont les principales accusées. Et ces caractéristiques, comme indiqué ci-dessus, dans l'étude des phénomènes de vie complexes réels sont souvent des valeurs fictives.

À titre d'exemples des forfaits statistiques les plus puissants et les plus courants, SAS (SAS Institute), SPSS (SPSS), Statisticics (Manugistique), Statistica, Stadia et d'autres personnes peuvent être appelés.

4.3. Les réseaux de neurones

Il s'agit d'une grande classe de systèmes dont l'architecture a une analogie (comme maintenant est connue, plutôt faible) avec la construction de tissu néron à partir de neurones. Dans l'une des architectures les plus courantes, un percepteur multicouche avec une erreur inverse, le fonctionnement de neurones dans la composition du réseau hiérarchique est simulé, où chaque neurone de haut niveau est connecté par ses entrées avec les sorties des neurones de couche sous-jacente . Les neurones de la couche inférieure sont les valeurs des paramètres d'entrée sont alimentées, sur la base de laquelle vous devez prendre des décisions, prédire le développement de la situation, etc. Ces valeurs sont considérées comme des signaux transmis dans la prochaine Couche, relaxant ou améliorée en fonction des valeurs numériques (poids) attribués aux obligations interneurone. En conséquence, à la sortie du neurone de la couche la plus haute, une certaine valeur est produite, qui est considérée comme la réponse - la réaction de l'ensemble du réseau aux valeurs de paramètre d'entrée entrées. Pour que le réseau soit utilisé à l'avenir, il doit d'abord être "formé" sur les données obtenues précédemment pour lesquelles les valeurs de paramètre d'entrée sont également connues et les réponses correctes à elles. La formation consiste dans la sélection des échelles de connexions inter-lignes garantissant la plus grande proximité des réponses du réseau aux bonnes réponses.

L'inconvénient principal du paradigme du réseau neuronal est la nécessité d'avoir un très grand volume de l'échantillon de formation. Un autre inconvénient important est que même le réseau neuronal formé est une boîte noire. Les connaissances enregistrées en tant que poids de plusieurs centaines de connexions internes sont totalement non manufacturées et interprétées par une personne (tentatives connues d'interprétation de la structure du réseau de neurones configuré semblent peu convaincantes - le système "Kinosuite-PR").

Exemples de systèmes de réseau de neurones - Brainmaker (CSS), Neuwroshell (groupe de systèmes de Ward), Hibou (HyperLogic). Leur coût est assez important: 1500-8000 $.

  Moins (<).

Figure 5. Neural polynomial

4.4. Systèmes de raisonnement basés sur des cas similaires

L'idée de systèmes de raisonnement basés sur des cas - CBR - à première vue est extrêmement simple. Afin de préparer une prévision pour l'avenir ou de choisir la bonne solution, ces systèmes sont dans les analogues proches du passé de la situation en espèces et choisissent la même réponse qui leur était correcte. Par conséquent, cette méthode s'appelle également la méthode voisine voisine (voisine la plus proche). Récemment, la diffusion a également reçu le terme raisonnement fondé sur la mémoire, qui souligne que la décision est prise sur la base de toutes les informations accumulées en mémoire.

Les systèmes CBR montrent de très bons résultats dans une grande variété de tâches. Le principal minimum est qu'ils ne créent pas de modèles ni de règles généralisant l'expérience précédente - dans le choix d'une solution, elles sont basées sur l'ensemble des données historiques disponibles, il est donc impossible de dire, sur la base des facteurs spécifiquement du système CBR construit leurs réponses.

Un autre minus réside dans l'arbitraire, qui permet aux systèmes CBR lors du choix d'une mesure de "proximité". À partir de cette mesure, la quantité d'ensembles de précédents, qui doit être stockée en mémoire pour obtenir une classification ou une prévision satisfaisante [7] dépend de cette mesure.

Exemples de systèmes utilisant CBR, - Kate Tools (Acknosoft, France), Workbench de reconnaissance de modèle (UNICA, USA).

4.5. Arbres de décision

Les arbres de décision sont l'une des approches les plus populaires des tâches d'exploration de données. Ils créent une structure hiérarchique de règles de classification du type "si ... alors ..." (si-ensuite) ayant une vue d'arbre. Pour prendre une décision, quelle classe attribuer un objet ou la situation, il est nécessaire de répondre aux questions debout dans les nœuds de cet arbre, en commençant par sa racine. Les questions ont la forme "valeur de paramètre a supérieur à x". Si la réponse est positive, la transition vers le nœud droit du niveau suivant, si négatif, puis au nœud gauche; Encore une fois la question associée au nœud correspondant.

La popularité de l'approche est associée à la clarté et à la clarté. Mais les décisions des arbres ne sont pas fondamentalement capables de trouver les règles «meilleures» (les plus complètes »dans les données. Ils mettent en œuvre le principe naïf de la visualisation séquentielle des signes et des «cling» en fait les fragments de ces motifs, créant uniquement l'illusion de la production logique.

Dans le même temps, la plupart des systèmes utilisent cette méthode. Les plus célèbres sont les plus célèbres5 / C5.0 (RègleQuest, Australie), Clémentine (Solutions intégrales, Royaume-Uni), Sipina (Université de Lyon, France), IDIS (Discovery Information, États-Unis), Knowledgeekekeeer (Angoss, Canada). Le coût de ces systèmes varie de 1 à 10 mille dollars.

  Moins (<).

Figure 6. Connaissance du système Système traite des informations bancaires

4.6. Programmation évolutive

Nous illustrons l'état actuel de cette approche en utilisant l'exemple du système de développement national polyanalyste, qui a reçu une reconnaissance générale sur le marché des mines de données. Dans ce système, l'hypothèse sur la forme de la dépendance de la variable cible provenant d'autres variables est formulée en tant que programmes sur un langage de programmation interne. Le processus de construction de programmes est construit comme évolution dans le monde des programmes (cette approche est légèrement similaire à celle des algorithmes génétiques). Lorsque le système trouve un programme, exprimant plus ou moins de manière satisfaisante la dépendance souhaitée, elle commence à apporter de petites modifications à elle et sélectionne parmi les filiales construites qui augmentent la précision. Ainsi, le système "grandit" plusieurs lignes génétiques de programmes qui se font concurrence dans la précision de l'expression de la dépendance souhaitée. Le module spécial Polyalyste traduit les dépendances trouvées de la langue interne du système à la langue compréhensible de l'utilisateur (formules mathématiques, tables, etc.).

Une autre direction de programmation évolutive est associée à la recherche de la dépendance des variables cibles du reste sous forme de fonctions d'une certaine espèce. Par exemple, dans l'un des algorithmes les plus réussis de ce type - la méthode de la comptabilité de groupe des arguments (MSU) est recherchée de polynômes. À l'heure actuelle, MSUS vendue en Russie est mise en œuvre dans le système Neuroshell du groupe Société Ward Systems.

Le coût des systèmes est de 5 000 $.

4.7. Algorithmes génétiques

L'exploitation minière des données n'est pas la portée principale des algorithmes génétiques. Ils doivent être considérés comme un moyen puissant de résoudre une variété de tâches combinatoires et de tâches d'optimisation. Néanmoins, des algorithmes génétiques ont été inclus dans les méthodes de la boîte à outils standard d'extraction de données, de sorte qu'elles sont incluses dans cet examen.

La première étape de la construction d'algorithmes génétiques est l'encodage des modèles logiques originaux de la base de données, appelés chromosomes, et l'ensemble de ces modèles est appelé population de chromosomes. Ensuite, une méthode de comparaison de divers chromosomes est introduite pour mettre en œuvre le concept de sélection. La population est traitée à l'aide de procédures de reproduction, de variabilité (mutations), de composition génétique. Ces procédures imitent les processus biologiques. Les plus importants entre eux: mutations de données aléatoires dans des chromosomes individuels, les transitions (réticulation) et la recombinaison du matériau génétique contenu dans des chromosomes parent individuels (semblables à la reproduction hétérosexuelle) et la migration de gènes. Au cours des travaux des procédures à chaque étape de l'évolution, les populations sont obtenues avec des personnes de plus en plus parfaites.

Les algorithmes génétiques sont pratiques car ils sont faciles à parallèles. Par exemple, vous pouvez briser une génération en plusieurs groupes et travailler avec chacun d'eux indépendamment, échanger de temps en temps par plusieurs chromosomes. Il existe également d'autres méthodes de parallélisation d'algorithmes génétiques.

Les algorithmes génétiques ont un certain nombre de lacunes. Critère de sélection du chromosome et les procédures utilisées sont heureuses et loin d'être garanties pour trouver la "meilleure" solution. Comme dans la vraie vie, l'évolution peut "nager" sur une branche improductive. Et au contraire, il est possible de donner des exemples que deux parents non potentiels, qui seront exclus de l'évolution de l'algorithme génétique, sont capables de produire un descendant très efficace. Cela devient particulièrement remarquable dans la résolution de tâches hautement produit avec des connexions internes complexes.

Un exemple est le système de génisses de génisses de la société Ward Systems Group. Son coût est d'environ 1000 $.

4.8. Algorithmes d'intégrité limitée

Des algorithmes d'intégrité limités ont été proposés au milieu des années 60 m.m. Bongard pour trouver des modèles logiques dans les données. Depuis lors, ils ont démontré leur efficacité lors de la résolution de diverses tâches d'une grande variété de zones.

Ces algorithmes calculent les fréquences de combinaisons d'événements logiques simples dans les sous-groupes de données. Exemples d'événements logiques simples: x = a; X <a; X a; A <x << <B et al., Où X est n'importe quel paramètre, "A" et "B" - constantes. La limite est la longueur de la combinaison d'événements logiques simples (à M. Bongard, il était égal à 3). Sur la base de l'analyse de la fréquence calculée, une conclusion est faite sur l'utilité d'une combinaison particulière pour établir une association en données, pour la classification, la prévision, etc.

Le représentant moderne le plus vivant de cette approche est le système WizWhy d'entreprises de WizSoft. Bien que l'auteur du système Abraham Maidan ne divulguait pas les détails de l'algorithme basé sur les travaux de Wizwhy, selon les résultats d'essais approfondis du système, des conclusions ont été apportées sur la présence d'une intégrité limitée (les résultats ont été étudiés, en fonction de au moment de leurs paramètres analysés, etc.).

L'auteur wizwhy soutient que son système détecte TOUT Logique Si, puis règles dans les données. En fait, c'est bien sûr pas le cas. Premièrement, la longueur maximale de la combinaison de la règle IF-alors dans le système WIZWHY est de 6 et, deuxièmement, dès le début des travaux de l'algorithme, une recherche heuristique d'événements logiques simples est produit, sur lequel l'ensemble du Une analyse plus poussée est construite. Réaliser ces caractéristiques de WIZWHY, il n'était pas difficile d'offrir la tâche de test la plus simple que le système ne pouvait pas résoudre du tout. Un autre point - le système émet une décision pour un temps acceptable uniquement pour une dimension de données relativement faible.

Cependant, le système WizWhy est aujourd'hui l'un des dirigeants du marché des produits miniers de données. Ce n'est pas dépourvu de motifs. Le système démontre constamment des performances plus élevées lors de la résolution de tâches pratiques que tous les autres algorithmes. Le coût du système est d'environ 4 000 dollars, le nombre de ventes est de 30000.

  Moins (<).

Figure 7. Le système WIZWHY a découvert les règles expliquant le faible rendement de certaines sections agricoles.

4.9 Systèmes de visualisation de données multidimensionnelles

Pour ce faire, tous les moyens d'affichage des données graphiques sont pris en charge par tous les systèmes d'extraction de données. Dans le même temps, une part de marché très impressionnante est occupée par des systèmes spécialisés exclusivement sur cette fonction. Un exemple ici est le programme DataMiner 3D Slovak Firmension5 (5ème mesure).

Dans ces systèmes, la mise au point sur la convivialité de l'interface utilisateur, qui vous permet d'associer aux indicateurs analysés, divers paramètres de la carte de diffusion des objets (entrées) de la base de données. Ces paramètres incluent la couleur, la forme, l'orientation par rapport à son propre axe, de tailles et d'autres propriétés d'éléments graphiques de l'image. De plus, les systèmes de visualisation des données sont équipés d'outils pratiques pour la mise à l'échelle et la rotation des images. Le coût des systèmes de visualisation peut atteindre plusieurs centaines de dollars.

  Moins (<).

Figure 8. Système de visualisation des données DataMiner 3D

5. Résumé

  1. Le marché des systèmes de mines de données est en développement de manière exponentielle. Dans ce développement, presque toutes les grandes entreprises participent. En particulier, Microsoft dirige directement le grand secteur de ce marché (publie un magazine spécial, effectue des conférences, développe ses propres produits).
  2. Les systèmes d'exploration de données sont utilisés dans deux directions principales: 1) En tant que produit massif pour les applications métier; 2) En tant qu'utiles pour effectuer des études uniques (génétique, chimie, médecine, etc.). Actuellement, le coût du produit de masse de 1 000 $ à 10 000 $. Le nombre d'installations de produits de masse, à en juger par les informations disponibles, traduit aujourd'hui des dizaines de milliers. Les dirigeants d'extraction de données relient l'avenir de ces systèmes en les utilisant comme des applications intelligentes intégrées aux entrepôts de données d'entreprise.
  3. Malgré l'abondance des méthodes d'exploration de données, la priorité est progressivement déplacée vers des algorithmes de recherche logiques dans les règles IF-alors. Avec leur aide, les tâches de la prévision, de la classification, de la reconnaissance d'images, de la segmentation de la base de données, de l'extraction des données des données "cachées" connaissances, interprétation des données, la création d'associations dans la base de données, etc. Les résultats de ces algorithmes sont efficaces et facilement interprété.
  4. Dans le même temps, le problème principal des méthodes logiques de détection de schémas est le problème des options existantes pour un temps acceptable. Les méthodes bien connues limitent artificiellement un tel buste (algorithmes de l'écorce, wizwhy) ou construisent des arbres de solutions (chariot, Pièces, ID3, See5, algorithmes de Sipina, etc.), qui ont des restrictions fondamentales sur l'efficacité de la recherche ifr règles. D'autres problèmes sont liés au fait que les méthodes connues de recherche de règles logiques ne prennent pas en charge la fonction de généralisation des règles trouvées et la fonction de trouver la composition optimale de ces règles. Une décision réussie de ces problèmes peut faire l'objet d'un nouveau développement concurrentiel.

Littérature

  1. Awazean S. A., Buchstab V. M., Yunukov I. S., Meshalkin L. D. Statistiques appliquées: Classification et réduction de la dimension. - M.: Finances et statistiques, 1989.
  2. Découverte des connaissances grâce à la découverte de données: quelle est la découverte de la connaissance "- Tandem Computers Inc., 1996.
  3. Robes n .. Produits pour une analyse de données intelligente. - Marché logiciel, N14-15_97, c. 32-39.
  4. Boulon K. E. Théorie des systèmes généraux - Squelette de Science // Science de la gestion, 2, 1956.
  5. Gick J., Van. Théorie du système général appliquée. - M.: MIR, 1981.
  6. Kiselev M., Solomatin E .. Fonds de connaissance des connaissances en entreprise et en finance. - Systèmes ouverts "4, 1997, p. 41-44.
  7. Duke V.A. Traitement des données sur un PC dans les exemples. - Saint-Pétersbourg: Peter, 1997.

Auteur: V.dyuk

Data Mining est un moyen d'analyser des données conçues pour rechercher des modèles précédemment inconnus dans de grandes matrices d'informations. Ces modèles permettent de prendre des décisions de gestion efficaces et d'optimiser les processus métier.

Cet article racontera les domaines d'application de la technologie des données minières.

Zones d'application des mines de données

Les méthodes d'exploration de données sont activement utilisées dans le commerce électronique, Fintech, elle. Outils d'exploitation des données Outils donne aux analystes la possibilité de résoudre une grande variété de problèmes, par exemple:

  • déterminer les besoins et les désirs des clients;

  • identification des clients apportant un bénéfice maximal;

  • augmentation de la fidélité, attirant et tenant des clients;

  • Analyse de l'efficacité des dépenses pour la promotion de biens et services.

Tâches de technologie des mines de données

La technologie des mines de données effectue les tâches suivantes:

Classification de la tâche - Définition de la catégorie pour chaque objet de l'étude. Dans le domaine de la Fintech, une telle tâche sera l'évaluation de la solvabilité des emprunteurs potentiels. Cela contribuera à réduire les risques de perte de fonds lors de la collaboration avec des clients non crédibles;

Prévision des problèmes , c'est-à-dire identifier de nouvelles valeurs possibles dans une séquence numérique spécifique. Dans le commerce électronique, cette tâche est résolue pour les prix prédéfinis en fonction des saisons et des tendances. Pour cela, vous pouvez prédire le niveau de vente;

Problème de clustering (segmentation) - Répartition de nombreux objets sur des groupes pour tous les signes. Par exemple, la segmentation des données sur les acheteurs en ligne en ligne par âge, sexe ou préférences aide à former des suggestions spéciales pour chaque groupe;

La tâche de déterminer les interconnexions - Identifier la fréquence des objets d'objets survenants entre de nombreux ensembles. Cette méthode aide notamment à déterminer la composition du panier de consommation et optimiser l'emplacement des informations sur les produits connexes dans la boutique en ligne;

Analyse de la tâche des séquences - Identifier les modèles dans les séquences d'événement. Cette analyse peut être utilisée pour suivre les pages sur lesquelles les visiteurs interrompent le plus souvent la vue du site. Cette façon de travailler avec des données vous permet d'éliminer les lacunes des sites et d'accroître sa présence;

La tâche d'analyser les déviations - Déterminer des données de manière significative différente de la norme. Cette analyse est utilisée dans Fintech pour identifier les opérations frauduleuses avec des cartes bancaires. Il vous permet de garantir une protection fiable du client.

Mining de données de formation

L'analyse des données d'exploration de données est l'une des compétences nécessaires à la gestion des activités de gestion; par conséquent, le HSE HSE invite tous ceux qui souhaitent augmenter leur niveau professionnel, à la reconquisition du programme "Outils of Business Analytics", dans lequel la formation théorique et pratique à collecter et traiter les données utilisant des technologies numériques modernes pour obtenir des solutions de gestion efficaces et non triviales.

Vous pouvez vous inscrire à la formation dans ce programme sur notre site Web.

← Retour à la liste

Mining de données - Technologie de production de données

1. Qu'est-ce que l'exploitation minière de données?

Les documents miniers se traduisent par "mines"

ou "excavation de données". Souvent à côté de l'exploitation minière des données

Il y a des mots "détection de connaissances dans des bases de données

données "(découverte de connaissances dans des bases de données) et

"Analyse de données intelligente". Ils peuvent être

  • Les données ont un volume illimité
  • Compter les données de synonymes miniers. L'émergence de tous
  • Les résultats doivent être spécifiques et compréhensibles.
  • Ces termes sont associés au nouveau tour

Développement de fonds et méthodes de traitement de données. Avant le début des années 1990, des personnes qui n'avaient pas l'idée de reconnaître les images et l'analyse des facteurs semblaient non Nécessité spéciale de repenser la situation dans cette

Zones. Tout s'est allé à moi-même dans le cadre de Fragments Directions appelées statistiques appliquées Sous-sections de données (Voir par exemple, [1]). Les théoriciens ont été effectués

Conférences et séminaires ont écrit impressionnant

OLAP.

Mining de données.

Articles et monographies ont abouti

Calculs analytiques.

Dans le même temps, les pratiquants savaient toujours

qui tente d'appliquer des exercices théoriques

Pour résoudre des problèmes réels dans la plupart des cas

se révéler pour être sans fruit. Mais pour préoccupation

praticiens jusqu'à ce que l'heure ne puisse pas

Figure 1. Niveaux de connaissances extraites des données

payer une attention particulière - ils ont résolu le principal

Ses problèmes de traitement privé

Petites bases de données locales. - Et l'appel a sonné. En connexion avec

Améliorer les technologies d'enregistrement et de stockage

Données sur les personnes Colossal Streams Hit

Minerai d'information dans une grande variété de domaines.

Activité de toute entreprise (commerciale, Fabrication, médical, scientifique, etc.) Maintenant accompagné d'inscription et d'enregistrement Tous les détails de ses activités. Que faire avec Cette information? Il est devenu clair que sans Recyclage productif des flux de données bruts Former quiconque pas la décharge nécessaire. Spécificité des exigences modernes pour Un tel recyclage est le suivant: Les données sont hétérogènes (quantitative, Cette information? Il est devenu clair que sans haute qualité, textuelle)

Les outils de traitement des données de pluie devraient être facile à utiliser

Mathématique traditionnelle statistiques, pendant une longue réclamation

L'outil d'analyse de données principale, franchement sauvé face à l'arisen

Problèmes. Raison principale - concept

En moyenne par échantillon conduisant à des opérations

Sur des valeurs fictives (type de type moyenne Températures de patients à l'hôpital, au milieu

Hauteurs de la maison dans la rue composée de palais et cabane, etc.). Méthodes de statistiques mathématiques

s'est avéré utile principalement pour Chèques à l'avance des hypothèses formulées (Exploitation de données axée sur la vérification) et pour l'exploration «grossière» Analyse qui constitue la base de la fonction opérationnelle Données de traitement analytique (traitement analytique en ligne, .

OLAP).

La base des mines de données de technologie modernes (Exploitation de données à la découverte) Concept de modèle collé

(motifs) réfléchissant

relations multidimensionnelles dans les données. Celles-ci Les modèles sont des motifs,

  • particulier cette
  • peut être compactement exprimé en compréhensible Homme en forme. Modèles de recherche produits Méthodes non limitées à une priori hypothèses sur la structure de l'échantillon et de la forme
  • Distributions de valeurs analysées indicateurs. Exemples de tâches pour une telle recherche lorsque
  • L'utilisation de l'exploitation minière de données est donnée dans le tableau. une. Tableau 1. Exemples de libellé de tâche lors de l'utilisation de méthodes OLAP et d'extraction de données
  • Quelles sont les moyennes Blessure pour fumer et non-fumeur?
  • Sont exacts Modèles dans des descriptions de personnes soumises à
  • Blessure accrue? Quelles sont la taille moyenne
  • Comptes téléphoniques des clients existants dans Comparaison avec les comptes des anciens clients
  • (refusé des services d'une compagnie de téléphone)? Êtes-vous caractéristique
  • portraits de clients susceptibles de va abandonner les services téléphoniques

Entreprises?

Quelle est la valeur moyenne shopping quotidien sur volé et non volé

Clustering carte de crédit?

Association Il y a stéréotypique

Schémas commerciaux pour cas de fraude cartes de crédit?

Mining de la position importante de la position - Non-provisoire des modèles recherchés. ce

signifie que les modèles trouvés doivent réfléchir régularité non évidente et inattendue (inattendue) dans

Données constituant soi-disant cachée Connaissances (connaissances cachées). La sensibilisation est venue à la société

que les données brutes (données brutes) contiennent une couche profonde connaissances, avec une excavation compétente qui peut

Les vraies nuggets sont détectées (Fig. 1). Définition des mines de données

En général, la technologie de mines à données suffit détermine avec précision Grigory Piatuetsky-Shapiro -

Un des fondateurs de cette direction:

Mining de données.

C'est le processus de détection des données brutes des interprétations précédemment inconnues, non triviales, pratiquement utiles et abordables des connaissances nécessaires à la prise de décision dans divers domaines de l'activité humaine.

  • L'essence et le but de la technologie des mines de données peuvent être décrits comme suit:
  • technologie conçue pour rechercher de grandes quantités de données
  • Non évident, objectif et utile dans les modèles de pratique. Pas évident -

Cela signifie que les régularités trouvées ne sont pas détectées par des méthodes standard.

Traitement de l'information ou expert. Objectif - cela signifie que

Les modèles détectés seront pleinement conformes à la réalité, dans

2.1. Quelques applications métiers d'extraction de données

Vendre au détail
Bancaire
Télécommunications
Assurance
La différence de l'avis d'experts, qui est toujours subjective. Pratiquement

Vendre au détail

utile - cela signifie que les conclusions ont une valeur spécifique qui peut

  • Analyse du panier d'achat Trouver une application pratique. (Grigory Piatsky-Shapiro)
  • Étude des modèles temporaires Méthodes d'analyse de données traditionnelles (méthodes statistiques) et OLAP principalement
  • Création de modèles prédictifs orienté pour vérifier les hypothèses préalablement formulées (entraînant la vérification

Bancaire

Mining de données) et sur l'analyse d'exploration «rugueuse», qui constitue la base de l'opérationnel

  • Traitement analytique, OLAP), à cette époque Comme l'une des principales dispositions de l'exploitation minière de données - rechercher des schémas non évidents.
  • Segmentation des clients Les outils d'extraction de données peuvent trouver de telles régularités de manière indépendante et
  • Prévision de la clientèle change Également créer de manière indépendante des hypothèses sur les relations. Puisque c'est

Télécommunications

Le libellé de l'hypothèse par rapport aux dépendances est la tâche la plus difficile,

  • L'avantage des mines de données par rapport aux autres méthodes d'analyse est évident.
  • Détection de la fidélité des clients Concepts de base

Assurance

Concept générique et espèce

  • Détection de fraude - La notion de charcuterie est
  • Analyse de risque générique

Autres applications en entreprise

, mais

  • Développement de l'industrie automobile Ses membres de la division sont
  • Politique de garantie vues
  • Promotion des clients volants fréquemment Ce genre, incompatible avec l'autre,

2.2. Applications spéciales

Médicament
ceux. Ne pas intersecter en fonction de son volume (ne pas avoir d'éléments communs).
Chimie appliquée

Médicament

Nous donnons des exemples de concepts de diffusion:

Génétique moléculaire et génie génétique

En fonction de la source d'énergie

Puissances (

Chimie appliquée

rang

) Diviser sur (

3. Types de motifs

) centrales hydroélectriques,

Stations hélicoïdales, géothermie, vent et thermique (pour les variétés

Association Thermique comprend des centrales nucléaires).

Données séquences - Il s'agit d'un matériau non traité fourni par les fournisseurs.

Par Classifications données et utilisées par les consommateurs pour former des informations basées sur

Clustering Les données.

La base de toutes sortes de systèmes Prévision Un objet

4. Classes de systèmes d'extraction de données

Décrit comme un ensemble d'attributs. L'objet est également connu comme

Enregistrement, cas, exemple, chaîne de ligne, etc.

Figure 4. Produits populaires pour mines de données

4.1. Systèmes analytiques orientés indépendants

Attribut

4.2. Forfaits statistiques

- Propriété caractérisant un objet. Par exemple: couleur des yeux

L'homme, la température de l'eau, etc.Atribut appellent également une variable, champ

Tables, mesures, caractéristiques.

Agrégat général

4.3. Les réseaux de neurones

(Population) - Toute la totalité étudiée

Objets intéressés par le chercheur.

Goûter

Figure 5. Neural polynomial

4.4. Systèmes de raisonnement basés sur des cas similaires

(échantillon) - une partie de la population générale définie

La méthode est sélectionnée dans le but d'étudier et d'obtenir des conclusions sur les propriétés et

Les caractéristiques de la population en général.

Option

4.5. Arbres de décision

- Caractéristiques numériques de la population en général.

Statistiques

- Caractéristiques numériques de l'échantillon.

Hypothèse

4.6. Programmation évolutive

- Schéma de connaissances partiellement raisonnable, servant soit

Pour la communication entre différents faits empiriques, ou pour expliquer le fait ou

Le coût des systèmes est de 5 000 $.

4.7. Algorithmes génétiques

Groupe de faits. Un exemple d'hypothèse: entre l'espérance de vie et

Il y a une connexion avec la qualité. Dans ce cas, le but de l'étude peut être

Explication des modifications d'une variable spécifique, dans la présente affaire

Vie. Supposons qu'il y ait une hypothèse qui

Variable dépendante

4.8. Algorithmes d'intégrité limitée

(Espérance de vie) varie en fonction de certaines raisons (qualité

nutrition, style de vie, lieu de résidence, etc.), qui sont

Variables indépendantes

Cependant, la variable n'est pas initialement dépendante ou indépendante. Elle est

Cela devient tel après le libellé d'une hypothèse particulière. Variable dépendante TOUT Dans une hypothèse peut être indépendante à une autre.

Mesure

4.9 Systèmes de visualisation de données multidimensionnelles

- le processus d'attribution de nombres aux caractéristiques de l'étudié

Objets selon une règle spécifique.

Figure 8. Système de visualisation des données DataMiner 3D

5. Résumé

Dans le processus de préparation des données, l'objet n'est pas mesuré, mais ses caractéristiques.

Escalader

- la règle, conformément à quels objets sont assignés

Nombres. Il existe cinq types de balances de mesure: nominale, ordinale,

Intervalle, relatif et dichotomique.

Échelle nominale

Littérature

(Échelle nominale) - échelle contenant uniquement
catégories; Les données de ce type ne peuvent être commandées, elles ne peuvent pas être
Aucune action arithmétique. La balance nominale consiste en
Titres, catégories, noms de classification et de tri des objets ou
observations sur un signe. Exemple d'une telle échelle: profession, ville
Hébergement, état matrimonial. Seules de telles applications sont applicables à cette échelle.
Opérations: également (=), pas égale à ().

Échelle de la communauté (Échelle ordinale) - échelle dans laquelle les chiffres

Attribuer des objets à désigner la position relative des objets, mais pas

la taille des différences entre eux. La mesure permet de classer

Valeurs variables. Les mesures de l'échelle ordinale contiennent des informations

Seulement sur l'ordre des valeurs suivantes, mais ne vous permettez pas de dire "combien

La valeur est plus différente ", ou" à quel point il est différent ". Exemple d'une telle échelle:

Lieu (1, 2, 3ème), quelle équipe a reçu en compétition, numéro d'étudiant dans

note du progrès (1er, 23ème, etc.), alors qu'il est inconnu comment

.

Un étudiant réussi n'est connu que de son numéro dans le classement. Pour cette échelle Échelle d'intervalleEn vigueur
Seulement de telles opérations: égale à (=), pas égale à (), plus (>),
(Échelle d'intervalle) - échelle, différence entre  Les valeurs dont peuvent être calculées, mais leurs relations n'ont pas

Add a Comment