Différence entre KDD et Data mining

Anonim

KDD vs Data mining

KDD est un domaine de l'informatique qui comprend les outils et les théories pour aider les humains à extraire des informations utiles et inconnues (c.-à-d. des connaissances) à partir de grandes collections de données numérisées. KDD se compose de plusieurs étapes, et l'exploration de données est l'un d'entre eux. L'exploration de données est l'application d'un algorithme spécifique afin d'extraire des modèles à partir de données. Néanmoins, KDD et Data Mining sont utilisés indifféremment.

Qu'est-ce que KDD?

Comme mentionné ci-dessus, KDD est un domaine de l'informatique, qui traite de l'extraction d'informations auparavant inconnues et intéressantes à partir de données brutes. KDD est l'ensemble du processus d'essayer de donner un sens aux données en développant des méthodes ou des techniques appropriées. Ce processus traite de la cartographie des données de bas niveau dans d'autres formes qui sont plus compactes, abstraites et utiles. Ceci est réalisé en créant des rapports courts, en modélisant le processus de génération de données et en développant des modèles prédictifs permettant de prédire des cas futurs. En raison de la croissance exponentielle des données, en particulier dans des domaines tels que les affaires, la KDD est devenue un processus très important pour convertir cette grande quantité de données en intelligence d'affaires, car l'extraction manuelle des modèles est apparue impossible ces dernières décennies. Par exemple, il est actuellement utilisé pour diverses applications telles que l'analyse des réseaux sociaux, la détection des fraudes, la science, l'investissement, la fabrication, les télécommunications, le nettoyage des données, le sport, la recherche d'informations et surtout le marketing. KDD est généralement utilisé pour répondre à des questions comme quels sont les principaux produits qui pourraient aider à obtenir des bénéfices élevés l'année prochaine à Wal-Mart?. Ce processus comporte plusieurs étapes. Il commence par développer une compréhension du domaine d'application et de l'objectif, puis créer un ensemble de données cible. Ceci est suivi du nettoyage, du prétraitement, de la réduction et de la projection des données. La prochaine étape consiste à utiliser l'exploration de données (expliquée ci-dessous) pour identifier le motif. Enfin, la connaissance découverte se consolide en visualisant et / ou en interprétant.

Qu'est-ce que l'exploration de données?

Comme mentionné ci-dessus, Data Mining n'est qu'une étape du processus global de KDD. Il existe deux principaux objectifs d'exploration de données définis par l'objectif de l'application, à savoir la vérification ou la découverte. La vérification vérifie l'hypothèse de l'utilisateur sur les données, tandis que la découverte trouve automatiquement des modèles intéressants. Il existe quatre tâches principales d'exploration de données: regroupement, classification, régression et association (résumé). Le clustering identifie des groupes similaires à partir de données non structurées. La classification consiste à apprendre des règles qui peuvent être appliquées à de nouvelles données. La régression consiste à trouver des fonctions avec une erreur minimale pour modéliser les données.Et l'association cherche des relations entre les variables. Ensuite, l'algorithme d'exploration de données spécifique doit être sélectionné. En fonction de l'objectif, différents algorithmes comme la régression linéaire, la régression logistique, les arbres de décision et les Bayes Naïves peuvent être sélectionnés. Ensuite, les modèles d'intérêt dans une ou plusieurs formes de représentation sont recherchés. Enfin, les modèles sont évalués soit en utilisant l'exactitude prédictive ou la compréhensibilité.

Quelle est la différence entre KDD et Data Mining?

Bien que les deux termes KDD et Data Mining soient fortement utilisés de façon interchangeable, ils se réfèrent à deux concepts liés mais légèrement différents. KDD est le processus global d'extraction des connaissances à partir des données, tandis que Data Mining est une étape du processus KDD, qui traite de l'identification des modèles dans les données. En d'autres termes, Data Mining n'est que l'application d'un algorithme spécifique basé sur l'objectif global du processus KDD.