KDD versus datamining
KDD (Knowledge Discovery in Databases) is een gebied van de informatica, dat de tools en theorieën omvat om mensen te helpen bij het extraheren van nuttige en voorheen onbekende informatie (d.w.z. kennis) uit grote verzamelingen gedigitaliseerde gegevens. KDD bestaat uit verschillende stappen en Data Mining is er één van. Datamining is het toepassen van een specifiek algoritme om patronen uit data te halen. Niettemin worden KDD en Data Mining door elkaar gebruikt.
Wat is KDD?
Zoals hierboven vermeld, is KDD een gebied van informatica, dat zich bezighoudt met het extraheren van voorheen onbekende en interessante informatie uit onbewerkte gegevens. KDD is het hele proces van proberen gegevens te begrijpen door geschikte methoden of technieken te ontwikkelen. Dit proces gaat over het in kaart brengen van gegevens op laag niveau in andere vormen die compacter, abstracter en nuttiger zijn. Dit wordt bereikt door korte rapporten te maken, het proces van het genereren van gegevens te modelleren en voorspellende modellen te ontwikkelen die toekomstige gevallen kunnen voorspellen. Vanwege de exponentiële groei van gegevens, vooral in gebieden zoals het bedrijfsleven, is KDD een zeer belangrijk proces geworden om deze grote schat aan gegevens om te zetten in business intelligence, aangezien handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Het wordt bijvoorbeeld momenteel gebruikt voor verschillende toepassingen, zoals analyse van sociale netwerken, fraudedetectie, wetenschap, investeringen, productie, telecommunicatie, gegevensopschoning, sport, het ophalen van informatie en grotendeels voor marketing. KDD wordt meestal gebruikt om vragen te beantwoorden zoals wat zijn de belangrijkste producten die kunnen helpen om volgend jaar hoge winst te behalen in Wal-Mart?. Dit proces kent verschillende stappen. Het begint met het ontwikkelen van inzicht in het toepassingsdomein en het doel en vervolgens het creëren van een doeldataset. Dit wordt gevolgd door het opschonen, voorbewerken, verkleinen en projecteren van gegevens. De volgende stap is het gebruik van Data Mining (hieronder uitgelegd) om patronen te identificeren. Ten slotte wordt ontdekte kennis geconsolideerd door visualisatie en/of interpretatie.
Wat is datamining?
Zoals hierboven vermeld, is datamining slechts een stap binnen het algehele KDD-proces. Er zijn twee belangrijke Data Mining-doelen zoals gedefinieerd door het doel van de applicatie, en ze zijn namelijk verificatie of ontdekking. Verificatie verifieert de hypothese van de gebruiker over gegevens, terwijl ontdekking automatisch interessante patronen vindt. Er zijn vier belangrijke dataminingtaken: clustering, classificatie, regressie en associatie (samenvatting). Clustering is het identificeren van vergelijkbare groepen uit ongestructureerde gegevens. Classificatie is leerregels die kunnen worden toegepast op nieuwe gegevens. Regressie is het vinden van functies met minimale fouten om gegevens te modelleren. En associatie is op zoek naar relaties tussen variabelen. Vervolgens moet het specifieke datamining-algoritme worden geselecteerd. Afhankelijk van het doel kunnen verschillende algoritmen zoals lineaire regressie, logistische regressie, beslissingsbomen en Naïeve Bayes worden geselecteerd. Vervolgens wordt gezocht naar interessante patronen in een of meer representatieve vormen. Ten slotte worden modellen geëvalueerd met behulp van voorspellende nauwkeurigheid of begrijpelijkheid.
Wat is het verschil tussen KDD en datamining?
Hoewel de twee termen KDD en datamining veelvuldig door elkaar worden gebruikt, verwijzen ze naar twee verwante maar enigszins verschillende concepten. KDD is het algehele proces van het extraheren van kennis uit gegevens, terwijl datamining een stap is binnen het KDD-proces, dat zich bezighoudt met het identificeren van patronen in gegevens. Met andere woorden, datamining is slechts de toepassing van een specifiek algoritme op basis van het algemene doel van het KDD-proces.