Verschil tussen datamining en OLAP

Verschil tussen datamining en OLAP
Verschil tussen datamining en OLAP
Anonim

Datamining versus OLAP

Zowel datamining als OLAP zijn twee van de meest voorkomende Business Intelligence (BI)-technologieën. Business intelligence verwijst naar computergebaseerde methoden voor het identificeren en extraheren van nuttige informatie uit bedrijfsgegevens. Datamining is het gebied van de informatica dat zich bezighoudt met het extraheren van interessante patronen uit grote hoeveelheden gegevens. Het combineert vele methoden uit kunstmatige intelligentie, statistiek en databasebeheer. OLAP (online analytische verwerking) is, zoals de naam al doet vermoeden, een compilatie van manieren om multidimensionale databases te doorzoeken.

Datamining is ook bekend als Knowledge Discovery in data (KDD). Zoals hierboven vermeld, is het een gebied van informatica, dat zich bezighoudt met het extraheren van voorheen onbekende en interessante informatie uit onbewerkte gegevens. Vanwege de exponentiële groei van gegevens, vooral in gebieden zoals het bedrijfsleven, is datamining een zeer belangrijk hulpmiddel geworden om deze grote schat aan gegevens om te zetten in business intelligence, aangezien handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Het wordt bijvoorbeeld momenteel gebruikt voor verschillende toepassingen, zoals analyse van sociale netwerken, fraudedetectie en marketing. Datamining houdt zich meestal bezig met de volgende vier taken: clustering, classificatie, regressie en associatie. Clustering is het identificeren van vergelijkbare groepen uit ongestructureerde gegevens. Classificatie is leerregels die kunnen worden toegepast op nieuwe gegevens en omvat doorgaans de volgende stappen: voorverwerking van gegevens, ontwerpen van modellering, leren/functieselectie en evaluatie/validatie. Regressie is het vinden van functies met minimale fouten om gegevens te modelleren. En associatie is op zoek naar relaties tussen variabelen. Datamining wordt meestal gebruikt om vragen te beantwoorden zoals wat de belangrijkste producten zijn die kunnen helpen om volgend jaar een hoge winst te behalen in Wal-Mart.

OLAP is een klasse van systemen die antwoorden geven op multidimensionale vragen. Meestal wordt OLAP gebruikt voor marketing, budgettering, prognoses en soortgelijke toepassingen. Het spreekt voor zich dat de databases die voor OLAP worden gebruikt, zijn geconfigureerd voor complexe en ad-hocquery's met snelle prestaties in het achterhoofd. Meestal wordt een matrix gebruikt om de uitvoer van een OLAP weer te geven. De rijen en kolommen worden gevormd door de afmetingen van de query. Ze gebruiken vaak aggregatiemethoden voor meerdere tabellen om samenvattingen te verkrijgen. Kan het bijvoorbeeld worden gebruikt om te weten te komen over de verkoop van dit jaar in Wal-Mart in vergelijking met vorig jaar? Wat is de voorspelling van de verkopen in het volgende kwartaal? Wat kan er over de trend worden gezegd door naar de procentuele verandering te kijken?

Hoewel het duidelijk is dat datamining en OLAP vergelijkbaar zijn omdat ze op gegevens werken om informatie te verkrijgen, komt het belangrijkste verschil voort uit de manier waarop ze met gegevens werken. OLAP-tools bieden multidimensionale gegevensanalyse en ze bieden samenvattingen van de gegevens, maar datamining daarentegen richt zich op verhoudingen, patronen en invloeden in de gegevensset. Dat is een OLAP-deal met aggregatie, wat neerkomt op de bewerking van gegevens via "toevoeging", maar datamining komt overeen met "deling". Een ander opmerkelijk verschil is dat terwijl tools voor datamining gegevens modelleren en bruikbare regels retourneren, OLAP in re altime vergelijkings- en contrasttechnieken zal toepassen op de zakelijke dimensie.