Datamining versus datawarehousing
Datamining en datawarehousing zijn beide zeer krachtige en populaire technieken voor het analyseren van gegevens. Gebruikers die geneigd zijn tot statistiek gebruiken Data Mining. Ze gebruiken statistische modellen om verborgen patronen in gegevens te zoeken. Dataminers zijn geïnteresseerd in het vinden van bruikbare relaties tussen verschillende data-elementen, wat uiteindelijk winstgevend is voor bedrijven. Maar aan de andere kant gebruiken data-experts die de dimensies van het bedrijf direct kunnen analyseren, datawarehouses.
Datamining is ook bekend als Knowledge Discovery in data (KDD). Zoals hierboven vermeld, is het een gebied van informatica, dat zich bezighoudt met het extraheren van voorheen onbekende en interessante informatie uit onbewerkte gegevens. Vanwege de exponentiële groei van gegevens, vooral in gebieden zoals het bedrijfsleven, is datamining een zeer belangrijk hulpmiddel geworden om deze grote schat aan gegevens om te zetten in business intelligence, aangezien handmatige extractie van patronen in de afgelopen decennia schijnbaar onmogelijk is geworden. Het wordt bijvoorbeeld momenteel gebruikt voor verschillende toepassingen, zoals analyse van sociale netwerken, fraudedetectie en marketing. Datamining houdt zich meestal bezig met de volgende vier taken: clustering, classificatie, regressie en associatie. Clustering is het identificeren van vergelijkbare groepen uit ongestructureerde gegevens. Classificatie is leerregels die kunnen worden toegepast op nieuwe gegevens en omvat doorgaans de volgende stappen: voorverwerking van gegevens, ontwerpen van modellering, leren/functieselectie en evaluatie/validatie. Regressie is het vinden van functies met minimale fouten om gegevens te modelleren. En associatie is op zoek naar relaties tussen variabelen. Datamining wordt meestal gebruikt om vragen te beantwoorden zoals wat zijn de belangrijkste producten die kunnen helpen om volgend jaar hoge winsten te behalen in Wal-Mart?
Zoals hierboven vermeld, wordt datawarehousing ook gebruikt voor het analyseren van gegevens, maar door verschillende groepen gebruikers en met een iets ander doel voor ogen. Als het bijvoorbeeld om de detailhandel gaat, zijn gebruikers van datawarehousing meer bezig met welke soorten aankopen populair zijn bij klanten, dus de resultaten van de analyse kunnen de klant helpen door de klantervaring te verbeteren. Maar dataminers vermoeden eerst een hypothese, zoals welke klanten een bepaald type product kopen en analyseren de gegevens om de hypothese te testen. Datawarehousing kan worden uitgevoerd door een grote detailhandelaar die zijn winkels aanvankelijk met producten van dezelfde grootte opslaat om er later achter te komen dat winkels in New York veel sneller kleinere voorraad verkopen dan in winkels in Chicago. Dus door naar dit resultaat te kijken, kan de winkelier de winkel in New York bevoorraden met kleinere maten in vergelijking met winkels in Chicago.
Dus, zoals je duidelijk kunt zien, lijken deze twee soorten analyses met het blote oog van dezelfde aard te zijn. Beiden maken zich zorgen over het verhogen van de winst op basis van de historische gegevens. Maar er zijn natuurlijk belangrijke verschillen. In eenvoudige bewoordingen zijn Data Mining en Data Warehousing gericht op het leveren van verschillende soorten analyses, maar zeker voor verschillende soorten gebruikers. Met andere woorden, datamining zoekt naar correlaties, patronen om een statistische hypothese te ondersteunen. Maar Data Warehousing beantwoordt een relatief bredere vraag en het snijdt en snijdt gegevens vanaf daar om manieren te herkennen voor verbetering in de toekomst.