MicroStrategy Data Mining Datasets

Ämne: Avancerad Analys

I mitt förra inlägg beskrev jag olika sätt att använda MicroStrategy i sin data mining analys. I detta inlägg beskriver jag mer i detalj vad som krävs om man väljer att låta MicroStrategy beräkna predikteringarna.

När man ska använda sig av data mining funktionaliteten i MicroStrategy krävs det en del arbete med att förbereda datat. Datat ska ha en väldigt ”simpel” struktur som MicroStrategy nämner i dokumentationen men detta innebär att man måste skapa en massa mått innan man kan sätta igång. Man kan nämligen inte använda attribut för att gruppera mått som används i data mining rapporter utan man måste skapa filtrerade mått för varje grupp.

Låt säga att man till exempel vill analysera sina kunder och ha med variabler för hur mycket pengar varje kund spenderar i respektive produktgrupp och man har 40 produktgrupper. Då kräver detta att man skall skapa 40 filtrerade mått … många mått blir det! Det gör det väldigt opraktiskt att utveckla och testa olika representationer av datat för att se vad som ger bäst resultat. Det finns helt klart fall då man har en modell med ett statiskt, relativt litet, antal oberoende variabler. Det skulle t.ex. kunna vara en risk scoring där man tittar på demografi och några nyckeltal baserat på historiskt beteende. I dessa fall görs uppmappningen av alla mått en gång och det räcker.

När man däremot har kommit fram till en modell som man har tänkt använda i produktion är det mer rimiligt att mappa upp alla dessa mått en gång för alla, såvida man inte har en modell som kräver hundratals eller tusentals mått i MicroStrategy. Då bör man nog se efter andra alternativ eller enklare representation av datat. Det man vill uppnå är i alla fall ett dataset som har endast ett attribut samt ett antal mått som är oberoende variabler som skall prediktera ett sista mått som är den beroende variabeln (vid regression och klassifiering).

Som sagt så finns det helt klart användningsområden där det finns fördelar att låta MicroStrategy sköta beräkningarna av predikteringarna, men generellt sätt anser jag att begränsningar i hur man måste hantera de oberoende variablerna gör att man bör fundera en extra gång över vilket alternativ som är bäst.

Mer information och detaljer data mining datasets finns i MicroStrategys dokumentation ”AdvancedReporting.pdf” under kapitel 13 ”Data Mining Services”.