MicroStrategy Data Mining Services

Ämne: Blogg

Data mining funktionalitet introducerades i MicroStrategy redan 2005 i version 8.0 men sedan dess har det inte hänt jättemycket. Det känns som om MicroStrategy har fokuserat på att kunna leverera resultatet av data mining på ett effektivt sätt baserat på modeller tränade i andra programvaror istället för att bygga ett komplett data mining verktyg, vilket förmodligen är väldigt sunt.

Det finns dock stöd för att träna egna modeller direkt i MicroStrategy. Om man vill träna sin data mining modell i MicroStrategy skapar man ett nytt ”Inlärningsmått”. Man får då följande alternativ

  • Regression
    Linjär, Exponentiell, Logistisk
  • Klustring
    K-means
  • Beslutsträd
    Klassifiering och regressionsträd (CART)
  • Tidsserier
    Trender, Perioder
  • Association
    APRIORI liknande algoritm
Algoritmerna som finns i MicroStrategy räcker nog till för en hel del typer av problem. Man har dock inte möjlighet att finjustera några parametrar i algoritmerna utan får nöja sig med standardinställningar. De parametrar som man kan sätta beror på vilken modell man har valt att träna, men det är de obligatoriska som t.ex. antalet uppdelningar för korsvalidering eller antalet kluster. Vill man optimera träningen eller göra någonting mer måste man använda sig av annan programvara för att skapa modellen och sedan exportera den i PMML format för att använda den i MicroStrategy istället.

I data mining så tränar man först en modell med hjälp av historiskt data som man sedan generaliserar och använder för att prediktera nytt data. Det finns tre alternativ för hur man använder data mining modeller för att prediktera nytt data i MicroStrategy.

Det första alternativet är att använda en annan programvara för att prediktera allt nytt data i en batch och sedan skriva tillbaka detta till databasen. Sedan mappar man upp resultatet som attribut eller mått i MicroStrategy och använder i sina rapporter. I detta fall används MicroStrategy endast för att distribuera data mining resultatet från databasen ut till användarna. Fördelen med detta är att det går snabbt att öppna rapporterna eftersom inga beräkningar behöver göras realtid, men nackdelen är att nytt data som inte fanns med i batchen saknar predikteringar.

Om man har en databas som har inbyggd data mining funktionalitet exponerad via SQL kan MicroStrategy utnyttja detta. Man kan då mappa upp så att databasen beräknar prediktionen i realtid när en MicroStrategy rapport kräver detta. Även i detta fall används MicroStrategy endast för att distribuera data mining resultatet från databasen ut till användarna. Fördelen med detta är dock att nytt data också kan predikteras.

Det tredje och sista alternativet är att låta MicroStrategy beräkna predikteringarna, oavsett om man har valt att träna modellen i MicroStrategy eller importerat den via PMML från annan programvara. Fördelen med detta är att MicroStrategy beräknar predikteringarna i realtid vilket gör att nytt data också kan predikteras. Nackdelen är att ifall man har en komplex modell eller mycket data som ska predikteras kan datasetet som måste skickas från databasen till MicroStrategy bli stort och predikteringen kan bli långsam.

Det finns inget rätt eller fel utan val av lösning beror väldigt mycket på behovet, kompetens, typ av databas och data mängden. Oavsett vilket kan man hitta ett effektivt sätt att använda MicroStratgy på ett eller annat sätt i sin data mining analys.