Testkör Pentaho Data Integration med Hadoop

Ämne: BI-verktyg

Här kommer en kortfattad genomgång av vad som krävs för att komma igång och testa Pentaho Data Integration (PDI) tillsammans med Hadoop. Exemplet beskriver en installation av följande

  • Ubuntu 12.04.2 LTS
  • Pentaho Data Integration 4.4.0-CE
  • CDH4 with MRv1 on a Single Linux Node in Pseudo-distributed mode

Förberedelser

Ett enkelt sätt att komma igång och test Pentaho Data Integration tillsammans med Hadoop är att sätta upp en virtuell miljö för att slippa installera allting i sitt lokala operativsystem. Nedan är en lista med länkar för att köra VirtualBox med Ubuntu och Clouderas Hadoop distribution. Jag kommer inte gå in på detalj på hur man installera detta då det finns väl beskrivet på respektive site. Ifall man redan har en Hadoop miljö installerad och vill testa Pentaho Data Integration kan man hoppa över detta till nästa avsnitt.

  • VirtualBox
    https://www.virtualbox.org/wiki/Downloads
  • Ubuntu Desktop 12.04 LTS
    http://www.ubuntu.com/download/desktop
  • Oracle JDK 6
    http://www.oracle.com/technetwork/java/javase/downloads/index.html
  • CDH4 with MRv1 on a Single Linux Node in Pseudo-distributed mode
    http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Quick-Start/cdh4qs_topic_3_2.html

Pentaho Data Integration

Börja med att ladda ner Pentaho Data Integration CE 4.4.0 (PDI) från följande länk
http://sourceforge.net/projects/pentaho/files/Data%20Integration/4.4.0-stable/

Det krävs ingen installation av PDI utan det är bara att packa upp filen till din hemkatalog /home/jonas/pentaho/design-tools/ (ersätt jonas med din användare). Observera att PDI installeras bara som en klient och inte på noderna i Hadoop klustret ifall du redan har en Hadoop miljö installerad.

Ubuntu 12.04 saknar de xulrunner bibliotek som används av PDI för att köra den integrerade webbläsaren (Mozilla Firefox). Lösningen är att ladda ner följande två filer (ifall du kör ett annat operativsystem är detta förmodligen inte nödvändigt)

http://nl.archive.ubuntu.com/ubuntu/pool/main/h/hunspell/libhunspell-1.2-0_1.2.14-4_amd64.deb http://security.ubuntu.com/ubuntu/pool/universe/x/xulrunner-1.9.2/xulrunner-1.9.2_1.9.2.28+build1+nobinonly-0ubuntu0.11.04.1_amd64.deb

Installera paketen genom att köra
# sudo dpkg -i libhunspell-1.2-0_1.2.14-4_amd64.deb
# sudo dpkg -i xulrunner-1.9.2_1.9.2.28+build1+nobinonly-0ubuntu0.11.04.1_amd64.deb

Sätt sedan MOZILLA_FIVE_HOME miljövariabeln genom att t.ex. i filen /etc/profile lägga till följande rad
export MOZILLA_FIVE_HOME=/usr/lib/xulrunner-1.9.2.28

Nu är PDI installerat och det återstår att konfigurera PDI för att fungera med CDH4.

Konfigurera PDI för CDH4

Det första som vi måste göra är att skapa en mapp i HDFS där användaren som kör PDI har skriv rättigheter.
# hadoop fs -mkdir /user/jonas/pentaho-mapreduce/

Sen sätter vi följande properties i filen
/home/jonbjo/pentaho/design-tools/data-integration/plugins/pentaho-big-data-plugin/plugin.properties som säger att vi använder just CDH4 och vilken mapp vi precis har skapat i HDFS

active.hadoop.configuration=cdh4
pmr.kettle.dfs.install.dir=/user/jonas/pentaho-mapreduce

Nu är allting konfigurerat och färdigt att börja använda. Det finns ett antal exempel att testa på http://wiki.pentaho.com/display/BAD/Hadoop.