vendredi 10 septembre 2010

Pentaho Data Integration

L'informatique décisionnelle (" Business Intelligence - BI " en anglais, ça fait tout de suite plus glamour) fait référence à " l'exploitation des données de l'entreprise dans le but de faciliter la prise de décision ". Des suites logicielles se proposent de prendre en charge le processus complet. J'ai choisi de mettre en avant la suite Open Source Pentaho, mais les principes énoncés sont valables pour la grande majorité des logiciels du domaine.

Il existe deux versions de Pentaho. L'édition entreprise est payante, elle donne accès à une assistance. Je ne l'ai pas testée. La " Community Edition " (Pentaho CE) est téléchargeable librement. Elle est développée et maintenue par une communauté de développeurs. Je ne situe pas bien différences entre les deux versions. Pour ma part, je me suis focalisé sur la version non payante, pour que tout un chacun puisse reproduire les opérations que je décris.

Ce document présente la mise en oeuvre de Pentaho Data Integration Community Edition (PDI-CE, appelée également Kettle), l'outil ETL de la suite Pentaho CE. Je me contente d'une description succincte pour deux raisons : ce type d'outil n'entre pas directement dans mon champ de compétences (qui est le data mining) ; j'en parle surtout pour préparer un prochain tutoriel dans lequel je montre le déploiement de modèles élaborés à l'aide de Knime, Sipina ou Weka via PDI-CE.

Mots-clés : ETL, pentaho data integration, community edition, kettle, extraction de données, importation de données, alimentation, transformation, businness intelligence, informatique décisionnelle
Didacticiel : PDI-CE
Données : titanic32x.csv.zip
Références :
Comment ça marche.net, "Informatique décisionnelle (Business Intelligence)"
Pentaho, Pentaho Community