dimanche 20 octobre 2013

La classe data frame sous R

La classe « data frame » est primordiale sous R. Elle est dédie à la gestion des ensembles de données de type individus – variables (lignes x colonnes). Ce qui correspond au format le plus répandu en statistique exploratoire et data mining.

Un objet data frame est une liste de vecteurs de même longueur. Ils représentent les variables de la base à traiter. Ils sont le plus souvent numériques (variables quantitatives) ou de type factor (variables qualitatives). Nous pouvons également considérer le data frame sous l’angle d’une matrice de valeurs. A cet égard, R propose de nombreuses fonctionnalités pour réaliser des restrictions et des projections via l’indexation par des vecteurs de booléens, qui peut éventuellement résulter d’une condition. Mettre en place des requêtes complexes devient relativement aisé.

Dans sa dernière partie, notre document présente l’utilisation des outils sapply() et lapply(). Ils sont destinés à appliquer des traitements sur les colonnes successives d’un ensemble de données en appelant des fonctions callback. Ils s’avèrent particulièrement performants par rapport à une programmation usuelle s’appuyant sur des boucles.

Mots clés : programmation r, data.frame, listes, sapply, lapply, importation de fichiers, package xlsx, excel, logiciel r
Lien : Le type data frame sous R
Références :
Vincent Goulet, " Introduction à la programmation en R ".