Glossaire Big Data

Termes Big Data & Hadoop

A

ACID

Atomicité, Cohérence, Isolation, Durabilité — propriétés garantissant la fiabilité des transactions de bases de données.

Agrégation

Regroupement et calcul (COUNT, SUM, AVG) sur plusieurs lignes pour produire une valeur synthétique.

B

Big Data (3V)

Volume (grande quantité), Vélocité (vitesse d'arrivée), Variété (types de données). Parfois étendu à 5V avec Véracité et Valeur.

Block HDFS

Unité de base de stockage HDFS (128 Mo par défaut). Un fichier est découpé en blocs répartis sur les DataNodes.

Bucket (bucketing)

Technique Hive pour diviser les données d'une table en fichiers distincts basés sur le hash d'une colonne, optimisant les jointures.

C

Cluster

Ensemble de machines (nœuds) travaillant ensemble pour former un système distribué.

Colonne (base orientée)

Stockage des données colonne par colonne (vs ligne par ligne). Optimal pour les analyses (lecture de quelques colonnes sur millions de lignes). Ex: Parquet, ORC, HBase.

Consumer Group (Kafka)

Groupe de consommateurs Kafka qui se répartissent la lecture des partitions d'un topic pour un traitement parallèle.

D

DAG (Directed Acyclic Graph)

Graphe orienté sans cycle utilisé pour représenter des pipelines de traitement. Utilisé par Spark, Tez, Airflow.

DataNode

Nœud HDFS qui stocke physiquement les blocs de données. Un cluster peut avoir des centaines de DataNodes.

DataFrame

Structure de données Spark (similaire à une table SQL) avec un schéma typé. API de haut niveau pour la manipulation de données.

E

ETL

Extract, Transform, Load — processus d'extraction de données depuis des sources, de transformation et de chargement vers une destination (datawarehouse).

Executor (Spark)

Processus JVM sur un nœud du cluster qui exécute les tâches Spark et stocke les données en mémoire ou sur disque.

F

Fault Tolerance

Capacité d'un système à continuer de fonctionner malgré les pannes de composants. Assuré par la réplication dans HDFS et le lineage dans Spark.

Format Parquet

Format de stockage en colonnes, compressé et efficace, utilisé par Hive, Spark, Impala. Optimisé pour les analyses.

Format ORC

Optimized Row Columnar — format colonaire d'Apache Hive, avec indexation interne et compression efficace.

H

HA (High Availability)

Haute disponibilité. HDFS HA utilise 2 NameNodes (actif/standby) coordonnés par ZooKeeper pour éviter le SPOF.

HiveQL

Dialect SQL d'Apache Hive, similaire au SQL standard avec des extensions pour les partitions, buckets et UDFs Hadoop.

L

Lineage (Spark)

Graphe de dépendances des transformations RDD. Permet de recalculer les partitions perdues sans relire depuis le disque.

Log distribué (Kafka)

Structure de données append-only persistante qui stocke les messages Kafka dans l'ordre d'arrivée par partition.

M

Metastore (Hive)

Base de données relationnelle (MySQL/PostgreSQL) qui stocke les métadonnées Hive : schéma des tables, partitions, localisation HDFS.

MPP (Massively Parallel Processing)

Architecture d'Impala où chaque nœud traite une portion des données en parallèle, sans coordination centralisée.

N

NameNode

Nœud maître HDFS qui gère les métadonnées (quel fichier = quels blocs = quels DataNodes). Point névralgique du cluster.

NoSQL

Famille de bases de données non-relationnelles (clé-valeur, document, colonnes, graphe) optimisées pour la scalabilité horizontale.

P

Partition (Hive)

Division physique d'une table Hive en sous-répertoires HDFS selon les valeurs d'une colonne (ex: year=2024/month=01). Accélère les requêtes par élimination des partitions non lues.

Partition (Kafka)

Division d'un topic Kafka permettant le parallélisme. Chaque partition est un log ordonné sur un broker.

PB (Pétaoctet)

1 000 Téraoctets = 1 000 000 Gigaoctets. Unité de mesure caractéristique des clusters Hadoop industriels.

R

RDD (Resilient Distributed Dataset)

Abstraction fondamentale de Spark : collection distribuée, immutable et tolérante aux pannes d'éléments répartis sur le cluster.

RBAC

Role-Based Access Control — contrôle d'accès basé sur les rôles. Utilisé par Ranger pour gérer les permissions Hadoop.

Réplication

HDFS copie chaque bloc sur 3 DataNodes par défaut (configurable). La perte d'un nœud n'entraîne pas de perte de données.

S

Shuffle (MapReduce/Spark)

Phase de redistribution des données entre les nœuds après le Map pour regrouper les clés identiques avant le Reduce. Coûteuse en réseau.

SPOF (Single Point of Failure)

Composant dont la panne arrête tout le système. Le NameNode est le SPOF d'HDFS — d'où l'architecture HA.

Streaming

Traitement des données en flux continu, en temps quasi-réel. Kafka + Spark Streaming est la combinaison la plus courante.

T

Tolérance aux pannes

Voir Fault Tolerance. Propriété essentielle des systèmes distribués comme Hadoop.

Topic (Kafka)

Catégorie logique dans Kafka. Les producteurs écrivent dans des topics, les consommateurs lisent depuis des topics.

Y

YARN Container

Unité d'allocation de ressources YARN (CPU + RAM). Chaque tâche MapReduce ou Spark s'exécute dans un conteneur.

Z

Znode (ZooKeeper)

Nœud dans l'arbre de données ZooKeeper. Peut stocker de petites données de configuration ou servir de verrou distribué.