Architecture Globale

Comment lire ce schéma ?

L'écosystème Hadoop est organisé en couches. Les couches du bas fournissent les fondations (stockage, ressources), les couches du milieu assurent le traitement, et les couches du haut exposent les interfaces utilisateur. Cliquez sur un composant pour voir sa fiche détaillée.

Stack Hadoop — Vue en couches

↕ TRANSVERSAL Sécurité & Gouvernance
COUCHE 5 — ORCHESTRATION
Apache Oozie Apache Airflow
↑↓
COUCHE 4 — REQUÊTAGE & ANALYSE
Apache Hive Apache Pig Apache Impala
↑↓
COUCHE 3 — TRAITEMENT & CALCUL
MapReduce Apache Spark Apache Tez
↑↓
COUCHE 2A — INGESTION
Kafka Flume Sqoop
COUCHE 2B — NoSQL
HBase Cassandra
↑↓

Toutes les rubriques

Stockage & Système de Fichiers

Couche fondamentale pour le stockage distribué massif des données.

HDFS Fondamental YARN Fondamental ZooKeeper Infrastructure
Traitement & Calcul

Moteurs de calcul distribué pour traiter massivement les données.

MapReduce Natif Apache Spark Populaire Apache Tez Optimisation
Requêtage & Analyse

Interfaces SQL et outils d'analyse pour interroger les données distribuées.

Apache Hive SQL Apache Pig ETL Apache Impala Temps réel
Ingestion & Collecte

Outils pour collecter et importer des données depuis diverses sources.

Apache Sqoop SGBD Apache Flume Streaming Apache Kafka Temps réel
Bases NoSQL

Bases de données distribuées pour les accès à faible latence.

Apache HBase NoSQL Apache Cassandra NoSQL
Orchestration & Workflow

Planification et automatisation des pipelines de données.

Apache Oozie Scheduler Apache Airflow Moderne
Sécurité & Gouvernance

Protection, authentification et gouvernance des données.

Apache Ranger Sécurité Apache Atlas Gouvernance