Hadoop Explorer - Écosystème Big Data

Comment lire ce schéma ?

L'écosystème Hadoop est organisé en couches. Les couches du bas fournissent les fondations (stockage, ressources), les couches du milieu assurent le traitement, et les couches du haut exposent les interfaces utilisateur. Cliquez sur un composant pour voir sa fiche détaillée.

Stack Hadoop — Vue en couches

↕ TRANSVERSAL Sécurité & Gouvernance

Apache Ranger Apache Atlas ZooKeeper

COUCHE 5 — ORCHESTRATION

Apache Oozie Apache Airflow

↑↓

COUCHE 4 — REQUÊTAGE & ANALYSE

Apache Hive Apache Pig Apache Impala

↑↓

COUCHE 3 — TRAITEMENT & CALCUL

MapReduce Apache Spark Apache Tez

↑↓

COUCHE 2A — INGESTION

Kafka Flume Sqoop

COUCHE 2B — NoSQL

HBase Cassandra

↑↓

COUCHE 1 — FONDATION : STOCKAGE & RESSOURCES

HDFS — Système de fichiers distribué YARN — Gestionnaire de ressources

Toutes les rubriques

Stockage & Système de Fichiers

Couche fondamentale pour le stockage distribué massif des données.

HDFS Fondamental YARN Fondamental ZooKeeper Infrastructure

Traitement & Calcul

Moteurs de calcul distribué pour traiter massivement les données.

MapReduce Natif Apache Spark Populaire Apache Tez Optimisation

Requêtage & Analyse

Interfaces SQL et outils d'analyse pour interroger les données distribuées.

Apache Hive SQL Apache Pig ETL Apache Impala Temps réel

Ingestion & Collecte

Outils pour collecter et importer des données depuis diverses sources.

Apache Sqoop SGBD Apache Flume Streaming Apache Kafka Temps réel

Bases NoSQL

Bases de données distribuées pour les accès à faible latence.

Apache HBase NoSQL Apache Cassandra NoSQL

Orchestration & Workflow

Planification et automatisation des pipelines de données.

Apache Oozie Scheduler Apache Airflow Moderne

Sécurité & Gouvernance

Protection, authentification et gouvernance des données.

Apache Ranger Sécurité Apache Atlas Gouvernance