Comparaison des outils

Moteurs SQL : Hive vs Impala vs Spark SQL
Critère Hive Impala Spark SQL
Latence Minutes à heures Secondes Secondes à minutes
Cas d'usage ETL batch, reporting lourd BI interactive, dashboards Batch + Streaming + ML
Moteur MapReduce / Tez MPP natif (C++) RDD / DataFrame en mémoire
Tolérance aux pannes Excellente Partielle Excellente
Scalabilité PB+ TB à PB PB+
Apprentissage Facile (SQL) Facile (SQL) Moyen
Meilleur pour Datawarehouse, ETL Analyse ad-hoc, Tableau Pipelines complets, ML
Traitement batch : MapReduce vs Spark
Critère MapReduce Apache Spark
Vitesse Référence (1×) 10-100× plus rapide
Stockage intermédiaire Disque (HDFS) entre étapes Mémoire (RAM)
Types de traitement Batch uniquement Batch, Streaming, ML, Graphes
Langages Java principalement Python, Scala, Java, R, SQL
Complexité du code Verbeux Concis (DataFrame API)
Tolérance aux pannes Excellente Excellente (lineage)
Quand l'utiliser ? Jobs legacy, faibles ressources RAM Presque toujours préférable
NoSQL : HBase vs Cassandra
Critère HBase Cassandra
Modèle Master-Slave (HMaster) Masterless (anneau P2P)
Disponibilité Haute (SPOF limité) Maximale (zéro SPOF)
Intégration Hadoop Native (stocke sur HDFS) Via connecteur Spark
Multi-datacenter Limité Natif et puissant
Interface API HBase + Phoenix (SQL) CQL (proche SQL)
Idéal pour Lookup sur HDFS + HBase hybride IoT, time-series, géo-distribué
Orchestration : Oozie vs Airflow
Critère Oozie Airflow
Définition des workflows XML (verbeux) Python (code)
Interface UI Basique Riche et interactive
Intégration Hadoop Native Via providers (pip)
Intégrations Cloud/API Limitées 1000+ opérateurs
Popularité actuelle Historique / legacy Standard industrie
Recommandation Clusters Hadoop legacy Nouveaux projets data
Guide de choix rapide
Quel outil pour quel besoin ?
Stocker des TB/PB de fichiersHDFS
ETL batch SQLHive + Tez
Analyse BI interactiveImpala
Machine Learning distribuéSpark MLlib
Streaming temps réelKafka + Spark Streaming
Import DB relationnelleSqoop
Collecte de logsFlume
Accès aléatoire msHBase
Haute disponibilité NoSQLCassandra
Orchestrer des pipelinesAirflow
Contrôle d'accès centraliséRanger
Cataloguer les donnéesAtlas
Stack recommandée pour débuter

Pour une architecture Hadoop moderne, commencez avec :

  1. HDFS + YARN — fondation
  2. Hive + Tez — requêtage SQL
  3. Spark — traitement avancé
  4. Kafka — ingestion streaming
  5. Airflow — orchestration
  6. Ranger — sécurité
Alternatives Cloud managées

AWS EMR, Google Dataproc, Azure HDInsight proposent ces mêmes outils sans gestion d'infrastructure. Databricks offre Spark managé. Confluent Cloud pour Kafka.