Retour en haut de la page

Hadoop - Architecture et administration de clusters

3 jours - 21 heures

Objectifs

Connaitre les différents composants d'un cluster Hadoop et savoir dimensionner une solution répondant aux besoins des services. Savoir mettre en oeuvre les différentes façons de déployer Hadoop, et opérer les outils d'administration et de surveillance pour maintenir un cluster en condition opérationnelle.

Participants

Architectes et urbanistes SI, administrateurs systèmes. Toute personne souhaitant mettre en œuvre un système Hadoop.

Prérequis

Connaissance systèmes Unix/Linux.

Pédagogie

La pédagogie est basée sur le principe de la dynamique de groupe avec alternance d'apports théoriques, de phases de réflexion collectives et individuelles, d'exercices, d'études de cas et de mises en situations observées. Formation / Action participative et interactive : les participants sont acteurs de leur formation notamment lors des mises en situation car ils s'appuient sur leurs connaissances, les expériences et mettront en œuvre les nouveaux outils présentés au cours de la session.

Spécificités pédagogiques de la session à distance

Formation dispensée en visio-formation avec un séquencement adapté. Configuration et accès à notre outil de visio-formation. Accès à la bibliothèque pédagogique virtuelle durant la formation afin de partager les exercices, contrôler les résultats obtenus et déployer l’ensemble du séquencement pédagogique. La durée exacte des modules définis ci-après est susceptible de varier en fonction de la vitesse d’appropriation des concepts enseignés de la part du stagiaire.

Remarques

 

Certification

 

Profil de l'intervenant

Consultant-formateur expert. Suivi des compétences techniques et pédagogiques assuré par nos services.

Moyens techniques

Encadrement complet des stagiaires durant la formation. Espace d’accueil, configuration technique des salles et matériel pédagogique dédié pour les formations en centre. Remise d’une documentation pédagogique papier ou numérique à échéance de la formation.

Moyens techniques relatifs aux sessions à distance

Encadrement complet des stagiaires durant la formation. Accès à notre service technique durant l’animation pour toute limite rencontrée. Accès à l’espace de conversation instantané durant la session pour interagir avec le formateur et les participants. Transmission d’un email de contact pour réaction privée durant la session. Remise d’une documentation pédagogique papier ou numérique à échéance de la formation.

Méthodes d'évaluation des acquis

Exercices individuels et collectifs durant la formation. La feuille d’émargement signée par demi-journée ainsi que l’évaluation des acquis de fin de stage sont adressées avec la facture.

Méthodes d'évaluation des acquis de la formation à distance

Exercices individuels et collectifs communiqués durant la formation via la bibliothèque pédagogique virtuelle mise à disposition ou directement par le formateur. Ces activités constituent les modalités de suivi et d’évaluation du Stagiaire de la part du formateur. Suivi permanent du formateur durant l’animation et durant les exercices pratiques.

Programme

Introduction aux technologies Big Data

  • Stockage et traitement de données massives : problèmes et solutions
  • Panorama des technologies NoSQL, bases de données distribuées et en colonnes

Présentation de l'écosystème Hadoop

  • Coût, performance et évolutivité : promesses et gains effectifs
  • Les composants logiciels majeurs : Zookeeper, HDFS, HBase
  • Les différentes utilisations : comme solution de stockage, d'ETL, de traitement batch

Hadoop par la pratique

  • Notions de base : HDFS et programmation Map/Reduce

Design d'un cluster Hadoop

  • Topologie : les différents serveurs et leurs rôles
  • Configuration matérielle
  • Les différentes distributions Hadoop
  • Choix des briques logicielles selon l'usage du cluster
  • Dimensionnement

Provisionnement et déploiement

  • Déploiement manuel
  • Outils d'automatisation (Chef/Puppet, Whirr/Pallet)
  • Installation d'Hive, Pig, Hbase
  • Configuration et paramétrage

Administration et opération

  • Gestion des données (backup, localisation et réplication)
  • Gestion des jobs et schedulers
  • Monitoring du cluster
  • Ajout et décommission de nœuds
  • Benchmarks, tuning et optimisation
  • Résolution de problèmes, login et debugging

Intégration au SI

  • Stratégies et étapes d'intégration
  • Les différentes couches d'abstraction selon le public utilisateur
  • Connection aux bases de données relationnelles via Sqoop et JDBC
  • Ingestion de données via Flume
  • Interfacer avec les services avals

Hadoop et ses compléments

  • Forces et faiblesses de la plateforme selon les cas d'utilisation
  • Alternatives et compléments
  • Comment intégrer Hadoop à Storm, Cassandra, Mongo, Giraph ...

Déploiement à grande échelle

  • Hadoop sur le cloud : l'offre d'Amazon, Elastic MapReduce
  • Hadoop chez Facebook, LinkedIn, Orbitz...
Datadock Microsoft TOSA Certification Robert Samsung partners

Grand-Est (Bar le duc, Chalons en champagne, Colmar, Epinal, Metz, Mulhouse, Nancy, Reims, Strasbourg, Troyes) Nouvelle-Aquitaine (Agen, Angouleme, Biarritz, Bordeaux, Brive, Compiegne, La rochelle, Limoges, Niort, Pau, Perigueux, Poitiers) Auvergne-Rhônes-Alpes (Annecy, Bourg en bresse, Chambery, Clermont ferrand, Grenoble, Lyon bron, Lyon masset, Lyon vendome, Saint etienne, Valence) Normandie (Caen, Le havre, Rouen) Bourgogne-Franche-Comté (Auxerre, Belfort, Dijon, Sens) Bretagne (Brest, Rennes) Centre-Val-de-Loire (Blois, Bourges, Chartres, Chateauroux, Orleans, Tours) Corse (Ajaccio, Bastia) Île de France (Aulnay sous bois, Groupe, La defense courbevoie, Nanterre, Paris nation, Paris ternes, Poissy) Occitanie (Cahors, Castres, Montauban, Montpellier, Narbonne, Nimes, Pamiers, Perpignan, Rodez, Toulouse) Pays de la Loire (La roche sur yon, Le mans, Montaigu, Nantes) Hauts de France (Amiens, Lille, Roubaix, Soissons) Provence-Alpes-Côte d'Azur (Aix en provence, Avignon, Marseille, Nice)