Programa del Curso
Sección 1: Introducción a Hadoop
- Historia y conceptos de Hadoop
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitos sobre Hadoop
- Desafíos de Hadoop
- Hardware / Software
- laboratorio : primer vistazo a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escala horizontal, replicación, localidad de datos, conciencia de rack)
- Daemons : Namenode, Secondary namenode, Data node
- Comunicaciones / latidos del corazón
- Integridad de datos
- Ruta de lectura/escritura
- Namenode High Availability (HA), Federación
- laboratorios : Interacción con HDFS
Sección 3: Map Reduce
- Conceptos y arquitectura
- daemons (MRV1) : jobtracker / tasktracker
- Fases : driver, mapper, shuffle/sort, reducer
- Map Reduce Versión 1 y Versión 2 (YARN)
- Mecanismos internos de Map Reduce
- Introducción a programas Java Map Reduce
- laboratorios : Ejecutar un programa de muestra MapReduce
Sección 4: Pig
- Pig vs java map reduce
- Ciclo de trabajo de pig
- Lenguaje pig latin
- ETL con Pig
- Transformaciones y uniones
- Funciones definidas por el usuario (UDF)
- laboratorios : escribir scripts Pig para analizar datos
Sección 5: Hive
- Arquitectura y diseño
- Tipo de datos
- Soporte de SQL en Hive
- Crea tablas Hive y consulta
- Particiones
- Uniones
- Procesamiento de texto
- laboratorios : varios laboratorios para procesar datos con Hive
Sección 6: HBase
- Conceptos y arquitectura
- HBase vs RDBMS vs Cassandra
- API de HBase para Java
- Datos en serie temporal en HBase
- Diseño de esquemas
- laboratorios : Interacción con HBase usando shell; programación en API de HBase Java; ejercicio de diseño de esquema
Requerimientos
- cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
- familiarizado con el entorno Linux (debe ser capaz de navegar por la línea de comandos de Linux, editar archivos usando vi / nano)
Entorno del laboratorio
Cero Instalación : No es necesario instalar software de Hadoop en las máquinas de los estudiantes! Se proporcionará una cluster funcional de Hadoop para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (las versiones Linux y Mac ya tienen clientes SSH, se recomienda Putty para Windows)
- un navegador para acceder al cluster, se recomienda Firefox
Testimonios (5)
Los ejemplos en vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Durante los ejercicios, James me explicó cada paso en detalle donde me estaba atascando. Yo era completamente nuevo en NIFI. Él explicó el propósito real de NIFI, incluso conceptos básicos como ser código abierto. Cubrió todos los conceptos de Nifi, desde nivel principiante hasta nivel desarrollador.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Traducción Automática
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
Que lo tuviera en primer lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Traducción Automática
cosas prácticas de hacer, también teoría fue bien servida por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Traducción Automática