Temario del curso
Sección 1: Introducción a Hadoop
- Historia de Hadoop, conceptos
- Ecosistema
- Distribuciones
- Arquitectura de alto nivel
- Mitos de Hadoop
- Desafíos de Hadoop
- Hardware / software
- Laboratorio: primera mirada a Hadoop
Sección 2: HDFS
- Diseño y arquitectura
- Conceptos (escalado horizontal, replicación, localidad de datos, conciencia del rack)
- Demonios: Namenode, Secondary namenode, Data node
- Comunicaciones / latidos de corazón
- Integridad de los datos
- Ruta de lectura / escritura
- Namenode High Availability (HA), Federación
- Laboratorio: Interacción con HDFS
Sección 3: MapReduce
- Conceptos y arquitectura
- Demonios (MRV1): jobtracker / tasktracker
- Fases: driver, mapper, shuffle/sort, reducer
- MapReduce Versión 1 y Versión 2 (YARN)
- Internos de MapReduce
- Introducción al programa Java MapReduce
- Laboratorio: Ejecución de un programa de ejemplo de MapReduce
Sección 4: Pig
- Pig vs Java MapReduce
- Flujo del trabajo de Pig
- Lenguaje Pig Latin
- ETL con Pig
- Transformaciones y uniones
- Funciones definidas por el usuario (UDF)
- Laboratorio: Escritura de scripts de Pig para analizar datos
Sección 5: Hive
- Arquitectura y diseño
- Tipos de datos
- Soporte SQL en Hive
- Creación y consulta de tablas de Hive
- Particiones
- Uniones
- Procesamiento de texto
- Laboratorio: Varios laboratorios sobre el procesamiento de datos con Hive
Sección 6: HBase
- Conceptos y arquitectura
- HBase vs RDBMS vs Cassandra
- API Java de HBase
- Datos de series temporales en HBase
- Diseño de esquemas
- Laboratorio: Interacción con HBase usando shell; Programación en la API Java de HBase; Ejercicio de diseño de esquema
Requerimientos
- comodidad con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
- comodidad en un entorno Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos usando vi / nano)
Entorno de laboratorio
Instalación cero: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop funcional para los estudiantes.
Los estudiantes necesitarán lo siguiente
- un cliente SSH (Linux y Mac ya tienen clientes SSH, para Windows se recomienda Putty)
- un navegador para acceder al clúster, Firefox recomendado
Testimonios (5)
Los ejemplos en vivo
Ahmet Bolat - Accenture Industrial SS
Curso - Python, Spark, and Hadoop for Big Data
Traducción Automática
Durante los ejercicios, James me explicó cada paso en detalle donde me estaba atascando. Yo era completamente nuevo en NIFI. Él explicó el propósito real de NIFI, incluso conceptos básicos como ser código abierto. Cubrió todos los conceptos de Nifi, desde nivel principiante hasta nivel desarrollador.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Traducción Automática
Que lo tuviera en primer lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Traducción Automática
cosas prácticas de hacer, también teoría fue bien servida por Ajay
Dominik Mazur - Capgemini Polska Sp. z o.o.
Curso - Hadoop Administration on MapR
Traducción Automática
La máquina virtual que me gustó mucho El profesor era muy conocedor sobre el tema así como otros temas, fue muy amable y agradable Me gustó la instalación en Dubái.
Safar Alqahtani - Elm Information Security
Curso - Big Data Analytics in Health
Traducción Automática