Temario del curso

Sección 1: Introducción a Hadoop

  • Historia de Hadoop, conceptos
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Mitos de Hadoop
  • Desafíos de Hadoop
  • Hardware / software
  • Laboratorio: primera mirada a Hadoop

Sección 2: HDFS

  • Diseño y arquitectura
  • Conceptos (escalado horizontal, replicación, localidad de datos, conciencia del rack)
  • Demonios: Namenode, Secondary namenode, Data node
  • Comunicaciones / latidos de corazón
  • Integridad de los datos
  • Ruta de lectura / escritura
  • Namenode High Availability (HA), Federación
  • Laboratorio: Interacción con HDFS

Sección 3: MapReduce

  • Conceptos y arquitectura
  • Demonios (MRV1): jobtracker / tasktracker
  • Fases: driver, mapper, shuffle/sort, reducer
  • MapReduce Versión 1 y Versión 2 (YARN)
  • Internos de MapReduce
  • Introducción al programa Java MapReduce
  • Laboratorio: Ejecución de un programa de ejemplo de MapReduce

Sección 4: Pig

  • Pig vs Java MapReduce
  • Flujo del trabajo de Pig
  • Lenguaje Pig Latin
  • ETL con Pig
  • Transformaciones y uniones
  • Funciones definidas por el usuario (UDF)
  • Laboratorio: Escritura de scripts de Pig para analizar datos

Sección 5: Hive

  • Arquitectura y diseño
  • Tipos de datos
  • Soporte SQL en Hive
  • Creación y consulta de tablas de Hive
  • Particiones
  • Uniones
  • Procesamiento de texto
  • Laboratorio: Varios laboratorios sobre el procesamiento de datos con Hive

Sección 6: HBase

  • Conceptos y arquitectura
  • HBase vs RDBMS vs Cassandra
  • API Java de HBase
  • Datos de series temporales en HBase
  • Diseño de esquemas
  • Laboratorio: Interacción con HBase usando shell; Programación en la API Java de HBase; Ejercicio de diseño de esquema

Requerimientos

  • comodidad con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
  • comodidad en un entorno Linux (ser capaz de navegar por la línea de comandos de Linux, editar archivos usando vi / nano)

Entorno de laboratorio

Instalación cero: ¡No es necesario instalar el software Hadoop en las máquinas de los estudiantes! Se proporcionará un clúster de Hadoop funcional para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (Linux y Mac ya tienen clientes SSH, para Windows se recomienda Putty)
  • un navegador para acceder al clúster, Firefox recomendado
 28 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas