Programa del Curso

Sección 1: Introducción a Hadoop

  • Historia y conceptos de Hadoop
  • Ecosistema
  • Distribuciones
  • Arquitectura de alto nivel
  • Mitos sobre Hadoop
  • Desafíos de Hadoop
  • Hardware / Software
  • laboratorio : primer vistazo a Hadoop

Sección 2: HDFS

  • Diseño y arquitectura
  • Conceptos (escala horizontal, replicación, localidad de datos, conciencia de rack)
  • Daemons : Namenode, Secondary namenode, Data node
  • Comunicaciones / latidos del corazón
  • Integridad de datos
  • Ruta de lectura/escritura
  • Namenode High Availability (HA), Federación
  • laboratorios : Interacción con HDFS

Sección 3: Map Reduce

  • Conceptos y arquitectura
  • daemons (MRV1) : jobtracker / tasktracker
  • Fases : driver, mapper, shuffle/sort, reducer
  • Map Reduce Versión 1 y Versión 2 (YARN)
  • Mecanismos internos de Map Reduce
  • Introducción a programas Java Map Reduce
  • laboratorios : Ejecutar un programa de muestra MapReduce

Sección 4: Pig

  • Pig vs java map reduce
  • Ciclo de trabajo de pig
  • Lenguaje pig latin
  • ETL con Pig
  • Transformaciones y uniones
  • Funciones definidas por el usuario (UDF)
  • laboratorios : escribir scripts Pig para analizar datos

Sección 5: Hive

  • Arquitectura y diseño
  • Tipo de datos
  • Soporte de SQL en Hive
  • Crea tablas Hive y consulta
  • Particiones
  • Uniones
  • Procesamiento de texto
  • laboratorios : varios laboratorios para procesar datos con Hive

Sección 6: HBase

  • Conceptos y arquitectura
  • HBase vs RDBMS vs Cassandra
  • API de HBase para Java
  • Datos en serie temporal en HBase
  • Diseño de esquemas
  • laboratorios : Interacción con HBase usando shell; programación en API de HBase Java; ejercicio de diseño de esquema

Requerimientos

  • cómodo con el lenguaje de programación Java (la mayoría de los ejercicios de programación están en Java)
  • familiarizado con el entorno Linux (debe ser capaz de navegar por la línea de comandos de Linux, editar archivos usando vi / nano)

Entorno del laboratorio

Cero Instalación : No es necesario instalar software de Hadoop en las máquinas de los estudiantes! Se proporcionará una cluster funcional de Hadoop para los estudiantes.

Los estudiantes necesitarán lo siguiente

  • un cliente SSH (las versiones Linux y Mac ya tienen clientes SSH, se recomienda Putty para Windows)
  • un navegador para acceder al cluster, se recomienda Firefox
 28 Horas

Número de participantes


Precio por Participante​

Testimonios (5)

Próximos cursos

Categorías Relacionadas