Programa del Curso

Módulo 1. Introducción a Hadoop

  • El Hadoop Sistema de archivos distribuido (HDFS)
  • La ruta de lectura y la ruta de escritura
  • Administración de metadatos del sistema de archivos
  • El nodo de nombre y el nodo de datos
  • La alta disponibilidad de Namenode
  • Federación de nodos de nombre
  • Las herramientas de línea de comandos
  • Descripción de la compatibilidad con REST

Módulo 2. Introducción a MapReduce

  • Análisis de los datos con Hadoop
  • Patrón de asignación y reducción
  • Java MapReduce
  • Escalado horizontal
  • Flujo de datos
  • Desarrollo de funciones de combinador
  • Ejecución de un trabajo de MapReduce distribuido

Módulo 3. Planificación de un clúster Hadoop

  • Elegir una distribución y una versión de Hadoop
  • Versiones y características
  • Selección de hardware
  • Selección de hardware maestro y de trabajo
  • Tamaño del clúster
  • Selección y preparación del sistema operativo
  • Diseño de implementación
  • Configuración de usuarios, grupos y privilegios
  • Configuración del disco
  • Diseño de redes

Módulo 4. Instalación y configuración

  • Instalación de Hadoop
  • Configuración: Descripción general
  • Los archivos de configuración de Hadoop XML
  • Variables de entorno y scripts de shell
  • Configuración de registro
  • Administración de HDFS
  • Optimización y ajuste
  • Formatear el nodo de nombre
  • Creación de un directorio /tmp
  • Pensando en la alta disponibilidad de Namenode
  • Las opciones de esgrima
  • Configuración automática de conmutación por error
  • Formatear y arrancar los nodos de nombre
  • Federación de nodos de nombre

Módulo 5. Descripción Hadoop de E/S

  • Integridad de datos en HDFS
  • Descripción de los códecs
  • Compresión y divisiones de entrada
  • Uso de la compresión en MapReduce
  • El mecanismo de serialización
  • Estructuras de datos basadas en archivos
  • El formato SequenceFile
  • Otros formatos de archivo y formatos orientados a columnas

Módulo 6. Desarrollo de una aplicación MapReduce

  • La APIde configuración
  • Configuración del entorno de desarrollo
  • Administración de la configuración
  • GenericOptionsParser, Tool y ToolRunner
  • Escribir una prueba unitaria con MRUnit
  • El mapeador y el reductor
  • Ejecución local en datosde prueba
  • Probar el controlador
  • Ejecución en un clúster
  • Empaquetado y lanzamiento de un trabajo
  • La interfaz de usuario web de MapReduce
  • Ajuste de un trabajo

Módulo 7. Identidad, autenticación y autorización

  • Gestión de la identidad
  • Kerberos y Hadoop
  • Descripción de la autorización

Módulo 8. Recurso Management

  • ¿Qué es el recurso Management?
  • Cuotas de HDFS
  • Programadores de MapReduce
  • Anatomía de la ejecución de una aplicación YARN
  • Solicitudes de recursos
  • Vida útil de la aplicación
  • YARN en comparación con MapReduce 1
  • Programación en YARN
  • Opciones del programador
  • Configuración del programador de capacidad
  • Configuración del programador justo
  • Programación de retrasos
  • Equidad dominante de los recursos

Módulo 9. Tipos y formatos de MapReduce

  • Tipos de MapReduce
  • El trabajo predeterminado de MapReduce
  • Definición de los formatos de entrada
  • Gestión de divisiones y registros de entrada
  • Entrada de texto y entrada binaria
  • Gestión de varias entradas
  • Database Entrada (y salida)
  • Formatos de salida
  • Salida de texto y salida binaria
  • Gestión de varias salidas
  • La salida Database

Módulo 10. Uso de las entidades de MapReduce

  • Uso de contadores
  • Lectura de contadores incorporados
  • Contadores Java definidos por el usuario
  • Comprender la clasificación
  • Uso de la caché distribuida

Módulo 11. Mantenimiento y solución de problemas de clústeres

  • Gestión de Hadoop procesos
  • Inicio y detención de procesos con scripts de inicio
  • Inicio y detención de procesos manualmente
  • Tareas de mantenimiento de HDFS
  • Adición de un nodo de datos
  • Retirada de un nodo de datos
  • Comprobación de la integridad del sistema de archivos con fsck
  • Equilibrio de datos de bloque HDFS
  • Lidiar con un disco fallido
  • Tareasde mantenimiento de MapReduce
  • Eliminar un trabajo de MapReduce
  • Eliminar una tarea de MapReduce
  • Gestión del agotamiento de recursos

Módulo 12. Monitorización

  • Las métricas disponibles Hadoop
  • El papel de SNMP
  • Supervisión del estado
  • Comprobaciones a nivel de host
  • Comprobaciones de HDFS
  • Comprobaciones de MapReduce

Módulo 13. Copia de seguridad y recuperación

  • Copia de seguridad de datos
  • Copia distribuida (distcp)
  • Ingesta de datos en paralelo
  • Metadatos de nodo de nombre
  21 horas
 

Número de participantes


Comienza

Termina


Dates are subject to availability and take place between 09:30 and 16:30.
Los cursos de formación abiertos requieren más de 5 participantes.

Testimonios (1)

Cursos Relacionados

Categorías Relacionadas