Curso de Big Data Solución de Almacenamiento - NoSQL
Cuando las tecnologías de almacenamiento tradicionales no manejan la cantidad de datos que necesita almacenar, hay una gran cantidad de alternativas. Este curso trata de orientar a los participantes cuáles son las alternativas para almacenar y analizar Big Data y cuáles son sus pros y contras.
Este curso se centra principalmente en la discusión y presentación de soluciones, aunque los ejercicios prácticos están disponibles a pedido.
Programa del Curso
Límites de las tecnologías tradicionales
- SQL Bases de datos
- Redundancia: réplicas y clústeres
- Restricciones
- Velocidad
Información general sobre los tipos de bases de datos
- Bases de datos de objetos
- Almacén de documentos
- Bases de datos en la nube
- Almacén de columna ancha
- Bases de datos multidimensionales
- Bases de datos multivalor
- Bases de datos de streaming y series temporales
- Bases de datos multimodelo
- Bases de datos de grafos
- Valor clave
- XML Bases de datos
- Distribución de sistemas de archivos
Bases de datos populares n.ºSQL
- MongoDB
- Casandra
- Apache Hadoop
- Apache Spark
- Otras soluciones
NuevoSQL
- Resumen de las soluciones disponibles
- Rendimiento
- Incongruencias
Almacenamiento de documentos/Search Optimizado
- Solr/Lucene/Elasticsearch
- Otras soluciones
Requerimientos
Buen conocimiento de las tecnologías tradicionales para el almacenamiento de datos (MySQL, Oracle, SQL Server, etc...)
Los cursos de formación abiertos requieren más de 5 participantes.
Curso de Big Data Solución de Almacenamiento - NoSQL - Booking
Curso de Big Data Solución de Almacenamiento - NoSQL - Enquiry
Big Data Solución de Almacenamiento - NoSQL - Consulta de consultoría
Consulta de consultoría
Testimonios (5)
Un montón de ejemplos prácticos, diferentes formas de abordar un mismo problema, y a veces trucos no tan obvios de cómo mejorar la solución actual
Rafal - Nordea
Curso - Apache Spark MLlib
Traducción Automática
cómo el instructor demuestra su conocimiento sobre la materia que enseña
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Curso - Data Vault: Building a Scalable Data Warehouse
Traducción Automática
Durante los ejercicios, James me explicó cada paso en detalle donde me estaba atascando. Yo era completamente nuevo en NIFI. Él explicó el propósito real de NIFI, incluso conceptos básicos como ser código abierto. Cubrió todos los conceptos de Nifi, desde nivel principiante hasta nivel desarrollador.
Firdous Hashim Ali - MOD A BLOCK
Curso - Apache NiFi for Administrators
Traducción Automática
Preparación y organización del formador, y calidad de los materiales proporcionados en GitHub.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Curso - Impala for Business Intelligence
Traducción Automática
Que lo tuviera en primer lugar.
Peter Scales - CACI Ltd
Curso - Apache NiFi for Developers
Traducción Automática
Próximos cursos
Cursos Relacionados
Impala para Inteligencia Empresarial
21 HorasCloudera Impala es un motor de consulta de procesamiento paralelo masivo (MPP) SQL de código abierto para clústeres Apache Hadoop.
Impala permite a los usuarios emitir consultas de baja latencia SQL a datos almacenados en el Sistema de Archivos Distribuido Hadoop y Apache Hbase sin requerir el movimiento o transformación de datos.
Publido Objetivo
Este curso está dirigido a analistas y científicos de datos que realizan análisis en datos almacenados en Hadoop mediante herramientas Business Intelligence o SQL.
Al finalizar este curso, los participantes podrán
- Extraer información significativa de clústeres Hadoop con Impala.
- Escribir programas específicos para facilitar el Business Intelligence en Impala dialecto SQL.
- Solucionar problemas relacionados con Impala.
Apache Spark MLlib
35 HorasMLlib es la biblioteca de aprendizaje automático (ML) de Spark. Su objetivo es hacer que el aprendizaje automático práctico sea escalable y fácil. Consta de algoritmos y utilidades de aprendizaje comunes, como clasificación, regresión, agrupación, filtrado colaborativo, reducción de dimensionalidad, así como primitivas de optimización de nivel inferior y API de canalización de nivel superior.
Se divide en dos paquetes:
-
spark.mllib contiene la API original creada sobre RDD.
-
spark.ml proporciona una API de nivel superior basada en DataFrames para construir canalizaciones de ML.
Audiencia
Este curso está dirigido a ingenieros y desarrolladores que buscan utilizar una biblioteca de máquinas incorporada para Apache Spark
Inteligencia Artificial - La Materia más Aplicada - Análisis de Datos + AI Distribuido + PNL
21 HorasEste curso está dirigido a desarrolladores y científicos de datos que quieran comprender e implementar la IA en sus aplicaciones. Se presta especial atención al análisis de datos, la inteligencia artificial distribuida y el procesamiento del lenguaje natural.
Hortonworks Data Platform (HDP) para Administradores
21 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) presenta Hortonworks Data Platform (HDP) y guía a los participantes a través de la implementación de la solución Spark + Hadoop.
Al final de esta formación, los participantes serán capaces de:
- Utilice Hortonworks para ejecutar Hadoop de forma fiable a gran escala.
- Unifique las capacidades de seguridad, gobernanza y operaciones de Hadoop con los flujos de trabajo analíticos ágiles de Spark.
- Utilice Hortonworks para investigar, validar, certificar y dar soporte a cada uno de los componentes de un proyecto de Spark.
- Procese diferentes tipos de datos, incluidos los estructurados, no estructurados, en movimiento y en reposo.
Flink para Flujo Escalable y Procesamiento de Datos por Lotes
28 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) presenta los principios y enfoques detrás del procesamiento de datos de flujo distribuido y por lotes, y guía a los participantes a través de la creación de una aplicación de transmisión de datos en tiempo real en Apache Flink.
Al final de esta formación, los participantes serán capaces de:
- Configure un entorno para desarrollar aplicaciones de análisis de datos.
- Comprender cómo funciona la biblioteca de procesamiento de gráficos (Gelly) de Apache Flink.
- Empaquete, ejecute y supervise aplicaciones de transmisión de datos tolerantes a errores y basadas en Flink.
- Administre diversas cargas de trabajo.
- Realizar analíticas avanzadas.
- Configure un clúster de Flink de varios nodos.
- Mida y optimice el rendimiento.
- Integre Flink con diferentes Big Data sistemas.
- Compare las capacidades de Flink con las de otros marcos de procesamiento de big data.
Bóveda de Datos: Creación de un Almacén de Datos Escalable
28 HorasEn esta capacitación en vivo dirigida por un instructor en Bolivia, los participantes aprenderán cómo construir un Data Vault.
Al final de esta formación, los participantes serán capaces de:
- Comprender los conceptos de arquitectura y diseño detrás de Data Vault 2.0 y su interacción con Big Data, NoSQL e IA.
- Utilice técnicas de almacenamiento de datos para permitir la auditoría, el seguimiento y la inspección de datos históricos en un almacén de datos.
- Desarrolle un proceso ETL (Extracción, Transformación, Carga) coherente y repetible.
- Construya e implemente almacenes altamente escalables y repetibles.
Apache NiFi para administradores
21 HorasEn esta capacitación en vivo dirigida por un instructor en Bolivia (presencial o remoto), los participantes aprenderán cómo implementar y administrar Apache NiFi en un entorno de laboratorio en vivo.
Al final de esta formación, los participantes serán capaces de:
- Instala y configura Apachi NiFi.
- Obtenga, transforme y administre datos de fuentes de datos dispares y distribuidas, incluidas bases de datos y lagos de big data.
- Automatice los flujos de datos.
- Habilite el análisis de transmisión.
- Aplique varios enfoques para la ingesta de datos.
- Transforme Big Data y conviértase en información empresarial.
Apache NiFi para desarrolladores
7 HorasEn esta capacitación en vivo dirigida por un instructor en Bolivia, los participantes aprenderán los fundamentos de la programación basada en flujo a medida que desarrollan una serie de extensiones, componentes y procesadores de demostración utilizando Apache NiFi.
Al final de esta formación, los participantes serán capaces de:
- Comprenda la arquitectura de NiFi y los conceptos de flujo de datos.
- Desarrolle extensiones utilizando NiFi y API de terceros.
- Desarrollar a medida su propio procesador Apache Nifi.
- Ingiera y procese datos en tiempo real de formatos de archivo y fuentes de datos dispares y poco comunes.
Introducción a Graph Computing
28 HorasEn esta capacitación en vivo dirigida por un instructor en Bolivia, los participantes aprenderán sobre las ofertas tecnológicas y los enfoques de implementación para el procesamiento de datos de gráficos. El objetivo es identificar objetos del mundo real, sus características y relaciones, luego modelar estas relaciones y procesarlas como datos utilizando un enfoque Graph Computing (también conocido como análisis de grafos). Comenzamos con una visión general amplia y nos limitamos a herramientas específicas a medida que avanzamos a través de una serie de estudios de casos, ejercicios prácticos e implementaciones en vivo.
Al final de esta formación, los participantes serán capaces de:
- Comprenda cómo se conservan y atraviesan los datos de los gráficos.
- Seleccione el mejor marco para una tarea determinada (desde bases de datos de grafos hasta marcos de procesamiento por lotes).
- Implemente Hadoop, Spark, GraphX y Pregel para llevar a cabo el cálculo de grafos en muchas máquinas en paralelo.
- Vea problemas de big data del mundo real en términos de gráficos, procesos y recorridos.
Python y Spark para Big Data (PySpark)
21 HorasEn esta capacitación en vivo dirigida por un instructor en Bolivia, los participantes aprenderán a usar Python y Spark juntos para analizar big data mientras trabajan en ejercicios prácticos.
Al final de esta formación, los participantes serán capaces de:
- Aprenda a usar Spark con Python para analizar Big Data.
- Trabaja en ejercicios que imiten casos del mundo real.
- Utilice diferentes herramientas y técnicas para el análisis de big data utilizando PySpark.
Unified Batch and Stream Processing with Apache Beam
14 HorasApache Beam es un modelo de programación unificado de código abierto para definir y ejecutar tuberías de procesamiento de datos paralelas. Su poder radica en su capacidad para ejecutar canalizaciones por lotes y de transmisión, y la ejecución la lleva a cabo uno de los back-ends de procesamiento distribuido compatibles con Beam: Apache Apex, Apache Flink, Apache Spark y Google Cloud Dataflow. Apache Beam es útil para tareas ETL (Extracción, Transformación y Carga), como mover datos entre diferentes medios de almacenamiento y fuentes de datos, transformar datos a un formato más deseable y cargar datos en un nuevo sistema.
En esta capacitación en vivo dirigida por un instructor (presencial o remota), los participantes aprenderán a implementar los SDK Apache Beam en una aplicación Java o Python que define una canalización de procesamiento de datos para descomponer un conjunto de datos grandes en fragmentos más pequeños para un procesamiento paralelo e independiente.
Al final de esta formación, los participantes serán capaces de:
- Instalar y configurar Apache Beam.
- Utilice un único modelo de programación para llevar a cabo el procesamiento por lotes y por secuencias desde su aplicación Java o Python.
- Ejecute canalizaciones en múltiples entornos.
Formato del curso
- En parte conferencia, en parte discusión, ejercicios y práctica práctica pesada
Nota
- Este curso estará disponible Scala en el futuro. Póngase en contacto con nosotros para organizarlo.
Confluent KSQL
7 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a desarrolladores que desean implementar Apache Kafka el procesamiento de flujos sin escribir código.
Al final de esta formación, los participantes serán capaces de:
- Instale y configure Confluent KSQL.
- Configure una canalización de procesamiento de secuencias utilizando solo los comandos SQL (sin codificación Java o Python).
- Lleve a cabo el filtrado de datos, las transformaciones, las agregaciones, las uniones, las ventanas y la sessionización íntegramente en SQL.
- Diseñe e implemente consultas interactivas y continuas para la transmisión de ETL y análisis en tiempo real.
Spark Streaming with Python and Kafka
7 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o en el sitio) está dirigida a ingenieros de datos, científicos de datos y programadores que deseen utilizar Spark Streaming funciones en el procesamiento y análisis de datos en tiempo real.
Al final de esta capacitación, los participantes podrán usar Spark Streaming para procesar flujos de datos en vivo para su uso en bases de datos, sistemas de archivos y paneles de control en vivo.
NoSQL Database with Microsoft Azure Cosmos DB
14 HorasEsta formación en vivo, dirigida por un instructor, en Bolivia (en línea o presencial) está destinada a administradores de bases de datos o desarrolladores que desean utilizar Microsoft Azure Cosmos DB para desarrollar y gestionar aplicaciones altamente responsivas y con baja latencia.
Al final de esta capacitación, los participantes serán capaces de:
- Provisionar los recursos necesarios de Cosmos DB para comenzar a construir bases de datos y aplicaciones.
- Escalar el rendimiento y la almacenamiento de la aplicación utilizando las API de Cosmos DB.
- Gestionar operaciones de base de datos y reducir costos optimizando los recursos de Cosmos DB.
Stratio: Rocket and Intelligence Modules with PySpark
14 HorasStratio es una plataforma centrada en datos que integra big data, IA y gobernanza en una sola solución. Sus módulos Rocket e Intelligence permiten la exploración rápida de datos, transformaciones y análisis avanzados en entornos empresariales.
Este entrenamiento en vivo dirigido por un instructor (online o presencial) está orientado a profesionales intermedios en datos que desean utilizar los módulos Rocket e Intelligence de Stratio eficazmente con PySpark, enfocándose en estructuras de bucles, funciones definidas por el usuario y lógica avanzada de datos.
Al finalizar este entrenamiento, los participantes podrán:
- Navegar y trabajar dentro de la plataforma Stratio utilizando los módulos Rocket e Intelligence.
- Aplicar PySpark en el contexto de ingesta, transformación y análisis de datos.
- Usar bucles y lógica condicional para controlar flujos de trabajo de datos y tareas de ingeniería de características.
- Crear y gestionar funciones definidas por el usuario (UDFs) para operaciones reutilizables en PySpark.
Formato del Curso
- Conferencia interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar una formación personalizada para este curso, por favor contáctenos para organizarlo.