Temario del curso
===== Día 01 ===== Descripción general de Big Data Business Intelligence para análisis de inteligencia criminal
- Estudios de caso de la policía - Predicción policial
- La tasa de adopción de Big Data en las agencias de aplicación de la ley y cómo están alineando su operación futura con Big Data Predictive Analytics
- Soluciones tecnológicas emergentes como sensores de disparo, video de vigilancia y redes sociales
- Usar la tecnología Big Data para mitigar la sobrecarga de información
- Interconectar Big Data con datos heredados
- Comprensión básica de las tecnologías habilitantes en análisis predictivo
- Visualización de integración de datos y tablero de instrumentos
- Gestión de fraude
- Reglas de negocios y detección de fraude
- Detección y perfil de amenazas
- Análisis de costo-beneficio para la implementación de Big Data
Introducción a Big Data
- Características principales de Big Data: volumen, variedad, velocidad y veracidad.
- Arquitectura MPP (Massively Parallel Processing)
- Almacenes de datos: esquema estático, conjunto de datos en evolución lenta
- Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
- Soluciones basadas en Hadoop: sin condiciones en la estructura del conjunto de datos.
- Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS
- Apache Spark para procesamiento de flujo
- Lote adecuado para analítico / no interactivo
- Volumen: datos de transmisión CEP
- Opciones típicas: productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
- Menos producción preparada - Storm / S4
- Bases de datos NoSQL - (columna y clave-valor): Mejor adaptado como complemento analítico para almacén de datos / base de datos
Soluciones NoSQL
- KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB)
- Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
- KV Store (jerárquica) - GT.m, caché
- KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
- KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
- Tienda Tuple - Gigaspaces, Coord, Apache River
- Base de datos de objetos - ZopeDB, DB40, Shoal
- Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
- Amplia tienda en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI
Variedades de datos: Introducción a los problemas de limpieza de datos en Big Data
- RDBMS: estructura / esquema estático, no promueve un entorno ágil y exploratorio.
- NoSQL: estructura semi estructurada, suficiente para almacenar datos sin un esquema exacto antes de almacenar datos
- Problemas de limpieza de datos
Hadoop
- Cuándo seleccionar Hadoop?
- ESTRUCTURADO: los almacenes de datos / bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
- Datos SEMI ESTRUCTURADOS: difíciles de llevar a cabo con soluciones tradicionales (DW / DB)
- Almacenamiento de datos = esfuerzo ENORME y estático incluso después de la implementación
- Por la variedad y el volumen de datos, crujió en hardware de productos básicos - HADOOP
- Commodity H / W necesario para crear un clúster de Hadoop
Introducción a Map Reduce / HDFS
- MapReduce: distribuya la informática en varios servidores
- HDFS: haga que los datos estén disponibles localmente para el proceso informático (con redundancia)
- Datos: pueden estar desestructurados / sin esquema (a diferencia de RDBMS)
- Responsabilidad del desarrollador para dar sentido a los datos
- Programación MapReduce = trabajando con Java (pros / contras), cargando datos manualmente en HDFS
===== Día 02 ===== Big Data Ecosystem - Construyendo Big Data ETL (Extraer, Transformar, Cargar) - ¿Qué herramientas Big Data usar y cuándo?
- Hadoop vs. otras soluciones NoSQL
- Para el acceso interactivo y aleatorio a los datos
- Hbase (base de datos orientada a columnas) en la parte superior de Hadoop
- Acceso aleatorio a los datos pero restricciones impuestas (max 1 PB)
- No es bueno para análisis ad-hoc, bueno para el registro, el conteo, las series de tiempo
- Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC / ODBC)
- Flume - Transmite datos (por ejemplo, datos de registro) a HDFS
Big Data Management System
- Piezas móviles, nodos de cálculo de inicio / error: ZooKeeper: para servicios de configuración / coordinación / nombramiento
- Oleoducto / flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias, la cadena de margaritas
- Implemente, configure, administre el clúster, actualice, etc. (sys admin): Ambari
- En la nube: Whirr
Análisis Predictivo - Técnicas Fundamentales y Aprendizaje Automático basado en Inteligencia Empresarial
- Introducción al aprendizaje automático
- Técnicas de clasificación de aprendizaje
- Predicción bayesiana: preparación de un archivo de entrenamiento
- Máquinas de vectores soporte
- KNN p-Tree Algebra & mining vertical
- Redes neuronales
- Problema variable grande de Big Data: bosque aleatorio (RF)
- Problema de Big Data Automation - Conjunto de varios modelos RF
- Automatización a través de Soft10-M
- Herramienta analítica de texto-Treeminer
- Aprendizaje ágil
- Aprendizaje basado en agentes
- Aprendizaje distribuido
- Introducción a las herramientas de código abierto para el análisis predictivo: R, Python, Rapidminer, Mahut
Predictive Analytics Ecosystem y su aplicación en Análisis de Inteligencia Criminal
- La tecnología y el proceso de investigación
- Analítica de Insight
- Análisis de visualización
- Análisis predictivo estructurado
- Análisis predictivo no estructurado
- Amenaza / fraude / perfil de vendedor
- Motor de recomendación
- Detección de patrones
- Descubrimiento de reglas / escenarios: falla, fraude, optimización
- Descubrimiento de causa raíz
- Análisis de los sentimientos
- CRM analytics
- Análisis de red
- Análisis de texto para obtener información de transcripciones, declaraciones de testigos, conversaciones en Internet, etc.
- Revisión asistida por tecnología
- Análisis de fraude
- Analítica en tiempo real
===== Día 03 ===== Tiempo real y análisis escalables sobre Hadoop
- Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS
- Apache Hama- para la informática distribuida sincrónica masiva
- Apache SPARK- para computación en clúster y analítica en tiempo real
- CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la informática distribuida
- KNN p: enfoque basado en álgebra de Treeminer para reducir el costo de hardware de operación
Herramientas para eDiscovery y Forensics
- eDiscovery sobre datos Big Data vs. Legacy: una comparación de costo y rendimiento
- Predictive coding and Technology Assisted Review (TAR)
- Demostración en vivo de vMiner para entender cómo TAR permite un descubrimiento más rápido
- Indexación más rápida a través de HDFS - Velocidad de los datos
- NLP (procesamiento de lenguaje natural) - productos y técnicas de código abierto
- eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros
Big Data BI para Cyber Security: obtener una vista de 360 grados, recopilación de datos rápida e identificación de amenazas
- Comprender los conceptos básicos de análisis de seguridad: superficie de ataque, configuración incorrecta de seguridad, defensas del host
- Infraestructura de red / Gran canal de datos / Respuesta ETL para análisis en tiempo real
- Prescriptivo vs predictivo: regla fija basada en el descubrimiento automático de reglas de amenazas de metadatos
Recopilación de datos dispares para el análisis de inteligencia criminal
- Usando IoT (Internet of Things) como sensores para capturar datos
- Uso de imágenes satelitales para vigilancia doméstica
- Usar datos de vigilancia e imágenes para identificación criminal
- Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas
- Combinando la recuperación automatizada de datos con datos obtenidos de informantes, interrogatorios e investigaciones
- Pronosticar actividad criminal
===== Día 04 ===== Recopilación de datos dispares para el análisis de inteligencia criminal
- Clasificación básica de Fraud Analytics: análisis basado en reglas versus análisis predictivo
- Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
- Fraude de empresa a empresa, fraude de reclamaciones médicas, fraude de seguros, evasión de impuestos y lavado de dinero
Social Media Analytics: recopilación y análisis de inteligencia
- Cómo los medios sociales son utilizados por los delincuentes para organizar, reclutar y planificar
- Big Data ETL API para extraer datos de redes sociales
- Texto, imagen, metadatos y video
- Análisis del sentimiento de los medios sociales
- Filtrado contextual y no contextual de las redes sociales
- Social Media Dashboard para integrar diversas redes sociales
- Perfiles automáticos del perfil de las redes sociales
- La demostración en vivo de cada análisis se realizará a través de la herramienta Treeminer
Big Data Analytics en procesamiento de imágenes y videos
- Técnicas de almacenamiento de imágenes en Big Data - Solución de almacenamiento para datos que exceden los petabytes
- LTFS (sistema de archivos de cinta lineal) y LTO (cinta lineal abierta)
- GPFS-LTFS (Sistema General de Archivos en Paralelo - Sistema de Archivo de Cinta Lineal) - solución de almacenamiento en capas para datos de imágenes Grandes
- Fundamentos de análisis de imágenes
- Reconocimiento de objetos
- Segmentación de imagen
- Rastreo de movimiento
- Reconstrucción de imágenes en 3-D
Biometría, ADN y programas de identificación de próxima generación
- Más allá de las huellas dactilares y el reconocimiento facial
- Reconocimiento de voz, pulsación de tecla (análisis del patrón de tipado de un usuario) y CODIS (sistema de índice de ADN combinado)
- Más allá del emparejamiento de ADN: utilizando el fenotipado de ADN forense para construir una cara a partir de muestras de ADN
Big Data Dashboard para acceso rápido a diversos datos y visualización:
- Integración de la plataforma de aplicaciones existente con Big Data Dashboard
- Big Data Management
- Estudio de caso de Big Data Dashboard: Tableau y Pentaho
- Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en Govt.
- Sistema de seguimiento y gestión
===== Día 05 ===== Cómo justificar la implementación de Big Data BI dentro de una organización
- Definición del ROI (retorno de la inversión) para implementar Big Data
- Estudios de casos para ahorrar tiempo de analista en la recopilación y preparación de datos: aumento de la productividad
- Ganancia de ingresos del menor costo de licencia de la base de datos
- Ganancia de ingresos de servicios basados en ubicación
- Ahorro en los costos de la prevención del fraude
- Un enfoque de hoja de cálculo integrado para calcular los gastos aproximados frente a la ganancia / ahorro de Ingresos de la implementación de Big Data.
Procedimiento paso a paso para reemplazar un sistema de datos heredado con un Big Data System
- Hoja de ruta de migración de Big Data
- ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
- ¿Cuáles son las diferentes maneras de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
- Cómo estimar el crecimiento de datos
- Estudios de caso
Revisión de Big Data Vendors y revisión de sus productos.
- Accenture
- APTEAN (anteriormente CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB (Anteriormente 10Gen)
- MU Sigma
- Netapp
- Soluciones Opera
- Oráculo
- Pentaho
- Platfora
- Qliktech
- Cuántico
- Rackspace
- Revolution Analytics
- Fuerza de ventas
- SAVIA
- Instituto SAS
- Sisense
- Software AG / Terracota
- Soft10 Automatización
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Piensa en Big Analytics
- Tidemark Systems
- Treeminer
- VMware (Parte de EMC)
Q / A sesión
Requerimientos
- Conocimiento de los procesos de aplicación de la ley y los sistemas de datos
- Conocimiento básico de SQL / Oracle o base de datos relacional
- Comprensión básica de las estadísticas (a nivel de hoja de cálculo)
Testimonios (3)
Temas difíciles presentados de manera simple y amigable para el usuario
Marcin - GE Medical Systems Polska Sp. z o.o.
Curso - Introduction to Predictive AI
Traducción Automática
Deepthi estaba super atenta a mis necesidades, podía decir cuándo añadir capas de complejidad y cuándo ser más cautelosa y adoptar un enfoque más estructurado. Deepthi realmente trabajó a mi ritmo y se aseguró de que pudiera utilizar yo mismo las nuevas funciones/herramientas mostrándome primero y luego dejándome recrear los elementos yo mismo, lo cual ayudó realmente a asimilar la formación. ¡No podría estar más feliz con los resultados de esta capacitación y con el nivel de experiencia de Deepthi!
Deepthi - Invest Northern Ireland
Curso - IBM Cognos Analytics
Traducción Automática
Muy claramente articulado y explicado
Harshit Arora - PwC South East Asia Consulting
Curso - Alteryx for Developers
Traducción Automática