Temario del curso

===== Día 01 ===== Descripción general de Big Data Business Intelligence para análisis de inteligencia criminal

  • Estudios de caso de la policía - Predicción policial
  • La tasa de adopción de Big Data en las agencias de aplicación de la ley y cómo están alineando su operación futura con Big Data Predictive Analytics
  • Soluciones tecnológicas emergentes como sensores de disparo, video de vigilancia y redes sociales
  • Usar la tecnología Big Data para mitigar la sobrecarga de información
  • Interconectar Big Data con datos heredados
  • Comprensión básica de las tecnologías habilitantes en análisis predictivo
  • Visualización de integración de datos y tablero de instrumentos
  • Gestión de fraude
  • Reglas de negocios y detección de fraude
  • Detección y perfil de amenazas
  • Análisis de costo-beneficio para la implementación de Big Data

Introducción a Big Data

  • Características principales de Big Data: volumen, variedad, velocidad y veracidad.
  • Arquitectura MPP (Massively Parallel Processing)
  • Almacenes de datos: esquema estático, conjunto de datos en evolución lenta
  • Bases de datos MPP: Greenplum, Exadata, Teradata, Netezza, Vertica, etc.
  • Soluciones basadas en Hadoop: sin condiciones en la estructura del conjunto de datos.
  • Patrón típico: HDFS, MapReduce (crujido), recuperar de HDFS
  • Apache Spark para procesamiento de flujo
  • Lote adecuado para analítico / no interactivo
  • Volumen: datos de transmisión CEP
  • Opciones típicas: productos de CEP (por ejemplo, Infostreams, Apama, MarkLogic, etc.)
  • Menos producción preparada - Storm / S4
  • Bases de datos NoSQL - (columna y clave-valor): Mejor adaptado como complemento analítico para almacén de datos / base de datos

Soluciones NoSQL

  • KV Store - Keyspace, Flare, SchemaFree, RAMCloud, base de datos Oracle NoSQL (OnDB)
  • Tienda KV - Dynamo, Voldemort, Dynomite, SubRecord, Mo8onDb, DovetailDB
  • KV Store (jerárquica) - GT.m, caché
  • KV Store (Pedido) - TokyoTyrant, Lightcloud, NMDB, Luxio, MemcacheDB, Actord
  • KV Cache - Memcached, Repcached, Coherence, Infinispan, EXtremeScale, JBossCache, Velocity, Terracoqua
  • Tienda Tuple - Gigaspaces, Coord, Apache River
  • Base de datos de objetos - ZopeDB, DB40, Shoal
  • Document Store - CouchDB, Cloudant, Couchbase, MongoDB, Jackrabbit, bases de datos XML, ThruDB, CloudKit, Prsevere, Riak-Basho, Scalaris
  • Amplia tienda en columnas: BigTable, HBase, Apache Cassandra, Hypertable, KAI, OpenNeptune, Qbase, KDI

Variedades de datos: Introducción a los problemas de limpieza de datos en Big Data

  • RDBMS: estructura / esquema estático, no promueve un entorno ágil y exploratorio.
  • NoSQL: estructura semi estructurada, suficiente para almacenar datos sin un esquema exacto antes de almacenar datos
  • Problemas de limpieza de datos

Hadoop

  • Cuándo seleccionar Hadoop?
  • ESTRUCTURADO: los almacenes de datos / bases de datos empresariales pueden almacenar datos masivos (a un costo) pero imponer una estructura (no es bueno para la exploración activa)
  • Datos SEMI ESTRUCTURADOS: difíciles de llevar a cabo con soluciones tradicionales (DW / DB)
  • Almacenamiento de datos = esfuerzo ENORME y estático incluso después de la implementación
  • Por la variedad y el volumen de datos, crujió en hardware de productos básicos - HADOOP
  • Commodity H / W necesario para crear un clúster de Hadoop

Introducción a Map Reduce / HDFS

  • MapReduce: distribuya la informática en varios servidores
  • HDFS: haga que los datos estén disponibles localmente para el proceso informático (con redundancia)
  • Datos: pueden estar desestructurados / sin esquema (a diferencia de RDBMS)
  • Responsabilidad del desarrollador para dar sentido a los datos
  • Programación MapReduce = trabajando con Java (pros / contras), cargando datos manualmente en HDFS

===== Día 02 ===== Big Data Ecosystem - Construyendo Big Data ETL (Extraer, Transformar, Cargar) - ¿Qué herramientas Big Data usar y cuándo?

  • Hadoop vs. otras soluciones NoSQL
  • Para el acceso interactivo y aleatorio a los datos
  • Hbase (base de datos orientada a columnas) en la parte superior de Hadoop
  • Acceso aleatorio a los datos pero restricciones impuestas (max 1 PB)
  • No es bueno para análisis ad-hoc, bueno para el registro, el conteo, las series de tiempo
  • Sqoop - Importar desde bases de datos a Hive o HDFS (acceso JDBC / ODBC)
  • Flume - Transmite datos (por ejemplo, datos de registro) a HDFS

Big Data Management System

  • Piezas móviles, nodos de cálculo de inicio / error: ZooKeeper: para servicios de configuración / coordinación / nombramiento
  • Oleoducto / flujo de trabajo complejo: Oozie: gestiona el flujo de trabajo, las dependencias, la cadena de margaritas
  • Implemente, configure, administre el clúster, actualice, etc. (sys admin): Ambari
  • En la nube: Whirr

Análisis Predictivo - Técnicas Fundamentales y Aprendizaje Automático basado en Inteligencia Empresarial

  • Introducción al aprendizaje automático
  • Técnicas de clasificación de aprendizaje
  • Predicción bayesiana: preparación de un archivo de entrenamiento
  • Máquinas de vectores soporte
  • KNN p-Tree Algebra & mining vertical
  • Redes neuronales
  • Problema variable grande de Big Data: bosque aleatorio (RF)
  • Problema de Big Data Automation - Conjunto de varios modelos RF
  • Automatización a través de Soft10-M
  • Herramienta analítica de texto-Treeminer
  • Aprendizaje ágil
  • Aprendizaje basado en agentes
  • Aprendizaje distribuido
  • Introducción a las herramientas de código abierto para el análisis predictivo: R, Python, Rapidminer, Mahut

Predictive Analytics Ecosystem y su aplicación en Análisis de Inteligencia Criminal

  • La tecnología y el proceso de investigación
  • Analítica de Insight
  • Análisis de visualización
  • Análisis predictivo estructurado
  • Análisis predictivo no estructurado
  • Amenaza / fraude / perfil de vendedor
  • Motor de recomendación
  • Detección de patrones
  • Descubrimiento de reglas / escenarios: falla, fraude, optimización
  • Descubrimiento de causa raíz
  • Análisis de los sentimientos
  • CRM analytics
  • Análisis de red
  • Análisis de texto para obtener información de transcripciones, declaraciones de testigos, conversaciones en Internet, etc.
  • Revisión asistida por tecnología
  • Análisis de fraude
  • Analítica en tiempo real

===== Día 03 ===== Tiempo real y análisis escalables sobre Hadoop

  • Por qué los algoritmos analíticos comunes fallan en Hadoop / HDFS
  • Apache Hama- para la informática distribuida sincrónica masiva
  • Apache SPARK- para computación en clúster y analítica en tiempo real
  • CMU Graphics Lab2: enfoque asíncrono basado en gráficos para la informática distribuida
  • KNN p: enfoque basado en álgebra de Treeminer para reducir el costo de hardware de operación

Herramientas para eDiscovery y Forensics

  • eDiscovery sobre datos Big Data vs. Legacy: una comparación de costo y rendimiento
  • Predictive coding and Technology Assisted Review (TAR)
  • Demostración en vivo de vMiner para entender cómo TAR permite un descubrimiento más rápido
  • Indexación más rápida a través de HDFS - Velocidad de los datos
  • NLP (procesamiento de lenguaje natural) - productos y técnicas de código abierto
  • eDiscovery en idiomas extranjeros: tecnología para el procesamiento de idiomas extranjeros

Big Data BI para Cyber Security: obtener una vista de 360 grados, recopilación de datos rápida e identificación de amenazas

  • Comprender los conceptos básicos de análisis de seguridad: superficie de ataque, configuración incorrecta de seguridad, defensas del host
  • Infraestructura de red / Gran canal de datos / Respuesta ETL para análisis en tiempo real
  • Prescriptivo vs predictivo: regla fija basada en el descubrimiento automático de reglas de amenazas de metadatos

Recopilación de datos dispares para el análisis de inteligencia criminal

  • Usando IoT (Internet of Things) como sensores para capturar datos
  • Uso de imágenes satelitales para vigilancia doméstica
  • Usar datos de vigilancia e imágenes para identificación criminal
  • Otras tecnologías de recopilación de datos: drones, cámaras corporales, sistemas de etiquetado GPS y tecnología de imágenes térmicas
  • Combinando la recuperación automatizada de datos con datos obtenidos de informantes, interrogatorios e investigaciones
  • Pronosticar actividad criminal

===== Día 04 ===== Recopilación de datos dispares para el análisis de inteligencia criminal

  • Clasificación básica de Fraud Analytics: análisis basado en reglas versus análisis predictivo
  • Aprendizaje automático supervisado vs no supervisado para la detección de patrones de fraude
  • Fraude de empresa a empresa, fraude de reclamaciones médicas, fraude de seguros, evasión de impuestos y lavado de dinero

Social Media Analytics: recopilación y análisis de inteligencia

  • Cómo los medios sociales son utilizados por los delincuentes para organizar, reclutar y planificar
  • Big Data ETL API para extraer datos de redes sociales
  • Texto, imagen, metadatos y video
  • Análisis del sentimiento de los medios sociales
  • Filtrado contextual y no contextual de las redes sociales
  • Social Media Dashboard para integrar diversas redes sociales
  • Perfiles automáticos del perfil de las redes sociales
  • La demostración en vivo de cada análisis se realizará a través de la herramienta Treeminer

Big Data Analytics en procesamiento de imágenes y videos

  • Técnicas de almacenamiento de imágenes en Big Data - Solución de almacenamiento para datos que exceden los petabytes
  • LTFS (sistema de archivos de cinta lineal) y LTO (cinta lineal abierta)
  • GPFS-LTFS (Sistema General de Archivos en Paralelo - Sistema de Archivo de Cinta Lineal) - solución de almacenamiento en capas para datos de imágenes Grandes
  • Fundamentos de análisis de imágenes
  • Reconocimiento de objetos
  • Segmentación de imagen
  • Rastreo de movimiento
  • Reconstrucción de imágenes en 3-D

Biometría, ADN y programas de identificación de próxima generación

  • Más allá de las huellas dactilares y el reconocimiento facial
  • Reconocimiento de voz, pulsación de tecla (análisis del patrón de tipado de un usuario) y CODIS (sistema de índice de ADN combinado)
  • Más allá del emparejamiento de ADN: utilizando el fenotipado de ADN forense para construir una cara a partir de muestras de ADN

Big Data Dashboard para acceso rápido a diversos datos y visualización:

  • Integración de la plataforma de aplicaciones existente con Big Data Dashboard
  • Big Data Management
  • Estudio de caso de Big Data Dashboard: Tableau y Pentaho
  • Utilice la aplicación Big Data para impulsar los servicios basados en la ubicación en Govt.
  • Sistema de seguimiento y gestión

===== Día 05 ===== Cómo justificar la implementación de Big Data BI dentro de una organización

  • Definición del ROI (retorno de la inversión) para implementar Big Data
  • Estudios de casos para ahorrar tiempo de analista en la recopilación y preparación de datos: aumento de la productividad
  • Ganancia de ingresos del menor costo de licencia de la base de datos
  • Ganancia de ingresos de servicios basados en ubicación
  • Ahorro en los costos de la prevención del fraude
  • Un enfoque de hoja de cálculo integrado para calcular los gastos aproximados frente a la ganancia / ahorro de Ingresos de la implementación de Big Data.

Procedimiento paso a paso para reemplazar un sistema de datos heredado con un Big Data System

  • Hoja de ruta de migración de Big Data
  • ¿Qué información crítica se necesita antes de diseñar un sistema Big Data?
  • ¿Cuáles son las diferentes maneras de calcular el volumen, la velocidad, la variedad y la veracidad de los datos?
  • Cómo estimar el crecimiento de datos
  • Estudios de caso

Revisión de Big Data Vendors y revisión de sus productos.

  • Accenture
  • APTEAN (anteriormente CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB (Anteriormente 10Gen)
  • MU Sigma
  • Netapp
  • Soluciones Opera
  • Oráculo
  • Pentaho
  • Platfora
  • Qliktech
  • Cuántico
  • Rackspace
  • Revolution Analytics
  • Fuerza de ventas
  • SAVIA
  • Instituto SAS
  • Sisense
  • Software AG / Terracota
  • Soft10 Automatización
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Piensa en Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware (Parte de EMC)

Q / A sesión

Requerimientos

  • Conocimiento de los procesos de aplicación de la ley y los sistemas de datos
  • Conocimiento básico de SQL / Oracle o base de datos relacional
  • Comprensión básica de las estadísticas (a nivel de hoja de cálculo)
 35 Horas

Número de participantes


Precio por Participante​

Testimonios (3)

Próximos cursos

Categorías Relacionadas