Programa del Curso
Introducción
Esta sección proporciona una introducción general de cuándo usar el "aprendizaje automático", qué se debe considerar y qué significa todo, incluidos los pros y los contras. Tipos de datos (estructurados / no estructurados / estáticos / transmitidos), validez / volumen de datos, análisis basados en datos vs impulsados por el usuario, modelos estadísticos frente a modelos de aprendizaje automático / desafíos del aprendizaje no supervisado, compensación de varianza de sesgo, iteración / evaluación, enfoques de validación cruzada, supervisados / no supervisados / refuerzo.
TEMAS PRINCIPALES
1. Comprender al Bayes ingenuo
- Conceptos básicos de los métodos bayesianos
- Probabilidad
- Probabilidad conjunta
- Probabilidad condicional con el teorema de Bayes
- El algoritmo de Bayes ingenuo
- La clasificación de Bayes ingenuo
- El estimador de Laplace
- Uso de características numéricas con Bayes ingenuo
2. Comprender los árboles de decisión
- Divide y vencerás
- El algoritmo del árbol de decisiones C5.0
- Elegir la mejor división
- Poda del árbol de decisiones
3. Comprender las redes neuronales
- De los neuronas biológicas a las artificiales
- Funciones de activación
- Topología de la red
- Número de capas
- Dirección del viaje de información
- Número de nodos en cada capa
- Entrenamiento de redes neuronales con retropropagación
- Deep Learning
4. Comprender las máquinas de vectores de soporte
- Clasificación con hiperplanos
- Encontrar la margen máxima
- Caso de datos linealmente separables
- Caso de datos no linealmente separables
- Uso de núcleos para espacios no lineales
5. Comprensión de la agrupación en clústeres
- Agrupamiento como tarea de aprendizaje automático
- El algoritmo k-means para agrupamiento
- Uso de distancia para asignar y actualizar clusters
- Elegir el número adecuado de clusters
6. Medición del rendimiento para la clasificación
- Trabajar con datos de predicción de clasificación
- Una mirada más cercana a las matrices de confusión
- Uso de matrices de confusión para medir el rendimiento
- Más allá de la precisión – otras medidas de rendimiento
- La estadística kappa
- Sensibilidad y especificidad
- Precisión y exhaustividad
- La medida F
- Visualización de los compromisos del rendimiento
- Curvas ROC
- Estimación del rendimiento futuro
- El método holdout
- Validación cruzada
- Bootstrap muestreo
7. Ajuste de los modelos de stock para un mejor rendimiento
- Uso del caret para el ajuste automático de parámetros
- Creamos un modelo sencillo ajustado
- Personalización del proceso de ajuste
- Mejora del rendimiento del modelo con aprendizaje meta
- Comprender los ensembles
- Bolsa (Bagging)
- Aumento (Boosting)
- Bosques aleatorios
- Entrenamiento de bosques aleatorios
- Evaluación del rendimiento de los bosques aleatorios
TEMAS MENORES
8. Comprender la clasificación utilizando los vecinos más cercanos
- El algoritmo kNN
- Cálculo de distancia
- Elegir un k adecuado
- Preparación de datos para usar con kNN
- ¿Por qué el algoritmo kNN es perezoso?
9. Comprender las reglas de clasificación
- Separar y vencer
- El algoritmo One Rule
- El algoritmo RIPPER
- Reglas desde árboles de decisión
10. Comprender la regresión
- Regresión lineal simple
- Estimación por mínimos cuadrados ordinarios
- Correlaciones
- Regresión lineal múltiple
11. Comprender los árboles de regresión y los árboles modelo
- Añadir regresión a los árboles
12. Comprender las reglas de asociación
- El algoritmo Apriori para aprendizaje de reglas de asociación
- Midiendo el interés de la regla – soporte y confianza
- Creamos un conjunto de reglas con el principio Apriori
Extras
- Spark/PySpark/MLlib y Multi-armed bandits
Requerimientos
Python Conocimiento