Temario del curso
Introducción al Aprendizaje por Refuerzo y a la IA Agente
- Toma de decisiones bajo incertidumbre y planificación secuencial
- Componentes clave del RL: agentes, entornos, estados y recompensas
- Rol del RL en sistemas de IA adaptativa y agente
Procesos de Decisión de Markov (MDPs)
- Definición formal y propiedades de los MDPs
- Funciones de valor, ecuaciones de Bellman y programación dinámica
- Evaluación de políticas, mejora y iteración
Aprendizaje por Refuerzo sin Modelo
- Aprendizaje de Monte Carlo y Temporal-Difference (TD)
- Q-learning y SARSA
- Práctica: implementación de métodos de RL tabulares en Python
Aprendizaje por Refuerzo Profundo
- Combinación de redes neuronales con RL para la aproximación funcional
- Redes Neuronales de Q-Profundas (DQN) y replay de experiencias
- Arquitecturas Actor-Critic y gradientes de política
- Práctica: entrenamiento de un agente usando DQN y PPO con Stable-Baselines3
Estrategias de Exploración y Diseño de Recompensas
- Equilibrio entre exploración y explotación (ε-greedy, UCB, métodos de entropía)
- Diseño de funciones de recompensa y evitación de comportamientos no deseados
- Formulación de recompensas y aprendizaje curricular
Temas Avanzados en RL y Toma de Decisiones
- Aprendizaje por refuerzo multi-agente y estrategias cooperativas
- Aprendizaje por refuerzo jerárquico y marco de opciones
- RL offline y aprendizaje por imitación para un despliegue más seguro
Entornos de Simulación y Evaluación
- Uso de OpenAI Gym y entornos personalizados
- Espacios de acción continuos vs. discretos
- Métricas para el rendimiento del agente, estabilidad y eficiencia muestral
Integración de RL en Sistemas de IA Agente
- Combinación de razonamiento y RL en arquitecturas híbridas de agentes
- Integración del aprendizaje por refuerzo con agentes que utilizan herramientas
- Consideraciones operativas para el escalado y despliegue
Proyecto Final
- Diseño e implementación de un agente de aprendizaje por refuerzo para una tarea simulada
- Análisis del rendimiento durante el entrenamiento y optimización de hiperparámetros
- Demostración de comportamiento adaptativo y toma de decisiones en un contexto agente
Resumen y Próximos Pasos
Requerimientos
- Proficiencia avanzada en programación Python
- Conocimientos sólidos de conceptos de aprendizaje automático y aprendizaje profundo
- Familiaridad con álgebra lineal, probabilidad y métodos de optimización básicos
Audiencia
- Ingenieros de aprendizaje por refuerzo e investigadores aplicados en IA
- Desarrolladores de robótica y automatización
- Equipos de ingeniería que trabajan en sistemas de IA adaptativa y agente
Testimonios (3)
Buena mezcla de conocimientos y práctica
Ion Mironescu - Facultatea S.A.I.A.P.M.
Curso - Agentic AI for Enterprise Applications
Traducción Automática
La mezcla de teoría y práctica y de perspectivas de alto y bajo nivel
Ion Mironescu - Facultatea S.A.I.A.P.M.
Curso - Autonomous Decision-Making with Agentic AI
Traducción Automática
ejercicios prácticos
Daniel - Facultatea S.A.I.A.P.M.
Curso - Agentic AI in Multi-Agent Systems
Traducción Automática