Ajuste fino con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF)
Aprendizaje por Refuerzo a partir del Feedback Humano (RLHF) es un método de vanguardia utilizado para afinar modelos como ChatGPT y otros sistemas de IA de primer nivel.
Este entrenamiento dirigido por un instructor (en línea o en el lugar) está destinado a ingenieros de aprendizaje automático y investigadores de IA de nivel avanzado que deseen aplicar RLHF para afinar modelos de IA grandes con rendimiento superior, seguridad y alineación.
Al final de este entrenamiento, los participantes podrán:
- Comprender los fundamentos teóricos del RLHF y por qué es esencial en el desarrollo moderno de IA.
- Implementar modelos de recompensa basados en feedback humano para guiar procesos de aprendizaje por refuerzo.
- Afinar modelos de lenguaje grandes utilizando técnicas de RLHF para alinear las salidas con las preferencias humanas.
- Aplicar mejores prácticas para escalar flujos de trabajo de RLHF para sistemas de IA de producción.
Formato del Curso
- Lectura interactiva y discusión.
- Muchos ejercicios y práctica.
- Implementación práctica en un entorno de laboratorio en vivo.
Opciones de Personalización del Curso
- Para solicitar un entrenamiento personalizado para este curso, por favor contáctenos para hacer los arreglos necesarios.
Programa del Curso
Introducción al Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF)
- ¿Qué es el RLHF y por qué es importante?
- Comparación con métodos de ajuste supervisado
- Aplicaciones del RLHF en sistemas de IA modernos
Modelado de Recompensas con Retroalimentación Humana
- Recopilación y estructuración de la retroalimentación humana
- Construcción y entrenamiento de modelos de recompensa
- Evaluación de la efectividad del modelo de recompensa
Entrenamiento con Optimización de Política Proximal (PPO)
- Visión general de los algoritmos PPO para RLHF
- Implementación de PPO con modelos de recompensa
- Ajuste iterativo y seguro de modelos
Ajuste Práctico de Modelos de Lenguaje
- Preparación de conjuntos de datos para flujos de trabajo de RLHF
- Ajuste práctico de un modelo de lenguaje pequeño usando RLHF
- Desafíos y estrategias de mitigación
Escalado del RLHF a Sistemas en Producción
- Consideraciones de infraestructura y computación
- Garantía de calidad y bucles de retroalimentación continua
- Mejores prácticas para implementación y mantenimiento
Consideraciones Éticas y Mitigación del Sesgo
- Abordar riesgos éticos en la retroalimentación humana
- Estrategias de detección y corrección de sesgos
- Asegurar alineación y salidas seguras
Casos de Estudio y Ejemplos del Mundo Real
- Estudio de caso: Ajuste de ChatGPT con RLHF
- Otras implementaciones exitosas de RLHF
- Lecciones aprendidas e insights de la industria
Resumen y Pasos Siguientes
Requerimientos
- Un conocimiento de los fundamentos del aprendizaje supervisado y por refuerzo
- Experiencia en el ajuste fino de modelos y arquitecturas de redes neuronales
- Familiaridad con la programación en Python y marcos de aprendizaje profundo (por ejemplo, TensorFlow, PyTorch)
Audiencia
- Ingenieros de machine learning
- Investigadores de IA
Los cursos públicos requieren más de 5 participantes.
Ajuste fino con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) - Reserva
Ajuste fino con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) - Consulta
Ajuste fino con Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) - Consulta de consultoría
Consulta de consultoría
Próximos cursos
Cursos Relacionados
Técnicas Avanzadas en Aprendizaje Transferido
14 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales del aprendizaje automático de nivel avanzado que desean dominar técnicas de transferencia de aprendizaje de vanguardia y aplicarlas a problemas complejos del mundo real.
Al final de esta formación, los participantes serán capaces de:
- Comprender conceptos y metodologías avanzadas en el aprendizaje por transferencia.
- Implemente técnicas de adaptación específicas del dominio para modelos previamente entrenados.
- Aplique el aprendizaje continuo para gestionar tareas y conjuntos de datos en evolución.
- Domine el ajuste multitarea para mejorar el rendimiento del modelo en todas las tareas.
Implementación de Modelos Afinados en Producción
21 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel avanzado que desean implementar modelos ajustados de manera confiable y eficiente.
Al final de esta formación, los participantes serán capaces de:
- Comprenda los desafíos de implementar modelos ajustados en producción.
- Incluya e implemente modelos en contenedores con herramientas como Docker y Kubernetes.
- Implemente la supervisión y el registro para los modelos implementados.
- Optimice los modelos para la latencia y la escalabilidad en escenarios del mundo real.
Afinamiento Específico para Finanzas
21 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel intermedio que desean adquirir habilidades prácticas en la personalización de modelos de IA para tareas financieras críticas.
Al final de esta formación, los participantes serán capaces de:
- Comprender los fundamentos del ajuste fino para aplicaciones financieras.
- Aproveche los modelos entrenados previamente para tareas específicas de dominio en finanzas.
- Aplicar técnicas de detección de fraude, evaluación de riesgos y generación de asesoramiento financiero.
- Garantice el cumplimiento de las regulaciones financieras como GDPR y SOX.
- Implemente prácticas éticas de seguridad de datos e IA en aplicaciones financieras.
Afinar Modelos y Grandes Modelos de Lenguaje (LLMs)
14 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel intermedio a avanzado que desean personalizar modelos previamente entrenados para tareas y conjuntos de datos específicos.
Al final de esta formación, los participantes serán capaces de:
- Comprender los principios del ajuste fino y sus aplicaciones.
- Prepare conjuntos de datos para ajustar los modelos previamente entrenados.
- Ajuste los modelos de lenguaje grandes (LLM) para las tareas de NLP.
- Optimice el rendimiento del modelo y aborde los desafíos comunes.
Afinado Eficiente con Adaptación de Rango Bajo (LoRA)
14 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a desarrolladores de nivel intermedio y profesionales de la IA que desean implementar estrategias de ajuste para modelos grandes sin la necesidad de grandes recursos computacionales.
Al final de esta formación, los participantes serán capaces de:
- Comprender los principios de la Adaptación de Bajo Rango (LoRA).
- Implemente LoRA para un ajuste eficiente de modelos grandes.
- Optimice el ajuste fino para entornos con recursos limitados.
- Evalúe e implemente modelos ajustados a LoRA para aplicaciones prácticas.
Afinando Modelos Multimodales
28 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel avanzado que deseen dominar el ajuste fino de modelos multimodales para soluciones innovadoras de IA.
Al final de esta formación, los participantes serán capaces de:
- Comprender la arquitectura de modelos multimodales como CLIP y Flamingo.
- Prepare y preprocese conjuntos de datos multimodales de forma eficaz.
- Ajuste los modelos multimodales para tareas específicas.
- Optimice los modelos para las aplicaciones y el rendimiento del mundo real.
Afinado para el Procesamiento de Lenguaje Natural (PLN)
21 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel intermedio que desean mejorar sus proyectos de PNL a través del ajuste efectivo de modelos de lenguaje preentrenados.
Al final de esta formación, los participantes serán capaces de:
- Comprender los fundamentos del ajuste fino de las tareas de PNL.
- Ajuste los modelos previamente entrenados, como GPT, BERT y T5, para aplicaciones específicas de NLP.
- Optimice los hiperparámetros para mejorar el rendimiento del modelo.
- Evalúe e implemente modelos ajustados en escenarios del mundo real.
Afinar DeepSeek LLM para Modelos de IA Personalizados
21 HorasEsta formación en vivo dirigida por un instructor (en línea o presencial) en Bolivia está destinada a investigadores avanzados de IA, ingenieros de aprendizaje automático y desarrolladores que desean ajustar finamente los modelos LLM de DeepSeek para crear aplicaciones de IA especializadas adaptadas a industrias específicas, dominios o necesidades empresariales.
Al finalizar esta formación, los participantes podrán:
- Comprender la arquitectura y las capacidades de los modelos DeepSeek, incluyendo DeepSeek-R1 y DeepSeek-V3.
- Preparar conjuntos de datos y preprocesar datos para el ajuste fino.
- Ajustar finamente los LLM de DeepSeek para aplicaciones específicas de dominio.
- Optimizar y desplegar eficientemente modelos ajustados finamente.
Fine-Tuning Modelos de Lenguaje Grandes Usando QLoRA
14 HorasEsta formación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está destinada a ingenieros de aprendizaje automático de nivel intermedio y avanzado, desarrolladores de IA y científicos de datos que desean aprender a utilizar QLoRA para ajustar eficientemente grandes modelos a tareas específicas y personalizaciones.
Al finalizar esta formación, los participantes podrán:
- Comprender la teoría detrás de QLoRA y las técnicas de cuantización para modelos de lenguaje grandes (LLM).
- Implementar QLoRA en el ajuste fino de grandes modelos de lenguaje para aplicaciones específicas de dominio.
- Optimizar el rendimiento del ajuste fino en recursos computacionales limitados utilizando cuantización.
- Deploy and evaluate fine-tuned models in real-world applications efficiently.
Ajuste fino de modelos de lenguaje de código abierto (LLaMA, Mistral, Qwen, etc.)
14 HorasEste curso dirigido por un instructor y en vivo en Bolivia (en línea o presencial) está orientado a practicantes de ML intermedios y desarrolladores de IA que deseen ajustar y desplegar modelos de pesos abiertos como LLaMA, Mistral y Qwen para aplicaciones específicas de negocio o internas.
Al final de este entrenamiento, los participantes serán capaces de:
- Entender el ecosistema y las diferencias entre los modelos de lenguaje de gran escala (LLMs) de código abierto.
- Preparar conjuntos de datos y configuraciones de ajuste fino para modelos como LLaMA, Mistral y Qwen.
- Ejecutar pipelines de ajuste fino utilizando Hugging Face Transformers y PEFT.
- Evaluar, guardar y desplegar modelos ajustados finamente en entornos seguros.
Optimización de Grandes Modelos para el Ajuste Fino con Eficiencia Económica
21 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel avanzado que desean dominar técnicas para optimizar modelos grandes para un ajuste rentable en escenarios del mundo real.
Al final de esta formación, los participantes serán capaces de:
- Comprenda los desafíos de ajustar modelos grandes.
- Aplique técnicas de entrenamiento distribuidas a modelos grandes.
- Aproveche la cuantificación y la poda de modelos para lograr la eficiencia.
- Optimice la utilización del hardware para las tareas de ajuste.
- Implemente modelos ajustados de forma eficaz en entornos de producción.
Ingeniería de Invitaciones y Afinado con Pocos Ejemplos
14 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o en el sitio) está dirigida a profesionales de nivel intermedio que desean aprovechar el poder de la ingeniería rápida y el aprendizaje de pocos disparos para optimizar el rendimiento de LLM para aplicaciones del mundo real.
Al final de esta formación, los participantes serán capaces de:
- Comprender los principios de la ingeniería rápida y el aprendizaje de pocos disparos.
- Diseñe indicaciones efectivas para varias tareas de NLP.
- Aproveche las técnicas de pocos disparos para adaptar los LLM con datos mínimos.
- Optimice el rendimiento de LLM para aplicaciones prácticas.
Técnicas de Eficiencia Paramétrica (PEFT) para Modelos de Lenguaje Grande (LLM)
14 HorasEsta formación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está destinada a científicos de datos y ingenieros de IA de nivel intermedio que desean afinar modelos de lenguaje grandes de manera más económica y eficiente utilizando métodos como LoRA, Adapter Tuning y Prefix Tuning.
Al finalizar esta formación, los participantes podrán:
- Comprender la teoría detrás de los enfoques de afinado con parámetros eficientes.
- Implementar LoRA, Adapter Tuning y Prefix Tuning utilizando Hugging Face PEFT.
- Comparar el rendimiento y las compensaciones de costos de los métodos PEFT frente al afinado completo.
- Deploy and scale fine-tuned LLMs with reduced compute and storage requirements.
Introducción al Aprendizaje por Transferencia
14 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales del aprendizaje automático de nivel principiante a intermedio que deseen comprender y aplicar técnicas de aprendizaje por transferencia para mejorar la eficiencia y el rendimiento en proyectos de IA.
Al final de esta formación, los participantes serán capaces de:
- Comprender los conceptos básicos y los beneficios del aprendizaje por transferencia.
- Explore los modelos preentrenados más populares y sus aplicaciones.
- Realice el ajuste fino de los modelos previamente entrenados para tareas personalizadas.
- Aplicar el aprendizaje por transferencia para resolver problemas del mundo real en PNL y visión artificial.
Solución de Desafíos en el Afinado Finito
14 HorasEsta capacitación en vivo dirigida por un instructor en Bolivia (en línea o presencial) está dirigida a profesionales de nivel avanzado que desean perfeccionar sus habilidades para diagnosticar y resolver desafíos de ajuste para modelos de aprendizaje automático.
Al final de esta formación, los participantes serán capaces de:
- Diagnostique problemas como el sobreajuste, el subajuste y el desequilibrio de datos.
- Implementar estrategias para mejorar la convergencia de modelos.
- Optimice el ajuste fino de las canalizaciones para mejorar el rendimiento.
- Depurar procesos de capacitación utilizando herramientas y técnicas prácticas.