Aprendizaje automático en la práctica: curso 41.500 rublos. del IBS Training Center, capacitación 24 horas, Fecha 26 de noviembre de 2023.
Miscelánea / / December 02, 2023
El curso se estructura en torno a varios casos prácticos que contienen tablas con datos iniciales.
Para cada caso, repasamos el ciclo de vida completo de un proyecto de aprendizaje automático:
investigación, limpieza y preparación de datos,
elegir un método de entrenamiento apropiado para la tarea (regresión lineal para regresión, bosque aleatorio para clasificación, K-medias y DBSCAN para agrupación),
entrenamiento utilizando el método elegido,
evaluación de resultados,
optimización del modelo,
Presentación del resultado al cliente.
Durante la parte de discusión del curso, discutimos problemas prácticos que enfrentan los estudiantes y que pueden resolverse utilizando los métodos discutidos.
Tópicos cubiertos:
1. Revisión de la tarea (teoría – 1 hora)
¿Qué problemas se resuelven bien con el aprendizaje automático y qué problemas intentan resolver?
¿Qué sucede si, en lugar de un científico de datos, contratas a alguien que no es especialista en el campo (solo un desarrollador/analista/gerente) con la expectativa de que aprenda en el proceso?
2. Preparación, limpieza, investigación de datos (teoría – 1 hora, práctica – 1 hora)
Cómo comprender los datos comerciales de origen (y, en general, detectar cualquier orden en ellos).
Secuencia de procesamiento.
Qué se puede y se debe delegar a los analistas de dominio y qué es mejor que lo haga el propio científico de datos.
Prioridades para la solución de un problema específico.
3. Clasificadores y Regresores (teoría – 2 horas, práctica – 2 horas)
Sección práctica: tareas bien formalizadas con datos preparados.
Diferencia entre tareas (clasificación binaria/no binaria/probabilística, regresión), redistribución de tareas entre clases.
Ejemplos de clasificación de problemas prácticos.
4. Agrupación (teoría – 1 hora, práctica – 2 horas)
Dónde y cómo realizar el clustering: investigación de datos, verificación del planteamiento del problema, verificación de los resultados.
Qué casos se pueden reducir a agrupaciones.
5. Evaluación del modelo (teoría – 1 hora, práctica – 1 hora)
Métricas de negocio y métricas técnicas.
Métricas para problemas de clasificación y regresión, matriz de error.
Métricas internas y externas de calidad del clustering.
Validación cruzada.
Evaluación del reciclaje.
6. Optimización (teoría – 5 horas, práctica – 3 horas)
Qué hace que un modelo sea mejor que otro: parámetros, características, conjuntos.
Gestión de configuraciones.
Práctica de selección de características.
Revisión de herramientas para encontrar los mejores parámetros, características y métodos.
7. Gráficos, informes, trabajo con tareas en vivo (teoría – 2 horas, práctica – 2 horas)
Cómo explicar claramente lo que está pasando: a ti mismo, al equipo, al cliente.
Respuestas más hermosas a preguntas sin sentido.
Cómo presentar tres terabytes de resultados en una diapositiva.
Pruebas semiautomáticas, qué puntos de control de procesos son realmente necesarios.
Desde tareas en vivo hasta un proceso completo de I+D (“I+D en la práctica”): análisis y análisis de tareas de la audiencia.