Curso “Analista de datos” - curso 96.000 rublos. del Taller Yandex, formación 7 meses, fecha 7 de diciembre de 2023.
Miscelánea / / December 02, 2023
Un analista de datos extrae significado de números y valores: ve tendencias, predice eventos y ayuda a una empresa a comprender a los clientes, optimizar procesos y crecer.
El mercado necesita especialistas que puedan utilizar los datos de forma útil. Un estudio de la empresa de personal Ancor de septiembre de 2022 mostró que el 45% de las empresas rusas buscan analistas para unirse a su equipo.
Habilidades que aprenderás en el curso.
Título profesional
Analista, Analista de datos, Analista de datos
Oportunidades de desarrollo: Analista de Producto, Analista de Marketing, Analista de BI, Especialista en Ciencia de Datos
Estas son las tecnologías y herramientas que utilizará:
Pitón
Cuaderno Jupyter
SQL
PostgreSQL
Cuadro
Pruebas A/B
Empieza a ganar dinero analizando
Comenzarás desde una posición junior y luego solo avanzarás. Ascenderás en la escala profesional y crecerás en valor. Y un día no habrá precio para ti.
Programa completo del curso de análisis de datos
Lo actualizamos periódicamente para garantizar que satisfaga las necesidades de la industria y los empleadores.
En otras palabras, aprende sólo lo que definitivamente será útil en su trabajo.
Parte gratuita - 1 semana
Introducción gratuita: conceptos básicos de Python y análisis de datos
Aprenda los conceptos básicos del análisis de datos y comprenda lo que hacen los analistas y científicos de datos.
• Catnamycs de Moscú. Visualización de datos en pantalla. Archivos CSV. Trabajar con tablas. Mapas de calor. Multiplicar una columna por un número entero.
• Errores en el código. Errores de sintaxis. Errores de denominación. Errores al dividir por cero. Errores al importar un módulo.
• Variables y tipos de datos. Variables. Tipos de datos. Operaciones aritméticas con números y cadenas.
• Cómo formular hipótesis. Hipótesis. Ciclos HADI. Pensamiento analítico. Lectura de gráficos.
• Qué hacen los científicos de datos. Tareas de analista. Clarificación de tareas. Descomposición. Etapas del proyecto.
• Comprobación de conversiones. Conversión. Exploración de datos. Formación de conclusiones.
• Payback de campañas publicitarias. Gráfico de columnas. Diferencia de elementos. Indexación en columnas.
• Aprendizaje automático y ciencia de datos. Formación en aprendizaje automático. Encontrar valores únicos en columnas. Indexación lógica. Agrupar valores en una tabla. Errores de predicción.
• Proyecto final. Segmentación de usuarios.
PythonPandasErroresSeabornHipótesisConversiónVariablesTipos de datosMapas de calor
1 sprint 3 semanas
Pitón básico
Profundice en el lenguaje de programación Python y la biblioteca Pandas.
• Variables y tipos de datos. Lenguaje Python. Variables. Visualización de datos en pantalla. Visualización de objetos en la pantalla. Manejo de errores, intente... excepto operador. Tipos de datos. Conversiones de tipos de datos.
• Líneas. Índices en filas. Cortes de línea. Operaciones sobre cuerdas. Métodos de cadena. Formateo de cadenas, método format(), cadenas f.
• Listas. Índices en listas. Lista de sectores. Agregar elementos a una lista. Eliminando elementos de la lista. Suma y multiplicación de listas. • Ordenar listas. Busque elementos en una lista. Dividir una cadena en una lista de cadenas, concatenar una lista de cadenas en una cadena.
• En bucle. Ciclos. Enumeración de elementos. Iterando sobre índices de elementos. Procesamiento de elementos de lista mediante bucles: encontrar la suma y el producto de elementos.
• Listas anidadas. Recorriendo listas anidadas con valores de conteo. Agregar elementos a listas anidadas. Ordenar listas anidadas.
• Operador condicional. Mientras bucle. Tipo de datos booleanos. Valores booleanos. Expresiones lógicas. Expresiones lógicas compuestas. Declaración condicional si...elif...else. Derivación. Filtrado de listas mediante un operador condicional. Mientras bucle.
• Funciones. Asignación de funciones. Parámetros y argumentos. Parámetros con valores predeterminados. Argumentos posicionales y con nombre. Devolver un resultado de una función.
• Diccionarios. Claves y valores. Buscando un valor por clave. Agregar elementos al diccionario. Lista de diccionarios. Hermosa producción de diccionarios.
• Biblioteca de pandas. Lectura de archivos csv. Marco de datos. Constructor de marcos de datos. Imprimir la primera y última fila de un marco de datos. Indexación en marcos de datos. Indexación en columnas de series.
• Preprocesamiento de datos. El principio GIGO. Cambiar el nombre de las columnas del marco de datos. Manejo de valores faltantes. Manejo de duplicados explícitos e implícitos.
• Análisis de datos y presentación de resultados. Agrupación de datos. Ordenar datos. Conceptos básicos de la estadística descriptiva.
• Jupyter Notebook: un cuaderno en una celda. Interfaz de portátil Jupyter. Atajos de Jupyter Notebook.
BuclesPythonPandasCadenasListasFuncionesDiccionariosMarco de datosVariablesTipos de datosDeclaración condicional
Proyecto
Compare los datos de los usuarios de Yandex Music por ciudad y día de la semana.
2 sprint 2 semanas
Preprocesamiento de datos
Aprenda a limpiar datos de valores atípicos, omisiones y duplicados, así como a convertir diferentes formatos de datos.
• Trabajar con pases. Conversión. Galletas. Variables categóricas y cuantitativas. Manejo de brechas en variables categóricas. Manejo de brechas en variables cuantitativas. Manejo de brechas en variables cuantitativas por categoría.
• Cambiar tipos de datos. Lectura de archivos Excel. Convertir series a tipo numérico. Módulo numérico, método abs(). Trabajar con fecha y hora. Manejo de errores, intente... excepto operador. Fusionar marcos de datos, método merge(). Tablas dinamicas.
• Buscar duplicados. Busque duplicados, distinga entre mayúsculas y minúsculas.
• Categorización de datos. Descomposición de tablas. Categorización por rangos numéricos. Clasifique en función de varios valores por fila.
• Pensamiento sistemático y crítico en el trabajo del analista. Pensamiento sistémico. Causas de errores de datos. Pensamiento crítico.
PythonPandasManejo de brechasProcesamiento de datosProcesamiento duplicadoCategorización de datos
Proyecto
Analizar datos sobre clientes bancarios y determinar la proporción de solventes.
3 sprint 2 semanas
Análisis exploratorio de datos
Aprenda los conceptos básicos de probabilidad y estadística. Utilícelos para explorar las propiedades básicas de los datos, buscando patrones, distribuciones y anomalías. Conozca la biblioteca Matplotlib. Dibuje diagramas y practique analizando gráficos.
• Primeros gráficos y conclusiones. Usando tablas dinámicas. Gráfico de barras. Distribuciones. Diagrama de rango.
• Estudio de cortes de datos. El método de consulta(). Trabajar con fecha y hora. Trazar gráficos usando el método plot(). La navaja de Occam.
• Trabajar con múltiples fuentes de datos. Sector de datos basado en objetos externos. Agregar nuevas columnas a un marco de datos. Agregar datos de otros marcos de datos. Cambiar el nombre de las columnas. Combinando tablas usando los métodos merge() y join().
• Relaciones de datos. Gráfico de dispersión. Correlación de variables. Matriz de diagrama de dispersión.
• Validación de resultados. Consolidación de grupos. División de datos en grupos.
PythonPandasMatplotlibHistogramasRebanadas de datosAnálisis de datosGráfico de dispersiónGráfico de dispersiónVisualización de datosEstadísticas descriptivas
Proyecto
Explore el archivo de anuncios de venta de bienes raíces en San Petersburgo y la región de Leningrado.
4 sprint 3 semanas
Análisis de datos estadísticos.
Aprenda a analizar relaciones en datos utilizando métodos estadísticos. Aprenda qué son la significación estadística y las hipótesis.
• Combinatoria. Combinaciones. Regla de multiplicación. Reordenamientos. Número de permutaciones. Colocaciones. Número de colocaciones. Combinaciones. Número de combinaciones.
• Teoría de probabilidad. Experimento. Espacio de probabilidad. Eventos. Probabilidad. Eventos que se cruzan y son mutuamente excluyentes. Diagrama de Euler-Venn. Ley de los grandes números.
• Estadísticas descriptivas. Variables categóricas y cuantitativas. Moda y mediana. Valor promedio. Dispersión. Desviación Estándar. Cuartiles y percentiles. Diagrama de rango. Gráfico de columnas. Densidad de frecuencia. Gráfico de barras.
• Variables aleatorias. Variable aleatoria discreta. Distribución de probabilidad para una variable aleatoria discreta. Función acumulativa (función de distribución) de una variable aleatoria discreta. Expectativa matemática de una variable aleatoria discreta. Dispersión de una variable aleatoria discreta.
• Distribuciones. El experimento de Bernoulli. Experimento binomial. Distribución binomial. Distribución uniforme continua. Distribución normal. Distribución normal estándar. CDF y PPF para distribución normal. Distribución de veneno. Aproximación de una distribución por otra.
• Probar hipótesis. Población general. Muestra. Distribución muestral. Teorema del límite central. Hipótesis unilaterales y bilaterales. Valor p. Probar hipótesis unilaterales y bilaterales para una muestra. Probar la hipótesis sobre la igualdad de las medias de dos poblaciones generales. Probar la hipótesis de igualdad de medias para muestras dependientes.
ScipyNumpyPythonPandasMatplotlibCombinatoriaDistribucionesPruebas de hipótesisTeoría de la probabilidad
Proyecto
Pruebe las hipótesis del servicio de alquiler de scooters para ayudar a hacer crecer su negocio.
Sprint adicional
Teoría de probabilidad
Recordar o reconocer los términos básicos de la teoría de la probabilidad: eventos independientes, opuestos, incompatibles, etc. Utilizando ejemplos sencillos y problemas divertidos, practicarás cómo trabajar con números y desarrollarás la lógica de las soluciones.
Este es un sprint opcional. Esto significa que cada alumno elige él mismo una de las opciones:
• Domina un sprint adicional de 10 lecciones cortas, repasa la teoría y resuelve problemas.
• Abrir sólo el bloque con tareas de entrevista, recordar la práctica sin teoría.
• Saltarse el curso por completo o volver a él cuando haya tiempo y necesidad.
PythonEventosProbabilidadTeorema de BayesVariables aleatoriasTeoría de la probabilidadAnálisis de datos estadísticos
5 sprints 1 semana
Proyecto final del primer módulo.
Aprenda a realizar investigaciones preliminares de datos y a formular y probar hipótesis.
ScipyNumpyPythonPandasMatplotlibAnálisis de datosPrueba de hipótesisProcesamiento de datos
Proyecto
Encuentre patrones en los datos de ventas de juegos.
6 sprint 2 semanas
SQL básico
Aprenda los conceptos básicos del lenguaje de consulta estructurado SQL y el álgebra relacional para trabajar con bases de datos. Familiarícese con las características de trabajar en PostgreSQL, un popular sistema de gestión de bases de datos (DBMS). Aprenda a escribir consultas de distintos niveles de complejidad y traducir problemas comerciales a SQL. Trabajarás con una base de datos de una tienda online especializada en películas y música.
• Introducción a las bases de datos. Sistemas de gestión de bases de datos (DBMS). lenguaje SQL. Consultas SQL. Formateo de consultas SQL.
• Porciones de datos en SQL. Tipos de datos en PostgreSQL. Conversión de tipo de datos. Dónde cláusula. Operadores logicos. Porciones de datos. Operadores EN, COMO, ENTRE. Trabajar con fecha y hora. Manejo de valores faltantes. Construcción CASE condicional.
• Funciones de agregación. Agrupar y ordenar datos. Operaciones matemáticas. Funciones de agregación. Agrupación de datos. Ordenar datos. Filtrado por datos agregados, TENIENDO operador.
• Relaciones entre tablas. Tipos de uniones de tablas. Diagramas ER. Cambiar el nombre de campos y tablas. Alias. Fusión de tablas. Tipos de uniones: UNIÓN INTERIOR, UNIÓN IZQUIERDA, UNIÓN DERECHA, UNIÓN EXTERIOR COMPLETA. Tipos alternativos de uniones UNION y UNION ALL.
• Subconsultas y expresiones de tablas comunes. Subconsultas. Subconsultas en FROM. Subconsultas en DONDE. Una combinación de combinaciones y subconsultas. Expresiones de tabla comunes (CTE). Variabilidad de solicitudes.
SQLDBMSPostgreSQLSubconsultasBases de datosConsultas SQLFiltrar datosOrdenar datosAgrupar datosUnir tablasExpresiones de tablas comunes
Proyecto
Escribirá una serie de consultas de diversa complejidad en una base de datos que almacena datos sobre inversores de riesgo, nuevas empresas y sus inversiones.
7 sprint 3 semanas
Análisis de indicadores de negocio.
Conozca qué métricas hay en los negocios. Aprenda a utilizar herramientas de análisis de datos en los negocios: análisis de cohortes, embudo de ventas y economía unitaria.
• Métricas y embudos. Conversión. Embudos. Embudo de marketing. Impresiones. Clics. CTR. Embudo de producto.
• Análisis de cohortes. Perfil del usuario. tasa de retención. Tasa de abandono. Horizonte de análisis. Visualización de análisis de cohortes. Análisis de retención de cohortes aleatorias. Conversión en análisis de cohortes. Calcular métricas en Python.
• Economía unitaria. Métricas LTV, CAC, ROI. ARPU, ARPU. Calcular métricas en Python. Visualización avanzada de métricas. Parámetro compartido. Media móvil.
• Métricas personalizadas. Evaluación de la actividad del usuario. Sesión de usuario. Investigación de anomalías.
MétricasEmbudosConversiónEconomía unitariaAnálisis de cohortesMétricas de productosMétricas de marketing
Proyecto
Con base en los datos, comprender el comportamiento de los usuarios, así como analizar la rentabilidad de los clientes y el ROI de la publicidad para hacer recomendaciones para el departamento de marketing.
8 sprint 2 semanas
SQL avanzado
Realizará un curso adicional sobre cómo trabajar con bases de datos y se acercará aún más a los negocios. Utilizando el lenguaje SQL, analizará el cálculo de las principales métricas comerciales que conoció en el sprint “Análisis de indicadores comerciales”. Considere trabajar con una herramienta compleja como funciones de ventana. Aprenda a cambiar el contenido de las bases de datos localmente, sin un simulador, utilizando bibliotecas y programas cliente especiales para Python.
• Cálculo de indicadores empresariales. Esquema de datos. Conversión. LTV. ARPU. ARPU. Retorno de la inversión. Cálculo mediante SQL.
• Agregación de funciones de ventana. SOBRE expresión. Parámetro de ventana PARTICIÓN POR.
• Funciones de ranking de ventanas. Funciones de clasificación. Ventana ORDEN POR operador. NUMERO DE FILA(). RANGO(). DENSE_RANK(). NTILE(). Operadores de ventana junto con funciones de clasificación.
• Funciones de desplazamiento de ventana. Valores acumulativos. Funciones de compensación. DIRIGIR(). RETRASO(). Funciones de ventana y alias.
• Análisis de cohortes. Tasa de retención, tasa de abandono. LTV.
• Instalación y configuración de la base de datos y cliente de base de datos. Cliente de base de datos. Instalación de PostgreSQL. Instalando DBeaver. Interfaz DBeaver. Creación de base de datos. Implementación de un volcado de base de datos. Cargando resultados de consultas. Presentación de resultados de consultas.
SQLDBMSMétricasPostgreSQLBases de datosConsultas SQLFunciones de ventanaAnálisis de cohortes
Proyecto
Usando Python y SQL, conéctese a una base de datos, calcule y visualice métricas clave en un sistema de servicio de preguntas y respuestas de programación.
9 sprint 2 semanas
Toma de decisiones en los negocios
Aprenderá qué son las pruebas A/B y comprenderá en qué casos se utiliza. Aprenda a diseñar pruebas A/B y evaluar sus resultados.
• Fundamentos de la prueba de hipótesis en la empresa. Métricas líderes. Bases de los experimentos. Generación de hipótesis. Priorización de métricas. Elegir un método para realizar un experimento. Métodos cualitativos para probar hipótesis. Métodos cuantitativos para probar hipótesis. Ventajas y desventajas de las pruebas A/B.
• Priorización de hipótesis. Marco ARROZ. Parámetro de alcance. Parámetro de impacto. Parámetro de confianza. Parámetro de esfuerzos.
• Preparándose para realizar una prueba A/B. Prueba A/A. Errores tipo I y II. Poder de la prueba estadística. Importancia de la prueba estadística. Comparaciones múltiples, métodos para reducir la probabilidad de error. Cálculo del tamaño de la muestra y duración de un test A/B. Análisis gráfico de métricas.
• Análisis de resultados de pruebas A/B. Probando la hipótesis de igualdad de acciones. Prueba de Shapiro-Wilk para comprobar la normalidad de los datos. Pruebas estadísticas no paramétricas. Prueba de Mann Whitney. Estabilidad de métricas acumuladas. Análisis de valores atípicos y ráfagas.
• Algoritmos de comportamiento. Hechos, emociones, valoraciones. Explique su punto de vista.
Pruebas A/B Priorización de hipótesisPreparación para las pruebas A/B Análisis de los resultados de las pruebas A/B Análisis de los resultados de las pruebas A/B
Proyecto
Analiza los resultados de las pruebas A/B en una gran tienda online.
10 sprint 1 semana
Proyecto final del segundo módulo
Aprenda a probar hipótesis estadísticas utilizando pruebas A/B y prepare conclusiones y recomendaciones en formato de informe analítico.
Embudo de ventasPruebas A/BProcesamiento de datosAnálisis de datos de investigación
Proyecto
Explore el embudo de ventas y analice los resultados de las pruebas A/B en la aplicación móvil.
11 sprint 2 semanas
Cómo contar una historia con datos
Aprenderás a presentar correctamente los resultados de tu investigación utilizando gráficas, las cifras más importantes y su correcta interpretación. Conozca las bibliotecas Seaborn y Plotly.
• A quién, cómo, qué y por qué contarlo. Presentación del resultado de la investigación. El público objetivo del narrador. Qué y por qué decirle a un analista de datos.
• Biblioteca Seaborn. La biblioteca Seaborn como una extensión de la biblioteca Matplotlib. método jointplot(). Gamas de colores. Estilos de gráficos. Visualización de distribuciones.
• Biblioteca de parcelas. Gráficos interactivos. Gráfico de líneas. Gráfico de columnas. Gráfico circular. Gráfico de embudo.
• Visualización de datos en geoanalítica. Geoanalítica. Folio de la biblioteca. Visualización de mapas. Establecer marcadores con coordenadas especificadas. Creando grupos de puntos. Iconos personalizados para marcadores. Horoplet.
• Preparar una presentación. Conclusiones basadas en el estudio. Estacionalidad y factores externos. Valores absolutos y relativos. La paradoja de Simpson. Principios de construcción de presentaciones. Informes en Jupyter Notebook.
PlotlyFoliumSeabornMatplotlibPresentaciónGeoanálisisVisualización de datos
Proyecto
Elaborar un estudio de mercado basado en datos abiertos sobre establecimientos de restauración pública en Moscú, visualizar los datos obtenidos.
12 sprint 2 semanas
Crear paneles en Tableau
En este sprint trabajarás con el sistema Tableau BI. Aprenda a conectarse a los datos y modificarlos, crear diferentes tipos de gráficos, armar paneles y presentaciones.
• Conceptos básicos para trabajar con Tableau. Sistemas de BI. Cuadro. Creando un documento. Guardando el documento. Publicación del documento.
• Trabajar con fuentes de datos. Fuentes de datos. Fusión de datos. Método de relación. Método de unión. Método de mezcla. Método de unión. Cambiando el formato de la tabla.
• Tipos de datos. Tipos de datos básicos. Mediciones. Medidas. Trabajar con fecha y hora. Conjuntos. Grupos. Opciones. Cambiar el formato de las variables. Variables Nombres de medidas, valores de medidas, recuento.
• Tablas y cálculos. Interfaz de edición de hojas. Tablas dinamicas. Campos calculados. Expresiones LOD.
• Filtros y clasificación. Medidas de clasificación. Clasificación de dimensiones. Tipos anidados. Ordenar mediante un parámetro. Filtros.
• Visualizaciones. Controles de visualización. Mapas de calor. Gráficos circulares. Gráficos de columnas. Histogramas. Diagramas de rango. Diagrama de dispersión. Gráficos de líneas. Gráficos combinados. Gráficos de área.
• Visualizaciones especiales e información sobre herramientas. Tarjetas. Mapa de caracteres. Gráfico de burbujas. Mapa de árboles. Diagramas de vistas circulares. Diagramas de viñetas. Diagramas de Gantt. Mida nombres y mida valores en visualizaciones. Ingeniería inversa. Información sobre herramientas. Información sobre herramientas con visualizaciones. Valores umbral en gráficos. Herramientas analíticas en Custom.
• Presentaciones. Opciones adicionales. Estudio de parámetros típicos. Creando una presentación.
• Paneles de control. Cargando y preparando datos. Preparando visualizaciones. Montaje del salpicadero. Comportamiento. Demostración del tablero. Publicar un panel.
TableauDashboardsHerramientas de BIHerramientas de BIVisualización de datos
Proyecto
Investiga la historia de las conferencias TED y crea un panel en Tableau basado en los datos obtenidos.
Sprint adicional
Conceptos básicos del aprendizaje automático
Familiarícese con los conceptos básicos del aprendizaje automático y conozca las principales tareas del aprendizaje automático en los negocios.
PythonPandasSklearnAprendizaje automáticoTareas de aprendizaje automáticoAlgoritmos de aprendizaje automático
Sprint adicional
Practica Python
Tomarás varias clases de laboratorio con tareas adicionales en el lenguaje de programación Python. También aprenderá cómo extraer datos de recursos web.
Vas a:
• en la estructura de las páginas HTML y el funcionamiento de las solicitudes GET,
• aprender a escribir expresiones regulares simples,
• conocer la API y JSON,
• realizar varias solicitudes a sitios y recopilar datos.
JSONPythonREST APIRaspado web
13 sprint 3 semanas
Proyecto de graduación
En el último proyecto, confirma que dominas una nueva profesión. Aclare la tarea del cliente y siga todas las etapas del análisis de datos. Ahora no hay lecciones ni deberes, todo es como en un trabajo real.
El sprint final incluye trabajo de proyecto, pruebas A/B y tareas de SQL, y una tarea adicional. El proyecto contiene un planteamiento del problema, el resultado esperado, un conjunto de datos y su descripción.
La tarea se relaciona con una de las cinco áreas comerciales:
• bancos,
• minorista,
• juegos,
• aplicaciones móviles,
• comercio electrónico.
No habrá una descripción habitual de los pasos del proyecto. Los solucionará usted mismo.
SQ LPython PandasTableau Paneles Postgre Pruebas A/B de descomposición SQL