CompTIA DataX es la certificación líder para profesionales con amplia experiencia que buscan validar su competencia en el campo de la ciencia de datos, en constante evolución. DataX le proporciona las habilidades necesarias para demostrar con precisión y seguridad su experiencia en el manejo de conjuntos de datos complejos, la implementación de soluciones basadas en datos y el impulso del crecimiento empresarial mediante una interpretación precisa de los datos.
Resumen de los objetivos del examen DataX (V1)
Matemáticas y estadística (17%)
- Métodos estadísticos: aplicación de pruebas t, pruebas de chi-cuadrado, análisis de varianza (ANOVA), pruebas de hipótesis, métricas de regresión, índice de Gini, entropía, valor p, característica operativa del receptor/área bajo la curva (ROC/AUC), criterio de información de Akaike/criterio de información bayesiano (AIC/BIC) y matriz de confusión.
- Probabilidad y modelado: explicación de distribuciones, asimetría, curtosis, heterocedasticidad, función de densidad de probabilidad (PDF), función de masa de probabilidad (PMF), función de distribución acumulativa (CDF), datos faltantes, sobremuestreo y estratificación.
- Álgebra lineal y cálculo: comprensión de rango, valores propios, operaciones matriciales, métricas de distancia, derivadas parciales, regla de la cadena y logaritmos.
- Modelos temporales: comparación de series de tiempo, análisis de supervivencia e inferencia causal.
Modelado, análisis y resultados (24%)
- Métodos EDA: uso de técnicas de análisis exploratorio de datos (EDA) como análisis univariado y multivariado, gráficos, diagramas e identificación de características.
- Problemas de datos: análisis de datos dispersos, no linealidad, estacionalidad, granularidad y valores atípicos.
- Enriquecimiento de datos: aplicación de ingeniería de características, escalamiento, geocodificación y transformación de datos.
- Iteración del modelo: realización del diseño, evaluación, selección y validación.
- Comunicación de resultados: crear visualizaciones, seleccionar datos, evitar gráficos engañosos y garantizar la accesibilidad.
Aprendizaje automático (24%)
- Conceptos fundamentales: aplicación de funciones de pérdida, compensación entre sesgo y varianza, regularización, validación cruzada, modelos de conjunto, ajuste de hiperparámetros y fuga de datos.
- Aprendizaje supervisado: aplicación de regresión lineal, regresión logística, k vecinos más cercanos (KNN), bayes ingenuo y reglas de asociación.
- Aprendizaje basado en árboles: aplicación de árboles de decisión, bosque aleatorio, boosting y agregación bootstrap (bagging).
- Aprendizaje profundo: explicación de las redes neuronales artificiales (ANN), la deserción, la normalización por lotes, la retropropagación y los marcos de aprendizaje profundo.
- Aprendizaje no supervisado: explicación de la agrupación en clústeres, la reducción de dimensionalidad y la descomposición en valores singulares (SVD).
Operaciones y procesos (22%)
- Funciones comerciales: explicación del cumplimiento, indicadores clave de rendimiento (KPI) y recopilación de requisitos.
- Tipos de datos: explicación de datos generados, sintéticos y públicos.
- Ingesta de datos: comprensión de pipelines, streaming, procesamiento por lotes y linaje de datos.
- Manejo de datos: implementación de limpieza, fusión, imputación y etiquetado de verdad fundamental.
- Ciclo de vida de la ciencia de datos: aplicación de modelos de flujo de trabajo, control de versiones, código limpio y pruebas unitarias.
- DevOps y MLOps: explicación de la integración continua/implementación continua (CI/CD), implementación de modelos, orquestación de contenedores y monitoreo del rendimiento.
- Entornos de implementación: comparación de la contenedorización, la nube, la implementación híbrida, el borde y las instalaciones locales.
Aplicaciones especializadas de la ciencia de datos (13%)
- Optimización: comparación entre optimización restringida y sin restricciones.
- Conceptos de PNL: explicación de técnicas de procesamiento del lenguaje natural (PNL) como tokenización, incrustaciones, frecuencia de término-frecuencia de documento inversa (TF-IDF), modelado de temas y aplicaciones de PNL.
- Visión por computadora: explicación del reconocimiento óptico de caracteres (OCR), la detección de objetos, el seguimiento y el aumento de datos.
- Otras aplicaciones: explicación del análisis de gráficos, aprendizaje de refuerzo, detección de fraude, detección de anomalías, procesamiento de señales y otros.
Course Features
- Lecture 0
- Quiz 0
- Duration 55 hours
- Skill level All levels
- Language English
- Students 27
- Assessments Yes






