Analítica de Datos
¿De dónde vienen los datos?
1. De la empresa.
2. De tráfico y
meteorológicos.
3. Patrones de conducción
y de localización
4. Previsiones financieras.
5. Datos de respuesta
publicitaria.
6. Patrones de navegación
de sitios web.
7. Datos de redes sociales.
Herramientas tecnológicas
Datos Vs Información
Conocimiento
Registro de datos
Registro de datos
Almacenamiento de datos
Limpieza y procesamiento de datos
Seguimiento en Tiempo Real
Precisión en la Toma de Decisiones
Reducción de Riesgos
Mejora de Modelos Predictivos
Cumplimiento de Normativas y Estándares
Facilita Análisis y Reporting Mejora de la Experiencia del Cliente
Eficiencia Operativa
Limpieza y procesamiento de datos
Manejo de Datos Faltantes:
•Imputación de Datos: Reemplazar los valores faltantes por
estimaciones razonables basadas en otros datos.
•Eliminación de Filas o Columnas: Descartar filas o columnas
con valores faltantes si la pérdida de datos es aceptable.
Detección y Manejo de Duplicados:
•Identificación de Duplicados: Buscar y eliminar registros
duplicados en función de ciertas columnas clave.
•Manejo de Duplicados: Decidir si eliminar o consolidar
información duplicada.
Limpieza y procesamiento de datos
Manejo de Errores y Datos Erróneos:
•Identificación de Errores Lógicos: Revisar datos para
detectar inconsistencias lógicas.
•Corrección de Error
Manejo de Fechas y Tiempos:
•Extracción de Componentes de Fecha y Tiempo:
Descomponer fechas en componentes como año, mes, día, hora,
etc.
Limpieza y procesamiento de datos
Validación de Datos:
•Verificación de Consistencia: Confirmar que los datos
cumplen con las reglas de negocio y lógica.
•Cross-Validation: Dividir los datos en conjuntos de
entrenamiento y prueba para validar modelos
Detección y Resolución de Conflictos en Datos:
•En situaciones donde múltiples fuentes de datos pueden tener
discrepancias, identificar y resolver los conflictos.
•Establecer reglas claras para resolver discrepancias y
garantizar la consistencia
Herramienta Descripción
Herramienta de código abierto para la limpieza y
OpenRefine transformación visual de datos. Gratuita y de uso
libre.
Hoja de cálculo ampliamente utilizada. Algunas
Microsoft Excel versiones básicas o en línea pueden ser gratuitas o
tener costo reducido.
Biblioteca de Python de código abierto para
Pandas (Python) manipulación y análisis de datos. Gratuita y de uso
libre.
Procedimiento documental
Proceso documental
Software para el análisis de datos
Software para el análisis de datos
Herramienta Descripción
Python (con Pandas, NumPy, Matplotlib) Lenguaje de programación con bibliotecas para manipulación, análisis y visualización de datos.
R Lenguaje de programación estadística de código abierto y gratuito.
Jupyter Notebooks Interfaz interactiva que permite la combinación de código, texto y visualizaciones en
un solo documento.
SQL (MySQL, PostgreSQL) Lenguaje de consulta utilizado para gestionar y analizar datos en bases de datos
relacionales.
Tableau Public Versión gratuita de Tableau para la creación y publicación de visualizaciones en la
nube.
Power BI Desktop Versión gratuita de la plataforma de análisis de negocios Power BI de Microsoft.
Excel (Versión Básica y en Línea) Hoja de cálculo utilizada para análisis de datos a pequeña escala.
RapidMiner Plataforma de ciencia de datos con una versión gratuita que ofrece funcionalidades
limitadas.
KNIME Analytics Platform Plataforma de código abierto con una versión básica gratuita para el diseño de flujos
de trabajo de análisis de datos.
Google Data Studio Herramienta gratuita de Google para la creación de informes y paneles interactivos.