BIG DATA
Introduccion
En la era digital en la que vivimos, el volumen de datos
generados y almacenados se ha incrementado de manera
exponencial. Esta explosión de datos, provenientes de diversas
fuentes como redes sociales, dispositivos móviles, transacciones
comerciales y sensores, ha dado lugar a lo que conocemos
como Big Data. Este término engloba la capacidad de manejar,
procesar y analizar conjuntos de datos extremadamente grandes
y complejos que van más allá de las capacidades de las
herramientas tradicionales de procesamiento de datos.
Historia del Big data
1.Década de 1970: Aunque el término "big data" no se acuñó hasta mucho después, los
fundamentos de la tecnología ya estaban en desarrollo. Grandes organizaciones, como
bancos y gobiernos, empezaron a acumular grandes cantidades de datos en sistemas
informáticos centralizados.
2.Década de 1980-1990: Con el crecimiento de Internet y la digitalización de la
información, las empresas comenzaron a recopilar datos de manera más sistemática. Las
bases de datos relacionales se volvieron populares para almacenar y organizar datos de
manera estructurada.
3.Años 2000: El rápido avance de la tecnología de almacenamiento, procesamiento y redes
permitió a las empresas manejar volúmenes de datos aún mayores. Empresas como
Google y Amazon se convirtieron en pioneros en la gestión y análisis masivo de datos para
mejorar sus servicios y operaciones.
4.Años 2010: El término "big data" comenzó a popularizarse a medida que más empresas
buscaban formas de aprovechar el enorme volumen de datos disponibles para obtener
insights y ventajas competitivas. Tecnologías como Hadoop, Spark y NoSQL surgieron para
abordar los desafíos de almacenamiento y procesamiento de datos a gran escala.
5.Actualidad: El big data se ha convertido en un campo fundamental en la era digital. Las
empresas de todos los sectores utilizan herramientas de análisis avanzado, machine
learning e inteligencia artificial para extraer conocimientos significativos de sus datos y
tomar decisiones más informadas.
¿Qué es BIG DATA?
El término "Big Data" se refiere a conjuntos de datos
extremadamente grandes y complejos que pueden ser
analizados para revelar patrones, tendencias y
asociaciones, especialmente relacionadas con el
comportamiento humano y las interacciones en línea. No
se trata simplemente de una cantidad masiva de datos,
sino que también implica la necesidad de nuevas
tecnologías y técnicas para capturar, almacenar,
gestionar y analizar estos datos de manera efectiva.
tipos de big data
1.Big Data Estructurado: Este tipo de datos se refiere a conjuntos de datos organizados
y fácilmente procesables que se almacenan en bases de datos relacionales o similares.
Los datos estructurados están altamente organizados en filas y columnas, lo que facilita
su consulta y análisis. Ejemplos comunes de datos estructurados incluyen tablas de
bases de datos, hojas de cálculo y registros financieros.
2.Big Data No Estructurado: Los datos no estructurados son conjuntos de datos que no
siguen un formato predefinido y no se pueden organizar fácilmente en una base de datos
relacional. Esto puede incluir datos de texto, como correos electrónicos, publicaciones en
redes sociales, videos, imágenes y archivos de audio, así como datos de sensores y
registros de máquinas. El análisis de datos no estructurados requiere técnicas avanzadas,
como procesamiento del lenguaje natural (NLP), reconocimiento de voz y visión por
computadora.
3.Big Data Semiestructurado: Este tipo de datos comparte características tanto de
datos estructurados como no estructurados. Si bien tienen cierta organización, como
etiquetas o metadatos, no siguen un esquema rígido como los datos estructurados. Los
datos XML y JSON son ejemplos comunes de datos semiestructurados. Requieren
herramientas especializadas para su procesamiento y análisis, ya que no son tan fáciles
de manipular como los datos estructurados, pero tampoco son tan complejos como los
datos no estructurados.
OPCIONAL SI PREGUNTAN (NTP)
• NLP significa Procesamiento del Lenguaje Natural (Natural Language Processing, en inglés). Es una
rama de la inteligencia artificial y la lingüística computacional que se ocupa de la interacción entre
las computadoras y el lenguaje humano. El objetivo del NLP es permitir que las computadoras
comprendan, interpreten y generen lenguaje humano de manera natural.
• El procesamiento del lenguaje natural abarca una amplia gama de tareas, que incluyen:
1.Reconocimiento del habla: Convertir el habla humana en texto escrito.
2.Análisis sintáctico y gramatical: Descomponer oraciones en sus componentes gramaticales
para comprender su estructura y significado.
3.Análisis semántico: Interpretar el significado de las palabras y oraciones en un contexto
determinado.
4.Extracción de información: Identificar y extraer información específica de textos no
estructurados.
5.Generación de lenguaje natural: Crear texto humano legible y coherente a partir de datos
estructurados o instrucciones específicas.
6.Traducción automática: Traducir texto de un idioma a otro de manera automatizada.
• El NLP se utiliza en una amplia gama de aplicaciones, como motores de búsqueda, sistemas de
recomendación, análisis de sentimientos en redes sociales, chatbots, sistemas de traducción
automática, y muchas otras áreas donde se requiere comprensión y generación de lenguaje
humano por parte de las computadoras. Con los avances en el aprendizaje automático y el
procesamiento del lenguaje natural, se han logrado mejoras significativas en la capacidad de las
computadoras para entender y generar lenguaje humano de manera más precisa y eficiente.
Ventajas
1.Mejora la toma de decisiones: El análisis de grandes volúmenes de datos
permite a las organizaciones obtener información valiosa que puede utilizarse para
tomar decisiones más informadas y estratégicas.
2.Identificación de patrones y tendencias: El big data permite identificar
patrones y tendencias ocultas en los datos que pueden ser utilizados para prever
comportamientos futuros, identificar oportunidades de mercado y mitigar riesgos.
3.Personalización: Las empresas pueden utilizar el big data para personalizar
productos, servicios y experiencias para sus clientes, lo que puede mejorar la
satisfacción del cliente y aumentar la lealtad.
4.Optimización de procesos: El análisis de big data puede ayudar a identificar
áreas de mejora en los procesos operativos y de negocio, lo que puede llevar a una
mayor eficiencia y reducción de costos.
5.Innovación: El acceso a grandes volúmenes de datos puede fomentar la
innovación al permitir a las organizaciones identificar nuevas oportunidades de
negocio y desarrollar nuevos productos y servicios.
Desventajas:
1.Privacidad y seguridad: El uso de grandes cantidades de datos puede
plantear preocupaciones sobre la privacidad y la seguridad, especialmente
cuando se trata de datos sensibles de los clientes.
2.Calidad de los datos: El big data requiere datos de alta calidad para
obtener resultados precisos y significativos. Si los datos están incompletos,
inexactos o desactualizados, pueden conducir a conclusiones erróneas y
decisiones incorrectas.
3.Costo: Implementar y mantener infraestructuras de big data puede ser
costoso, especialmente para las pequeñas y medianas empresas que pueden
no tener los recursos necesarios.
4.Complejidad: El análisis de big data puede ser complejo y requerir
habilidades técnicas especializadas, así como herramientas y software
avanzados.
5.Dependencia tecnológica: Las organizaciones pueden volverse
dependientes de la tecnología de big data, lo que puede ser un problema si la
tecnología falla o se vuelve obsoleta.
Big Data se caracteriza comúnmente por las “5V":
Volumen, Velocidad, Variedad, Veracidad y Valor :
Volumen: Hace referencia a la enorme Veracidad: se refiere a la calidad, la
cantidad de datos que se generan y recopilan predictibilidad y la disponibilidad del dato.
constantemente. Estos datos pueden provenir Es la variable menos uniforme y menos
de diversas fuentes, como transacciones sencilla de controlar, debido a la dificultad
comerciales, redes sociales, sensores, de cerciorarnos de que un dato es 100%
registros de actividad en línea, y más. fiable. La clave para poder afrontar con
Velocidad: Se refiere a la velocidad a la
garantías esta última faceta del dato es
que se generan, procesan y analizan los
tener un equipo imparcial que ayude a
datos. Con la proliferación de dispositivos
mantener los datos limpios para su
conectados a internet y la tecnología de
posterior evaluación de estrategia de Big
tiempo real, los datos pueden generarse a
Data.
velocidades increíbles y requieren ser
procesados y analizados en tiempo real
para obtener
Variedad: información
Los valiosa
datos pueden y
presentarse en Valor: El objetivo final del Big Data es obtener
respuestas
una amplia rápidas.
variedad de tipos y formatos, información útil y significativa que pueda
como texto, imágenes, videos, audios, datos utilizarse para tomar decisiones informadas,
de sensores, datos geoespaciales, y más. La identificar tendencias, predecir
variedad de datos representa un desafío comportamientos futuros, y mucho más. El
adicional en términos de almacenamiento, valor del Big Data radica en su capacidad para
procesamiento y análisis, ya que requiere proporcionar insights valiosos que pueden
herramientas y técnicas especializadas para impulsar el crecimiento y la innovación en una
Aplicaciones del
Big Data: Sector financiero: En el sector
financiero, el Big Data se utiliza para
Sector empresarial: En el ámbito empresarial, el detectar fraudes, gestionar riesgos,
Big Data se utiliza para analizar el comportamiento realizar análisis de crédito y prevenir
del cliente, predecir tendencias de mercado, el lavado de dinero. Las instituciones
mejorar la eficiencia operativa y optimizar la
cadena de suministro. Las empresas pueden utilizar financieras pueden analizar grandes
el análisis de Big Data para personalizar productos volúmenes de datos transaccionales
y servicios, mejorar la satisfacción del cliente y para identificar actividades
aumentar la retención de clientes. sospechosas y tomar medidas
Sector gubernamental: En el ámbito preventivas.
gubernamental, el Big Data se utiliza para
mejorar la prestación de servicios públicos,
gestionar crisis y mejorar la seguridad
pública. Los gobiernos pueden utilizar el
análisis de Big Data para analizar datos de
tráfico, predecir la propagación de
enfermedades, optimizar la distribución de
recursos y mejorar la eficiencia operativa
en general.
¿Cómo funciona el big data?
1.Recopilación de datos: El primer paso en el funcionamiento del big data es recopilar
datos de diversas fuentes. Estas fuentes pueden incluir sistemas de gestión de bases de
datos, registros de transacciones, datos de sensores, redes sociales, sitios web,
dispositivos móviles, entre otros. Los datos pueden ser estructurados, semiestructurados
o no estructurados, y pueden provenir tanto de fuentes internas como externas a la
organización.
2.Almacenamiento de datos: Una vez recopilados, los datos se almacenan en sistemas
de almacenamiento de datos escalables y distribuidos. Estos sistemas pueden incluir
bases de datos relacionales, almacenes de datos, sistemas de archivos distribuidos, y
tecnologías de almacenamiento de big data como Hadoop Distributed File System (HDFS)
y Amazon S3.
3.Procesamiento de datos: Después de almacenar los datos, se lleva a cabo el
procesamiento para limpiar, transformar y preparar los datos para su análisis. Esto puede
incluir la eliminación de datos duplicados o corruptos, la normalización de datos en
diferentes formatos y la agregación de datos para reducir el volumen.
4.Análisis de datos: Una vez preparados, los datos se analizan utilizando técnicas y
herramientas de análisis de big data. Esto puede incluir análisis descriptivos para
comprender el estado actual de los datos, análisis predictivos para predecir tendencias
futuras, y análisis prescriptivos para recomendar acciones basadas en los datos. Las
tecnologías utilizadas en el análisis de big data incluyen plataformas de procesamiento
distribuido como Apache Spark, bases de datos NoSQL, y herramientas de machine
learning e inteligencia artificial.
5.Generación de insights: El objetivo final del análisis de big data es generar insights
Tecnologías y herramientas de
Big Bata:
1.Hadoop: Hadoop es un framework de software de código abierto diseñado
para el procesamiento distribuido de grandes conjuntos de datos en
clústeres de computadoras. Incluye componentes como Hadoop Distributed
File System (HDFS) para el almacenamiento distribuido de datos y
MapReduce para el procesamiento paralelo de datos.
2.Apache Spark: Apache Spark es un framework de procesamiento de datos
en memoria que proporciona un rendimiento rápido para el procesamiento
de datos en lotes y en tiempo real. Spark es conocido por su versatilidad y
su capacidad para ejecutar una amplia gama de tareas, como análisis de
datos, aprendizaje automático y procesamiento de gráficos.
3.Bases de datos NoSQL: Las bases de datos NoSQL, o bases de datos No
Relacionales, son sistemas de almacenamiento de datos diseñados para
manejar grandes volúmenes de datos no estructurados o
semiestructurados. Ejemplos incluyen MongoDB, Cassandra y Redis.
OPCIONAL SI PREGUNTAN
(DITERENCIAS ENTRE NoSQL Y
SQL)
• Modelo de datos:
• SQL: Las bases de datos SQL utilizan un modelo de datos relacional, donde la información se organiza en tablas con filas y
columnas. Estas tablas están interrelacionadas mediante claves primarias y claves foráneas, siguiendo un esquema predefinido.
• NoSQL: Las bases de datos NoSQL ofrecen una variedad de modelos de datos, como documentos, grafos, columnares o clave-
valor. No están estructuradas de forma estricta y pueden adaptarse fácilmente a cambios en la estructura de los datos.
1. Escalabilidad:
1. SQL: Las bases de datos SQL suelen ser escalables verticalmente, lo que significa que la escalabilidad se logra aumentando la
capacidad de recursos en un solo servidor. Esto puede ser costoso y tiene límites prácticos.
2. NoSQL: Las bases de datos NoSQL suelen ser más escalables horizontalmente, lo que permite agregar más nodos de forma
sencilla para manejar mayores cargas de trabajo. Esto facilita la escalabilidad y la distribución de la carga.
2. Flexibilidad:
1. SQL: Las bases de datos SQL tienen un esquema rígido y predefinido, lo que significa que cualquier cambio en la estructura de los
datos puede requerir modificaciones en toda la base de datos y puede ser complejo.
2. NoSQL: Las bases de datos NoSQL son más flexibles en términos de esquema, lo que permite manejar datos semi-estructurados o
no estructurados sin necesidad de un esquema fijo. Esto facilita la adaptación a cambios en los requisitos de datos.
3. scrituras y lecturas:
1. SQL: Las bases de datos SQL están optimizadas para transacciones de lectura intensiva, donde la consistencia de los datos es
crítica.
2. NoSQL: Las bases de datos NoSQL están optimizadas para operaciones de escritura intensiva y para manejar grandes volúmenes
de datos en tiempo real. La consistencia eventual es común en este tipo de bases de datos.
4. Ejemplos de uso:
1. SQL: Las bases de datos SQL son adecuadas para aplicaciones que requieren transacciones complejas, consultas complejas y
relaciones entre datos bien definidas. Ejemplos incluyen sistemas de gestión de bases de datos como MySQL, PostgreSQL y
Oracle.
2. NoSQL: Las bases de datos NoSQL son adecuadas para aplicaciones que manejan grandes volúmenes de datos, datos semi-
estructurados o no estructurados, y requieren alta disponibilidad y escalabilidad. Ejemplos incluyen MongoDB, Cassandra y Redis.
En resumen, mientras que las bases de datos SQL son más
adecuadas para aplicaciones con requisitos de transacciones
complejas y consultas estructuradas, las bases de datos NoSQL son
más adecuadas para aplicaciones que requieren escalabilidad,
flexibilidad de esquema y manejo de grandes volúmenes de datos no
estructurados. La elección entre SQL y NoSQL depende de los
requisitos específicos de cada aplicación y de las características del
proyecto.
Big Data en el Peru
1.Cineplanet: La cadena de cines Cineplanet ha estado utilizando big data para
analizar las preferencias de sus clientes y mejorar la experiencia del usuario a través
de la personalización de ofertas y promociones.
2.Interbank: Este banco peruano ha estado utilizando big data para mejorar la gestión
de riesgos, prevenir el fraude y ofrecer productos y servicios financieros más
personalizados a sus clientes.
• Saga Falabella: Esta empresa de retail ha estado utilizando big data para analizar el
comportamiento de compra de sus clientes, optimizar la gestión de inventario y
personalizar sus estrategias de marketing.
• Backus (AB InBev): La cervecera Backus ha estado utilizando big data para analizar
datos de ventas, pronósticos de demanda y preferencias del consumidor para
optimizar su cadena de suministro y estrategias de marketing.
• Alicorp: Esta empresa de productos de consumo ha estado utilizando big data para
analizar datos de ventas, cadenas de suministro y tendencias del mercado para
optimizar la distribución de productos, mejorar la planificación de la demanda y lanzar
nuevos productos de manera más efectiva.