1
Análisis de información
Introducción
El acceso cada vez más fácil a las fuentes como la web y a dispositivos electrónicos,
ya sean bases de datos, o cd Rom, nos ha originado la constitución de bases de datos textuales
de gran tamaño (específicamente en lo que respecta a la disponibilidad y ordenamiento de
datos estadísticos), que den mayor efectividad.
Donde el análisis de datos es la ciencia que se encarga de examinar un conjunto de
datos con el propósito de sacar conclusiones sobre la información para poder tomar
decisiones, o simplemente ampliar los conocimientos sobre diversos temas. Actualmente en
muchas industrias usan el análisis de datos para sacar conclusiones y decidir acciones para
implementar, cabe mencionar que la ciencia también usa el análisis de datos donde puede
comprobar o descargar teorías o modelos existentes.
2
Glosario
1. Algoritmos: Es un conjunto de instrucciones definidas, ordenadas y acotadas para
resolver un problema o realizar una tarea.
2. Analítica de datos: Se encarga de examinar un conjunto de datos con el propósito de
sacar conclusiones sobre la información para poder tomar decisiones, o simplemente
ampliar los conocimientos sobre diversos temas.
3. Big Data: Se refiere a los datos que son tan grandes, rápidos o complejos que es
difícil o imposible procesarlos con los métodos tradicionales.
4. Biotecnología: Se define como un área multidisciplinaria, que emplea la biología,
química y procesos varios. La biotecnología utiliza células vivas para desarrollar o
manipular productos con fines específicos.
5. Ciencia de datos: La preparación de los datos para el análisis, incluida la limpieza, la
agregación y la manipulación de los datos para realizar análisis avanzados.
6. Data science: Es la ciencia centrada en el estudio de los datos. Se encarga de extraer
información de grandes cantidades de datos.
3
7. Data Warehouse: Es un repositorio que captura los datos que genera una empresa de
una manera homogénea y fiable, en base a una estructura jerarquizada.
8. Machine Learning: Es la disciplina del campo de la Inteligencia Artificial que, a
través de algoritmos, dota a los ordenadores de la capacidad de identificar patrones en
datos masivos y elaborar predicciones.
9. Gestión de los datos: Es el proceso de ingerir, almacenar, organizar, utilizar y
mantener los datos creados y recopilados por una organización.
10. Gobernanza de datos: Es un conjunto de procesos, funciones, políticas, normas y
mediciones que garantizan el uso eficaz y eficiente de la información con el fin de
ayudar a una empresa a cumplir sus objetivos.
11. Huge data: Se refiere tanto al enorme volumen de datos, en muchos casos
inmanejable, como a la exploración de nuevos enfoques y tecnologías para su gestión
eficiente.
12. Inteligencia Artificial: Combinación de algoritmos planteados con el propósito de
crear máquinas que presenten las mismas capacidades que el ser humano.
13. Metadato: Son “datos acerca de los datos” y sirven para suministrar información
sobre los datos producidos.
4
14. Métricas de navegación: Es la complejidad del flujo de navegación que no incluyen
vínculos y páginas generados de manera dinámica.
15. NoSQL: Son sistemas de gestión de bases de datos y estructuras que permiten
almacenar información cuando las bases de datos relacionales dan problemas.
16. Petabytes: Es una unidad de medida de memoria (2 elevado a 50).
17. Perl: Es un lenguaje de Scripting que se diseñó a finales de los años 80. Toma
características del lenguaje C y de otros lenguajes de programación.
18. Tecnología de datos: Proceso que utiliza una combinación de medios y métodos de
recopilación, procesamiento y transmisión de datos para obtener nueva información
de calidad sobre el estado de un objeto, proceso o fenómeno.
19. UIMA, Arquitectura de Gestión de Información Desestructurado): Son los
sistemas de software que se utiliza para entender la información no estructurada.
20. Weka: Es una colección de algoritmos de aprendizaje automático para tareas de
minería de datos, contiene herramientas para la preparación de datos, clasificación.
regresión, agrupación, extracción de reglas de asociación y visualización.
B. Consultar, analizar y responder:
5
1. ¿Qué es y qué diferencia hay entre el análisis cualitativo y el análisis cuantitativo de
datos?
Se puede definir que en el análisis de datos cuantitativos suele perseguir los
resultados objetivos a través de cifras (números), mientras que en el cualitativo obtiene
conclusiones subjetivas con un enfoque netamente interpretativo a través de análisis de una
situación o individuo.
2. Indicar diez herramientas utilizadas para analizar datos y explíquelas (concepto,
funciones, ventajas, entre otras)
● Microsoft Power BI: Es una herramienta analítica de Microsoft, ofrece
visualizaciones interactivas de datos, y una de las más populares, así como una
integración sencilla con otras herramientas de la misma corporación, además Power
BI puede integrar en aplicaciones de terceros mediante Power Bi Embed y permite
compartir reportes y análisis de datos de forma muy segura.
● SAS: Es una herramienta líder en análisis de datos, fue desarrollada inicialmente en
1966 en el instituto SAS, y luego mejorada en los años 80 y 90, es un lenguaje de
programación que permite manipular los datos fácilmente. Es muy manejable,
accesible y tiene una capacidad de analizar un dato independientemente de la fuente
de datos.
6
● Excel: Esta herramienta analítica muy popular y fundamentalmente, es una
herramienta bastante básica, aunque muy versátil y se utiliza en prácticamente en
todas las industrias.
● Tableau Public: Es un software gratuito que conecta diferentes fuentes de datos,
como Microsoft Excel, Data Warehouse, datos basados en la web, etc., y crea
dashboards, mapas y visualizaciones que tienen actualizaciones en tiempo real
sociales.
● Rapidminer: Esta herramienta es muy eficaz para el data science integrado, fue
desarrollado por una compañía que también realiza análisis predictivos y algunos
análisis más avanzados como machine Learning, análisis de texto, análisis visual y
minería de datos sin necesidad de programación.
● Apache Spark: Fue desarrollado en 2009 en el laboratorio de AMP de Berkeley en
la Universidad de California esta herramienta es un motor de procesamiento de datos
que funcionan a gran escala y puede ejecutar aplicaciones que ya están en Clusters
Hadoop más rápido, hasta 10 veces), en disco y hasta 100 veces más rápido si está en
memoria.
● Qlik view: Esta herramienta tiene unas características únicas, algunas de las cuales
son el procesamiento de datos en memoria y la tecnología patentada para ayudarle a
ejecutar su resultado rápidamente y almacenar todos los datos que están presentes en
el informe, esta herramienta mantiene automáticamente la asociación de datos y puede
comprimirlos a solo el 10% del tamaño inicial.
7
● Programación en R: Esta es una de las mejores herramientas analíticas disponibles
en la industria de hoy en día, se utiliza principalmente para el modelado de datos y
estadísticas. Esta herramienta es muy fácil de usar y fácil su manipulación y presenta
los datos de muchas maneras, donde supera a muchas otras herramientas en términos
de rendimiento, capacidad de datos resultados.
● Zoho Analytics: Esta plataforma consiste en un software centrado en la inteligencia
empresarial, la generación de informes y el análisis de datos, Zoho Analytics logra
que las empresas accedan a us métricas empresariales clave y visualizar qué
tendencias se mantienen en el tiempo, revendo información oculta que puede ser clave
para su negocio.
3. Indicar cinco herramientas utilizadas para procesar datos y explíquelas (concepto,
funciones, ventajas, entre otras)
El procesamiento de datos se desarrolla cuando se recaban los datos y se traducen a
información utilizable, suelen ocuparse los científicos de datos, solos o en equipos, y es
importante que el procesamiento se realice correctamente para no afectar negativamente al
producto final o a los resultados obtenidos a partir de datos.
Las etapas del procesamiento de datos son:
● Recogida de datos: Es el primer paso del procesamiento, los datos se extraen de las
fuentes disponibles, entre las cuales se cuentan los data lakes y los almacenes de
8
datos, es importante que las fuentes de datos disponibles sean fiables y están bien
creadas para los datos recabados y que sean de la más alta calidad posible.
● Preparación de datos: Una vez recolectados los datos, se pasan a la fase de la
preparación de datos, en la preparación de datos, a menudo llamada
preprocesamiento, es la etapa en la que los datos en bruto se limpian y organizan para
la siguiente fase de procesamiento.
● Introducción de datos: A continuación, los datos limpios se introducen en su
destino (puede ser un CDM; como Salesforce, o un almacén de datos, como Rediff y
se traducen un lenguaje comprensible): La introducción de datos es el primer paso en
el que los datos en bruto empiezan a cobrar forma como información utilizable.
● Procesamiento: Durante esta fase los datos ingresados en el ordenador en la fase
anterior se procesan realmente para su interpretación, el procesamiento se efectúa
por medio de algoritmos de machine Learning, si bien el proceso en sí pueden variar
ligeramente según cual sea la fuente de los datos que se esté procesando (data lakes,
redes sociales, dispositivos conectados ,etc.) y su uso previsto (estudiar patrones
publicitarios, diagnósticos médicos a partir de dispositivos conectados, determinar
necesidades de clientes, etc.).
● Salida /Interpretación de datos: En esta etapa, es la fase en la que los datos resultan
finalmente utilizables para los que no son científicos de datos, donde están traducidos,
son legibles y muchas veces se presentan en forma de gráficos, videos, imágenes,
textos simples, etc., y a partir de este momento los miembros de una empresa o
9
institución pueden empezar a autogestionarse los datos para sus propios de analíticas
de datos.
4. ¿Cuál es su análisis y conclusiones de los recursos de análisis de datos?
a. “Ciencia de Datos¨ ¿La profesión más Sexy del Siglo 21?
En la “ciencia de datos” es encontrar la forma de sacar ventaja o provechos de esos
datos, ya que cada día crece exponencialmente los; en el mercado se implementan más
herramientas y otras cogen más crecimiento como lo es una de ellas, que ayudan a solucionar
problemas, permitiendo tomar mejores decisiones. La profesión más sexy del siglo 21 es
importante ya que puede descubrir tendencias, predecir el futuro y anticipar grandes
conjuntos de datos usando algoritmos e inteligencia artificial, abarcando muchas
competencias.
Para concluir la ciencia de datos tiene muchas ventajas siendo de gran importancia
para encontrar valor en cantidades de datos, sirviendo para responder preguntas y solucionar
problemas. El propósito de detectar patrones y tendencias que optimicen la toma de
decisiones estratégicas. cada vez avanzamos más en la tecnología, beneficiando muchas cosas
y haciéndolas más sencillas, hasta llegar a un punto que todos tengamos que analizar los
datos es algo que más adelante debemos saber así sea básico.
b. La importancia del análisis de datos en las empresas Roylin Castrillo
10
El análisis de datos es cada vez más importante, ya que vasado en estos se ha convertido
en uno de los valores más importantes que tiene las empresas, hoy en día ya esto les permite
tomar mejores decisiones para sus negocios.
c. Exploración en la frontera de los grandes volúmenes de datos – Tim Smith.
Se puede contar con una increíble cantidad de información alrededor de nuestra sociedad,
donde los físicos del CERN han estado reflexionando sobre las formas de almacenamiento y
en compartir sus datos durante décadas.
La globalización es la estimulante de la internet en su camino, mientras que se
resuelve el problema de datos grandes, y la participación de Tim Smith parcelas del CERN
con grandes volúmenes de datos de hace más de 50 años hasta nuestros días.
d. Lectura 10 ventajas competitivas basadas en el análisis de los datos.
Estas son las formas en que los datos pueden ser una ventaja estratégica para las
organizaciones:
Incrementando ventas, e identificar las oportunidades futuras.
Superando la competencia.
Mejorando productos y servicios.
Expansión hacia nuevos mercados.
Atraer, ganar y retener más clientes.
Mejorando operaciones.
11
Reclutamientos contrataciones y crecimiento del talento.
Acelerara la planificación presupuestos y previsión.
Protegiendo la marca.
Identificación de áreas de mejora.
La analítica avanzada está transformando las operaciones para impulsar las estrategias de los
negocios para obtener un alto impacto en las organizaciones.
12
Conclusiones
De esta forma se puede decir el análisis de información a través de sistemas ERP se
ha vuelto indispensable para las organizaciones dado el valor que tienen los datos para tomar
decisiones y convirtiéndose en empresas competitivas, ágiles en análisis y estratégicas,
generando un impacto positivo en la organización a nivel de procesos y producción.
Aunque existen muchas herramientas análisis de datos hay muchos factores que deben
considerarse antes de elegir una de ellas, por ejemplo, dada la necesidad que tenga la
organización si solo se trata organizar y guardar los datos, si además de guardar la data es
aprovechar para transformar esos datos en un análisis, los temas de costos que generaría la
implementación de la herramienta pues esta debe ser justificada y además del valor que
aporta la misma y por ultimo el impacto que generaría en cada una de las áreas de la
organización.
13
Referencias Bibliográficas
The 8 data analysis tools that every developer should know.
https://nexusintegra.io/es/8-herramientas-analisis-datos-todo-desarrollador-
deberia-conocer/
IBM Data Analyst Course - Build a Creer in Data Science.
https://alend.com/es/resources/what-is-data-processing/
Oracle. (s, f). Ciencia de datos. https://www.oracle.com/co/data-science/what-is-data-
science/
Iberdrola. (s, f). Inteligencia artificial. https://www.iberdrola.com/innovacion/que-es-
inteligencia-artificial
Iberdrola. (s, f). Machine Learning. https://www.iberdrola.com/innovacion/machine-
learning-aprendizaje-automatico
Profile. (s,f). Algoritmos. https://profile.es/blog/que-es-un-algoritmo-informatico/
SAS Insights. (s,f). Big data. https://www.sas.com/es_co/insights/big-data/what-is-
big-data.html
14
Zeus data tallk. (2017). Datawarehouse.
https://datablog.zeus.vision/2017/06/02/que-es-data-warehouse/
Stedman, C & Vaughan. (2021). Computerweekly. Gestión de datos.
https://www.computerweekly.com/es/definicion/Gestion-de-datos
Taled. (s,f). Gobernanza de datos. https://www.talend.com/es/resources/what-is-data-
governance/
Cuepe. (2016). Tecnología de datos. https://www.ceupe.com/blog/que-son-las-
tecnologias-de-la-informacion.html
Question pro. (2016). Análisis de datos. https://www.questionpro.com/es/analisis-de-
datos.html
Gob.pe. (s,f). Metadatos. https://www.geoidep.gob.pe/conoce-las-ides/metadatos/que-
son-los-metadatos
Neoland. (s,f). data science. https://www.neoland.es/blog/que-es-data-science
Centro de Biotecnología. (s,f). biotecnología.
https://www.centrobiotecnologia.cl/comunidad/que-es-la-biotecnologia/
15
Quero, O. (2020). Huge Data: la gestión masiva de datos.
https://marketing.onlinebschool.es/Prensa/Informes/informe%20Huge
%20Data.pdf
Masadelante. (s,f). que es petabyte. https://www.neoland.es/blog/que-es-data-science