0% encontró este documento útil (0 votos)
155 vistas45 páginas

Introducción a Big Data y Hadoop

El documento presenta una introducción a las tecnologías Big Data. Explica que el director Santiago González se encargará de explicar el ecosistema Hadoop y sus componentes. Luego, el video 23 trata sobre la generación masiva de datos y por qué es necesario Big Data, además de introducir conceptos clave como sistemas distribuidos.

Cargado por

Sergio Botero
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
155 vistas45 páginas

Introducción a Big Data y Hadoop

El documento presenta una introducción a las tecnologías Big Data. Explica que el director Santiago González se encargará de explicar el ecosistema Hadoop y sus componentes. Luego, el video 23 trata sobre la generación masiva de datos y por qué es necesario Big Data, además de introducir conceptos clave como sistemas distribuidos.

Cargado por

Sergio Botero
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

VIDEO 22

INTRODUCCIÓN
Muy buenas, soy Santiago González, 
soy el director de Innovación y Tecnologías de Synergic Partners, 
y me voy a encargar de explicar todo lo relacionado a tecnologías e 
infraestructuras Big Data, donde vamos a entrar en el ecosistema Hadoop, y en todas 
las soluciones y componentes incorporados dentro de este tipo de soluciones. 
Así pues comenzamos esta semana con la introducción a tecnologías Big Data. 

VIDEO 23

Generación masiva de datos, ¿por qué Big Data?

Reproducir video
reproducir
Volumen
0:00/5:00
Ajustes
Pantalla completa
Notas

Todas las notas

Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 0 seconds and follow transcript0:00
[AUDIO_EN_BLANCO] 
[MÚSICA] Muy bien, vamos a comenzar con 
la primera parte de esta presentación que es, ¿por qué Big Data? 
Vamos a imaginarnos el concepto Big Data, 
y vamos a intentar explicar qué es Big Data. 
Para ello, 
nos tenemos que imaginar la masividad de datos que vamos a generar en el día a día. 
Hoy en día, las redes sociales, 
los móviles, nos permiten generar datos de una manera exponencial. 
Podemos observar que cada minuto se están generando tuits,

Play video starting at 38 seconds and follow transcript0:38


unos cientos de miles de tuits en el mundo.

Play video starting at 43 seconds and follow transcript0:43


Se están generando en redes sociales como YouTube, como Facebook, como Twitter, 
como comunidades de Google, todos esos son datos que son tan válidos como cualquier 
otro dato que genera cualquier tipo de periódico, es cuestión de explotar. 
Sí es verdad que de todos esos datos que estamos generando, el 80% de los datos, 
según los estudios realizados, suelen ser datos no estructurados, 
datos que no tienen forma alguna, pueden ser texto, 
imágenes, vídeos, pero que en realidad tienen información. 
Nuestro objetivo en este caso no es solo recopilar información, 
sino también coger esos datos que no tienen forma, 
organizarlos y estructurarlos y sacar información. 
He ahí por lo que necesitamos Big Data.

Play video starting at 1 minute 26 seconds and follow transcript1:26


Los datos que estamos observando ahora mismo son datos reales, 
son ceros y unos a una velocidad estrepitosa, una velocidad real, 
se están generando esos datos realmente. 
¿Somos capaces de ver información ahí? 
En realidad no, no somos capaces. 
Necesitamos de alguna herramienta que nos permita extraer esa información. 
No hay excusas a día de hoy. 
La excusa es usar Big Data. 
Vamos a dejar que nuestros datos hablen, vamos a dejar que nos 
trasmitan la información que está ahí contenida y que está oculta. 
Ahí empieza el término de lo que es Big Data.

Play video starting at 1 minute 56 seconds and follow transcript1:56


Vemos una serie de definiciones, 
definiciones como puede ser de Brian Hopkins, uno de los creadores de Big Data, 
donde nos comenta que el gran problema de Big Data es obtener el valor 
de la manera más rápida posible con el menor coste y con la mayor agilidad. 
Para mí, de todas las definiciones que vamos viendo, la mejor definición es una 
creada por uno mismo, de tantos y tantos congresos que yo he ido, 
al final, uno crea su propia definición de lo que es Big Data. 
Ahí va mi definición para los que tengan interés. 
Big Data es aquello cuya escala, diversidad y complejidad 
nos obliga o nos requiere de crear nuevas arquitecturas, nuevas técnicas, 
nuevos algoritmos, nueva analítica, que nos permita gestionar y extraer valor 
o conocimiento que existe en nosotros, pero que aparentemente está oculto.

Play video starting at 2 minutes 41 seconds and follow transcript2:41


Bien. 
Una vez que you tenemos la definición de lo que es Big Data, 
vamos a ver cómo lo definen desde el punto de vista de negocio en las empresas. 
Normalmente, las definiciones son como el iceberg típico que vemos en todas las 
ilustraciones. 
Un iceberg donde lo que aparentemente es los datos, es todo el tamaño del iceberg. 
Sin embargo, lo que nosotros solo vemos es la parte de arriba, 
y debajo realmente hay muchísimo más conocimiento que aparentemente no se ve, 
pero realmente es información igual de válida que la parte de arriba.

Play video starting at 3 minutes 9 seconds and follow transcript3:09


Si bien, esta ilustración puede ser muy interesante, 
para mí se queda un poco coja. 
¿Por qué? 
Porque hoy en día la tecnología va muchísimo más rápido de lo que nosotros 
estamos preparados. 
Para mí, la asociación de Big Data podría ser como una ola, 
pero no una ola cualquiera, una ola gigantesca. 
Una ola que no solo trae información, trae información y trae tecnología. 
Va muchísimo más rápido de lo que nosotros esperamos. 
Esos datos se están generando de una manera tan rápida y tan inmensa 
que si nos descuidamos, perdemos esos datos. 
Y la tecnología va tan rápida que si nos descuidamos, estamos obsoletos. 
Por ello, para mí el hecho de ser un surfista, el hecho de poder surfear, 
navegar a través de los datos, surfear entre las distintas aplicaciones, 
nos va a permitir de alguna manera extraer ese conocimiento a partir de la masividad 
de datos, con las tecnologías de hoy en día. 
Si bien, un surfista que está preparado para esto, muchas veces fracasa, se cae, 
y vuelve a levantarse. 
No pasa nada. 
Los datos se pierden, no pasa nada. 
Vamos a preparar las infraestructuras para que los datos no se pierdan y se vayan 
almacenando de la manera más ágil, eficiente y rápida.

Play video starting at 4 minutes 23 seconds and follow transcript4:23


No pasa nada. 
Perdemos una tecnología y tenemos que recuperar 
los datos con una nueva tecnología. 
No pasa nada, podemos hacer algo porque los datos los tenemos en origen, 
los procesamos, los analizamos y sacamos conclusiones de nuevo. 
He ahí por lo que usamos en este caso el concepto de una ola 
gigantesca o un tsunami, como el concepto de Big Data.

Play video starting at 4 minutes 45 seconds and follow transcript4:45


Bien, hasta aquí el inicio de qué es Big Data y por qué 
en la masividad de datos es tan interesante utilizar esta tecnología. 
[MÚSICA] [AUDIO_EN_BLANCO]

VIDEO 23
Conceptos de Big Data

Reproducir video
reproducir
Volumen
0:00/8:12
Ajustes
Pantalla completa
Notas

Todas las notas

Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 0 seconds and follow transcript0:00
[AUDIO_EN_BLANCO] 
[MÚSICA] A partir de ahora, 
nos adentramos en el mundo Big Data, para lo cual es necesario tener claro ciertos 
conceptos básicos sobre lo que es Big Data y en lo que se basa Big Data. 
Uno de los primeros conceptos es el concepto de sistemas distribuidos. 
¿Y qué es un sistema distribuido? 
Un sistema distribuido está compuesto por n máquinas, dependiendo de la necesidad de 
las aplicaciones que vayan a ejecutarse, se colocan unas u otras máquinas.

Play video starting at 33 seconds and follow transcript0:33


Los sistemas distribuidos tienen la característica de que 
son nodos independientes que están intercomunicados por la misma red, 
de tal manera que aunque cada máquina tiene su sistema operativo, por encima de 
ese sistema operativo se tiene un software que se denomina middleware 
que permite intercomunicar y saber el estado de cada una de las máquinas. 
De esa manera, el sistema operativo hace su trabajo pero las máquinas 
están comunicadas entre sí mediante el middleware para poder transferir 
información, transferir procesos o cualquier otra orden que sea necesaria. 
Por encima del middleware se ejecutan las aplicaciones en una o n máquinas, 
dependiendo de la necesidad. 
Es importante destacar que de cara al usuario, de cara a la persona 
que está entrando al sistema distribuido, la visión que tiene ese usuario es de 
una sola máquina, a pesar de que internamente tenga varias máquinas. 
Se tiene que tener en cuenta que un sistema distribuido 
es un sistema complejo, es un sistema en donde hay que tener en cuenta conceptos 
como replicación de datos, como accesibilidad. 
Si uno de los nodos, si una de las máquinas deja de funcionar, 
es importante que el sistema siga funcionando. 
E incluso escalabilidad. 
Es muy importante que si el número de máquinas es insuficiente para las 
aplicaciones que se están ejecutando, se permita de alguna manera escalar y ampliar 
el número de máquinas sin que ello conlleve a la parada del resto de máquinas 
o a la incapacidad de poder responder por parte del usuario. 
El siguiente concepto a tener en cuenta es el de las 5V. 
Si bien la literatura a veces habla de las cuatro o de las tres V, 
en nuestro caso queremos hablar de las 5 V por la importancia de cada una de las V. 
Vamos a destacar cada una de las cinco de manera muy breve. 
El volumen, 
que es cantidad de datos que se están obteniendo en plataformas Big Data. 
La velocidad en la que se están generando esos datos. 
La variedad, porque vamos a poder almacenar datos de distintos tipos, texto, 
imágenes, videos, audios, cualquier tipo de número. 
La veracidad es algo muy interesante, 
porque los datos no tienen por qué están 100% seguros, pueden ser opiniones, pueden 
ser datos que no están 100% seguros, puede haber anomalías, puede haber outlaiers. 
Y por último, el valor, porque es muy importante saber que detrás de todo esto 
que estamos haciendo lo que intentamos obtener es valor para nuestro negocio, 
para nuestros intereses personales, para lo que sea. 
Por lo tanto, el valor es otro caracter muy importante. 
Otro concepto que vamos a analizar es el de Map Reduce. 
Es un concepto muy sencillo que lleva existiendo desde hace muchos 
años que se denomina Map Reduce, 
pero también se podría denominar concepto divide y vencerás. 
Dado un problema muy complejo, 
si bien es muy difícil solucionar ese problema complejo en un tiempo razonable, 
lo que hacemos es dividir ese problema en pequeños problemitas, 
actuamos sobre esos pequeños problemitas, obteniendo pequeñas soluciones, 
y luego agregamos esas pequeñas soluciones, obteniendo la solución global.

Play video starting at 3 minutes 26 seconds and follow transcript3:26


En el ejemplo que vamos a poner, la idea es intentar contar el número de palabras. 
Imaginad que tenemos un conjunto de millones y 
millones y millones de palabras. 
Es muy costoso contar esas palabras. 
Pues el concepto de Map Reduce lo que nos va a ayudar es a contar esas palabras 
de una manera muy sencilla. 
Primero que todo, dividimos, dividimos por frases. 
¿Por qué no? 
Por filas, vamos a dividir por filas. 
Vamos a contabilizar, vamos a hacer un map que lo que hace básicamente es 
preparar las palabras de manera individual y contabilizar esas palabras. 
Luego las organizamos. 
Esto no es necesario, organizarlas. 
Pero bueno, vamos a organizarlas. 
Vamos a agregar y vamos a juntar todas las palabras que son iguales. 
Y luego hacemos un reduce que lo que hace es sumar, en este caso. 
Agregamos una información y devolvemos la suma de todas las palabras. 
Y ahí un problema que es muy complejo, el simplificarlo lo máximo posible para 
obtener al final el resultado que queríamos en un tiempo razonable. 
¿Por qué? Porque hemos divido el problema 
en pequeños subproblemas. 
Y esos problemas los hemos paralelizado, hemos contabilizado de manera paralela. 
Si bien unimos los conceptos que estamos hablando, sistemas distribuidos y 
Map Reduce, podemos empezar a intuir por dónde va el mundo de Big Data. 
A continuación, vamos a ver el concepto del CAP Theorem. 
EL CAP Theorem son tres conceptos en realidad que son muy relacionados 
a cualquier sistema distribuido y específicamente a las soluciones Big Data. 
El primer concepto de la C es consistencia. 
¿Qué quiere decir esto? 
Bueno, pues está claro. 
Si yo accedo a un dato, y los datos son de una manera determinada, 
y vuelvo a acceder a ese dato, el dato debería de ser exactamente igual.

Play video starting at 5 minutes 0 seconds and follow transcript5:00


Tenemos que cumplir la consistencia. 
Por otro lado, la accesibilidad, availability. 
Que básicamente lo que dice es, si yo quiero acceder al sistema para obtener un 
dato, el sistema tiene que responder. 
No puede ser que deje de funcionar. 
Eso es la accesibilidad, la disponibilidad.

Play video starting at 5 minutes 17 seconds and follow transcript5:17


Y por último, Partition Tolerance, que básicamente es, independientemente 
del número de máquinas que tenga mi infraestructura Big Data, si yo pierdo uno 
de los nodos, si yo pierdo una de las máquinas, el sistema debería de funcionar. 
¿Por qué debería de funcionar? 
Pues obviamente porque hemos replicado los datos, hemos replicado los procesos, hemos 
tenido eso en cuenta y, por lo tanto, no pasa nada por que se pierda un nodo, 
porque el sistema sigue funcionando con toda la información. 
La unión de esos tres conceptos es lo que se denomina una plataforma 
Big Data perfecta, con una accesibilidad del 100%. 
La realidad es que nunca un sistema de Big Data está accesible al 100%. 
Aunque nos vamos aproximando cada vez más, 99,999%. 
Vamos por el buen camino, aunque, claro, nunca es 100% perfecto.

Play video starting at 6 minutes 9 seconds and follow transcript6:09


Y por último, uno de los conceptos clave son los datos. 
¿Qué tipologías de datos hay? 
Pues los datos pueden venir de distintos tipos. 
Pueden venir de la base de datos, pueden venir de un sistema de ficheros, 
pueden venir de emails, pueden venir de websites, 
pueden venir de redes sociales, pueden venir de dispositivos o sensores IOT, 
pueden venir de cualquier sistema multimedia, 
cámaras de video, cualquier generador de video, audio, imagen. 
Todas esas fuentes son aptas 
para poder generar datos y poderse adaptar en nuestra plataforma Big Data. 
Y esos datos pueden ser de tipo estructurado, 
que significa que tiene una estructura fija con una serie de columnas que definen 
cada una de las características de nuestros datos. 
Pueden ser no estructurados, no está definida su estructura, como por ejemplo, 
las imágenes, los textos, los videos, que no está definida claramente su estructura. 
O puede ser una mezcla de ambas partes, estructurado, no estructurado, 
una mezcla conjunta es lo que se denomina semiestructurado. 
Prueba de ello son soluciones en las que tienes un conjunto de datos estructurado, 
como puede ser una tabla, 
y uno de los campos de esa estructura es un campo de texto libre. 
Eso define una inestructuración dentro de una estructura final de datos.

Play video starting at 7 minutes 31 seconds and follow transcript7:31


Los datos se pueden generar de dos maneras, o bien you los tienes generados 
de antemano y esos datos simplemente puedes acceder cuando quieras, no se 
generan dinámicamente, sino que you están generados, a lo que eso se denomina batch. 
O los datos se generan dinámicamente en tiempo real, 
a eso se le denomina accesibilidad o generación de manera streaming. 
Y hasta aquí el resumen es las cantidades de 
conceptos básicos necesarios que necesitamos entender y conocer 
para podernos adentrar más aún en el mundo del Big Data. 
[MÚSICA]

VIDEO 25

El Data Lake

Reproducir video
reproducir
Volumen
0:00/8:49
Ajustes
Pantalla completa
Notas

Todas las notas

Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 3 seconds and follow transcript0:03
Vamos a comenzar por 
uno de los conceptos más importantes a lo que está orientado el mundo de Big Data, 
que es el almacenamiento y gestión de los datos, 
o lo que denominamos en su momento el "Data Lake" o el Lago de Datos. 
Para entender la necesidad del Data Lake es importante hacernos una serie de preguntas, 
por ejemplo: ¿dónde guardamos los datos?, 
¿quién puede acceder a esos datos?, 
¿quién puede almacenar los datos?, 
¿quién puede modificar esos datos?, 
¿cuándo podremos acceder a ellos?, ¿en algún momento, 
esos datos modificados va a permitir de 
alguna manera poder llegar a los datos originales? 
Todas esas preguntas requieren una respuesta y es ahí, 
cuando se creó el concepto del Data Lake. 
El Data Lake lo que nos va a permitir es almacenar 
y obtener el dato en una estructura organizativa, 
en una empresa, en un colegio, 
en una universidad, donde queramos. 
Es importante destacar que el Data Lake 
está pensado para estructuras organizativas muy grandes, 
tan grandes que no hay escala definida, es interminable. 
Por ello, el almacenamiento de datos es interminable, 
es totalmente escalable y por ello, 
es muy importante organizar bien este almacenamiento de datos. 
Para ello, creamos pequeños silos o denominados también "repositorios", 
que lo que nos permite es crear zonas donde vamos 
a poder trabajar para una funcionalidad o una operativa determinada. 
Esa operativa está definida "a priori", es decir, 
hay una necesidad determinada, 
cogemos esos datos que necesitamos, 
los llevamos a nuestros repositorios, 
hacemos la operación que sea necesaria y, 
sin ningún problema, como ese silo, 
ese repositorio, está definido para eso, 
podemos trabajar con ese repositorio independientemente del origen de los datos, 
ese originen los datos queda guardado, sin ningún tipo de problema. 
¿Qué pasa? Que con esos datos, 
podemos hacer varias operaciones, no pasa nada. 
Creamos repositorios, un repositorio por cada funcionalidad o 
cada operación que queramos hacer sobre los datos. 
Lo importante es tener claro qué es lo que vamos a hacer, 
coger los datos que vamos a necesitar y copiarlos sobre los distintos repositorios. 
Una de las características fundamentales del Data 
Lake es que el contenido parece estar centralizado, 
igual que en un sistema distribuido. 
Nosotros tenemos la transparencia de que el sistema 
parece único y que está todo centralizado ahí, 
de igual manera los datos 
parecen estar ahí almacenados en un solo sistema y está todo centralizado. 
Pero en realidad, el Data Lake lo que nos permite es tener los datos 
totalmente desubicados y distribuidos en un sistema distribuido. 
Otra de las características fundamentales del Data Lake es la escalabilidad. 
Como hemos dicho anteriormente, 
la escalabilidad es indefinida. 
Podemos añadir cuantos datos queramos 
y está preparado el Lago de Datos para ser ampliado cuantas veces queramos. 
Es importante también tener en cuenta que esa escalabilidad supone redundancia de datos, 
replicación de datos y división de datos. 
No pasa nada, para eso están las plataformas Big Data, 
para permitir ese tipo de cosas. 
Y por último, algo super importante es el control de acceso distribuido. 
Como es transparente el acceso, 
tú no sabes en qué máquina estás accediendo. 
Pero lo que está claro es que cuando yo accedo, 
tiene que estar controlado que yo voy a poder acceder 
a esos datos porque tengo permiso de acceder a esos datos, 
independientemente de en qué máquina esté y donde está el dato. 
Nuestra recomendación en un Lago de Datos es generar tres zonas. 
Esas tres zonas están definidas según la necesidad de preparación sobre los datos. 
La primera zona es "Landing". 
El Landing llena los datos tal cual los obtenemos de la fuente origen, 
y a eso se lo denomina los "datos en crudo". 
Ahí se almacenan los datos y se recomienda no tocar los datos de ahí porque, 
en cualquier momento, vamos a poder necesitar los 
datos desde crudo para procesarlos o operarlos de cualquier manera. 
Cuando los datos los operamos, los procesamos, 
llevamos los datos de "Landing" a "Staging". ¿Qué significa eso? 
La operación puede ser desde una simple normalización, 
anonimización, limpieza, detección de outliers, 
cualquier tipo de operación. 
Esa operación, lo que nos dice es "ya no puede estar el dato en Landing, 
sino que tenemos que llevarlo a Staging", 
pero en realidad seguimos teniendo el dato en crudo en 
Landing y el dato procesado en Staging. 
Ese dato procesado realmente no tiene la calidad que nosotros esperamos. 
La calidad que nosotros deseamos, 
sólo la podemos conseguir si hacemos un procesamiento mucho más limpio, 
mucho más preparado, con mucha más fuerza. 
Ese procesado, una vez hecho, 
la pasamos a la zona Gold. 
Los datos ya están preparados y los consideramos de valor. 
Un dato de valor es aquel que me va a dar valor en mi 
compañía para una solución determinada. 
¿Qué quiere decir eso? 
Que el dato en crudo, 
normalmente, pasa por el paso de la zona Landing, 
lo limpiamos, preparamos, etcétera, 
y lo dejamos en la zona Staging, 
y luego lo preparamos para que tenga calidad, 
y esa calidad es lo que denominamos la zona Gold. 
¿Puede un dato llegar de la zona Landing y 
automáticamente con un procesador, pasar a la zona Gold? 
Por supuesto, no hay ningún tipo de restricción. 
Pero lo importante es que tengamos esa organización 
para saber por qué zonas debería estar un dato. 
Muchas compañías lo que hacen es que la zona Staging la usan para, 
simplemente, cumplir la normativa LOPD. 
Lo que hacen es anonimizar el dato, 
una vez que está anominizado el dato lo pasan a Staging, 
y saben que sólo en la zona Landing va a estar el dato en crudo, sin anonimizar. 
Por lo tanto, un dato que no está 
anonimizado es mucho más sensible y hay que tener muchísimo cuidado con ese dato. 
No damos acceso a la zona del dato en crudo a nadie, 
o prácticamente a nadie, solo a los 
administradores y sólo dejamos acceso a la zona Staging. 
Obviamente, cuando el dato está preparado para sacarle valor, 
no vamos a ir a la zona Staging, 
vamos a ir a la zona Gold. 
¿Qué características o qué requisitos debería cumplir un Data Lake? 
Como os estaréis imaginando, 
la seguridad es una de las características fundamentales. 
Como he dicho antes, no deberíamos de dejar acceso 
a un dato que está en crudo, sin anonimizar. 
¿Vamos a permitir acceder? 
No. Necesitamos de seguridad, 
necesitamos de asegurar que 
no podemos acceder nunca sobre un dato que está sin anonimizar. 
¿Cómo podemos controlar eso? 
Existen distintos componentes de Big Data, 
que luego lo veremos, que nos permite controlar la seguridad. 
Por otro lado, los esquemas organizativos. 
Como he dicho, esto está pensado para grandes empresas, 
por tanto, esas grandes empresas que ya tienen un esquema organizativo preparado, 
ya tienen un esquema de cómo trabajan en el día a día, 
qué perfiles hay, quién depende de quién, 
qué jerarquía existe, esos esquemas 
organizativos también se pueden aplicar a la filosofía del Data Lake. 
De tal manera, que esos perfiles podríamos crearlos también en el Data Lake y saber 
perfectamente esas jerarquías y esos esquemas 
organizativos qué permisos van a tener que tener para acceso a los datos. 
Otro detalle es el "linaje". ¿Qué es el linaje? 
Básicamente, es el camino que recorre el dato desde que se obtienen hasta la fase final. 
Cada uno de los pasos que se realicen sobre ese dato, operaciones, transformaciones, 
anonimización, todos esos pasos deberían quedar almacenados en algún sitio. 
Lo importante en ese caso, 
es tenerlo almacenado esos metadatos de cada uno de los pasos. 
A eso se denomina linaje y es una de las características 
fundamentales de una plataforma de almacenamiento de datos o Data Lake. 
Y por último la "gobernanza". 
La gobernanza es otra característica fundamental del data Lake. ¿Por qué? 
Porque de alguna manera, 
yo digo que un determinado dato que procede de un origen determinado, 
sólo va a poder permitir un acceso a unas determinadas 
características o a unas determinadas operaciones de una determinada persona. 
Creo un gobierno, básicamente es el gobierno del dato. 
¿Cómo voy a permitir acceder al dato? 
¿Por quién? ¿De qué manera? Y ¿hasta dónde? 
Estas son las cuatro características que definen un Data Lake. 
En definitiva, el Data Lake es fundamental para 
los sistemas Big Data porque es donde vamos a almacenar todos los datos, 
donde nos va a permitir gestionarlos y donde, 
finalmente, vamos a saber qué dato merece la pena, 
qué dato no, qué dato tiene valor y que dato no.

VIDEO 26

Ecosistema Hadoop
Reproducir video
reproducir
Volumen
0:00/9:47
Ajustes
Pantalla completa
Notas

Todas las notas

Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 0 seconds and follow transcript0:00
[AUDIO_EN_BLANCO] [MÚSICA] 
[AUDIO_EN_BLANCO] Vamos a adentrarnos en el mundo de Big Data, 
y como sabéis, en el mundo del Big Data hay más de 700 aplicaciones asociadas. 
Es un mundo, un mundo inexplorado a día de hoy. 
Como bien dije antes, una ola inmensa que si nos damos cuenta, ha pasado 
sin haber detectado todas las tecnologías existentes, pero vamos paso a paso. 
En primer lugar, vamos a ver lo fundamental. 
El elefante. 
El elefante que no deja de ser el símbolo de la base de la filosofía de Big Data. 
Es Hadoop. 
Hadoop es un framework, es un software, un software open source 
que me va a permitir acceder a datos de manera distribuida y a procesarlos. 
Vamos a ver un poco la historia en la que se creó Hadoop. 
En primer lugar, se inventó un software que se denominaba NATS, 
que era un software que permitía indexar millones de datos y permitía buscarlos. 
Estaba basado en plataformas LUFS.

Play video starting at 1 minute 7 seconds and follow transcript1:07


Bien. 
Entre tanto que se inventó el sistema NATS, 
Google inventó el concepto de MapReduce, que lo habíamos visto anteriormente. 
Ese concepto permitió empezar a trabajar con filosofías de divide y vencerás 
sobre plataformas con datos de manera masiva.

Play video starting at 1 minute 26 seconds and follow transcript1:26


Una de las personas que cogió la filosofía de Google, que es Doug Cutting, cogió 
esa filosofía y la aplicó en un nuevo sistema de ficheros que se llamaba DFS. 
Aplicó la filosofía MapReduce con sistema de fichero DFS 
para obtener datos utilizando la NATS.

Play video starting at 1 minute 45 seconds and follow transcript1:45


Empezaron a trabajar hasta que llegó el 2006, 
y en el 2006 Yahoo no tuvo más remedio que contratar a este hombre. 
Crearon un spin-off, un spin-out que se denominaba Hadoop. 
Entre tanto, siguieron trabajando, se planteó una iniciativa: "¿Por qué no 
aplicamos esta filosofía de uso en MapReduce con infraestructura Big Data, 
infraestructura con el ecosistema Hadoop, en un caso real?". 
Lo plantearon en el New York Times con cuatro teras de información que, 
para ser del 2007, es muchísima información. 
Para ello, pusieron 100 máquinas a trabajar de manera paralela en 
el almacenamiento y procesado de datos. 
Fue un éxito, un éxito total que continuaron trabajando. 
Y empresas como Yahoo o como Facebook 
plantearon el uso de Big Data con plataformas Hadoop.

Play video starting at 2 minutes 35 seconds and follow transcript2:35


En el 2008, a principios del 2008, empezó Facebook you 
a plantearse el uso de manera interna y de manera externa de usos de Hadoop.

Play video starting at 2 minutes 44 seconds and follow transcript2:44


Yahoo you planteaba casos reales de uso de 3,5 terabytes para lanzamiento de datos, 
pero lo importante es que, a finales de 2008, se creó Cloudera. 
Cloudera es la base, la distribución Hadoop 
más importante que existe hoy en día en el mercado, y desde el 2008 hasta ahora, 
lo único que hemos hecho ha sido crecer, crecer, crecer, crecer, 
hasta que llega un momento en el que hemos creado esas 705 aplicaciones Big Data.

Play video starting at 3 minutes 13 seconds and follow transcript3:13


Bien. ¿En qué se basa la filosofía Hadoop? 
Existe un sistema de fichero que se llama HDFS, Hadoop Data File System.

Play video starting at 3 minutes 23 seconds and follow transcript3:23


Hadoop lo que hace es coger un fichero muy grande, muy grande, 
muy grande de datos, y lo divide en pequeños cachos. 
Esos pequeños cachos se llaman chunks, y lo que hace es 
distribuir esos chunks entre las distintas máquinas de un sistema distribuido. 
Claro, no manda un cacho solo a una máquina, manda un cacho a 10 máquinas, 
lo que se denomina replicación. 
¿Por qué? 
Porque si perdemos una máquina, ese dato no lo perdemos, 
lo tenemos replicado en otras máquinas.

Play video starting at 3 minutes 52 seconds and follow transcript3:52


También lo tenemos la filosofía de almacenamiento replicado, 
lo que supone que si más de una máquina falla, 
la accesibilidad al dato nos lo da 100% seguro. 
Dependiendo de cuál sea el nivel de replicación, 
tendremos que indicar el número de máquinas de la infraestructura Big Data.

Play video starting at 4 minutes 12 seconds and follow transcript4:12


Bien. 
Esos chunks que están divididos, en realidad, 
la forma de acceder a ellos es de igual manera que una filosofía MapReduce. 
Yo leo de manera paralela cada uno de los chunks de manera paralela, y obtengo los 
chunks, los uno y creo el fichero final, que es lo que nos tenemos como objetivo. 
En realidad, ¿cómo se crea esto? 
Pues, ¿dónde se encuentra cada chunk?

Play video starting at 4 minutes 38 seconds and follow transcript4:38


Es trabajo de un nodo de una máquina que le vamos a llamar Name Node. 
Esa máquina va a tener los metadatos de dónde se encuentra cada cacho del fichero, 
dónde se encuentra cada fragmento del dato, y los datos en realidad no se 
almacenan en el Name Node, se almacenan en otros nodos que se denominan Data Node. 
De tal manera que la operación es la siguiente. 
Voy a consultar al Name Node: "Oye, ¿dónde se encuentra este dato?". 
El Name Node me dice: "Recórrete este, este y este nodo", 
que son Data Node, y acceso de manera paralela a los distintos cachos del dato, 
para luego agregarlos y obtener el dato que deseo. 
Bien.

Play video starting at 5 minutes 24 seconds and follow transcript5:24


La filosofía o el diseño de la arquitectura Big Data que lo hemos 
visto anteriormente, yo quiero bajar un poquito más. 
¿Cómo se plantea dentro de Hadoop?

Play video starting at 5 minutes 34 seconds and follow transcript5:34


Pues, muy fácil. 
Lo primero de todo como base, un sistema de fichero distribuido HDFS. 
Por encima del HDFS, necesito de un orquestador, 
un orquestador que va a saber cómo se encuentran mis máquinas 
y cuál es la capacidad que tienen mis máquinas de reacción. 
Ese proceso lo veremos más adelante, y se llama Java.

Play video starting at 5 minutes 57 seconds and follow transcript5:57


Aparte tenemos ingestadores de datos, el streaming y en Batz. 
Por otro lado, necesitamos al sistema que permite almacenar datos no estructurados,

Play video starting at 6 minutes 11 seconds and follow transcript6:11


que no tiene por estar almacenado en un sistema de datos estructurado. 
Vamos a permitirlo también.

Play video starting at 6 minutes 17 seconds and follow transcript6:17


Por otro lado, mecanismos para poder acceder a los datos. 
Podemos acceder mediante SQL, podemos acceder mediante scripting, 
podemos utilizar Machine Learning para ello, podemos incluso hacer un work flow 
de tareas para realizar una operación determinada sobre un dato, 
y todo esto desde una visión transparente que me va a permitir, 
a través de incluso un navegador web, acceder sobre los datos,

Play video starting at 6 minutes 42 seconds and follow transcript6:42


y todo esto obviamente también controlado por un cuidador. 
El cuidador de los animales, 
el que va a encontrarme todas las aplicaciones de una plataforma Hadoop.

Play video starting at 6 minutes 51 seconds and follow transcript6:51


Bien.

Play video starting at 6 minutes 53 seconds and follow transcript6:53


Hoy en día, ¿qué distribuciones existen? 
Pues, existen you infinidades de distribuciones. 
De manera open source, de manera de pago. 
Como puede ser open source, podría ser Hortonworks. 
Como podría ser de pago, podría ser MapR. 
¿Cuál es la más usada? 
Pues, si nos fijamos en los datos del tercer quarter del 2016, 
vemos que la más descargada, no la más usada, la más descargada son 
las plataformas estándar Hadoop, es decir, no existe una situación como la de ahora, 
pero en realidad solo es la más descargada, porque está contabilizando 
los pequeños componentes que genera Apache de manera separada. 
En realidad, la distribución más usada hoy en día es Cloudera. 
Cloudera tiene una característica, y es que casi todo es open source, 
salvo una serie de aplicaciones que son de pago, y el soporte que es de pago. 
La solución que está ofreciendo Cloudera al día de hoy como paquete con una serie 
de componentes o aplicaciones you preparadas, interconectadas, configuradas, 
etcétera, es lo que se denomina CDH, 
y la versión que se está utilizando a día de hoy es la 5.2. 
Frente a Cloudera, el siguiente competidor es Hortonworks, 
una solución completamente open source, no tiene forma de pago, todo es gratuito. 
Lo único que ofrece Hortonworks es un soporte. 
que normalmente es un soporte cuando tienes que hilar fino, 
cuando necesitas una aplicación que no está soportada con Hortonworks, 
pero que necesita soporte porque la necesitas para algún motivo. 
Bien. 
En ese caso, Hortonworks ofrece otro tipo de distribución o un paquetito diferente 
que se denomina HDP. 
La versión actual es la 2.6. 
¿Qué característica hay entre ambos? 
Pues, en realidad, la base es la misma. 
Es ecosistema Hadoop. 
Lo que pasa que por encima de cara al usuario, 
utiliza distintas vertientes porque se enfocan en distintas soluciones. 
Uno le da más importancia al acceso, al dato de la manera más eficiente posible, 
con uso de memoria, como es el caso de Cloudera, 
y otro le da más importancia a las soluciones desde el punto de seguridad, 
porque quiere asegurar que el dato está, de por sí, seguro. 
que es la solución Hortonworks. 
Existen otras soluciones como MapR, que quizás son más completas, pero claro, 
desde el minuto cero son de pago, y supone un gasto bastante fuerte. 
O soluciones como Pivota, que están también entre medio aunque son más de pago 
que Cloudera, están entre medio de la open source y la solución de pago.

Play video starting at 9 minutes 23 seconds and follow transcript9:23


Hasta aquí el ecosistema Hadoop, nuestro objetivo, a partir de este momento, 
es analizar cómo funcionan cada una de las aplicaciones que se instalan en las 
distintas distribuciones Cloudera, Hortonworks, MapR, o Pivota. 
[MÚSICA] [AUDIO_EN_BLANCO]
VIDEO 27

Componentes Big Data I

Reproducir video
reproducir
Volumen
0:00/9:41
Ajustes
Pantalla completa
Notas

Todas las notas

Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 0 seconds and follow transcript0:00
[MÚSICA] [MÚSICA] 
Comenzamos analizando cada 
uno de los componentes o aplicaciones que nos ofrecen las soluciones BigData.

Play video starting at 17 seconds and follow transcript0:17


Para empezar, como hemos comentado anteriormente, el ecosistema Hadoop 
ofrece una serie de aplicaciones por defecto, soluciones como pueda ser HDFS. 
Existen otras aplicaciones, podemos ver en el gráfico una serie de 
símbolos o iconos que nos representan esas aplicaciones, como podrán ser el símbolo 
de la aplicación de Hive, el símbolo de la aplicación de Flume, Sqoop, etcétera. 
Vamos a ir a verlos de manera organizada.

Play video starting at 44 seconds and follow transcript0:44


En primer lugar, todo lo que tiene que ver con almacenamiento de datos. 
Bien, tenemos el componente Hive, que nos permite almacenar los datos de manera 
estructurada, lo que nos permite no solo es almacenarlo de manera estructurada, 
sino también incluso consultar de manera estructurada, cuando digo estructurada me 
refiero a SQL, el tradicional lenguaje SQL CLK, asterisco, front, bla, bla.

Play video starting at 1 minute 9 seconds and follow transcript1:09


Esto es muy sencillo para gente que viene de anteriores versiones de 
Business Intelligence o incluso de soluciones Oracle, MySQL, etcétera, 
puesto que para ellos no supone un cambio desde el punto de vista de desarrollo, 
pero en realidad, por detrás está funcionando un sistema BigData 
con sistemas distribuidos, almacenamiento, replicación, etcétera.

Play video starting at 1 minute 28 seconds and follow transcript1:28


Frente a Hive, tenemos soluciones como Accumulo, 
una situación que también es compatible con Cloudera y con Hortonworks. 
Podemos observar cómo en la transparencia indico una C o una H, 
que lo que quiere decir es si es compatible o no es compatible, 
y si se da soporte o no en cada una de las dos distribuciones más importantes, 
cuando pone C solamente o H solamente, 
es que solo dan soporte en ese tipo de distribuciones. 
Bien, Accumulo en este caso es una solución tan potente como Hive, pero menos 
usada que Hive, que ofrece también acceso de una manera sencilla a los datos sin 
necesidad de tener muchos conocimientos en los sistemas distribuidos.

Play video starting at 2 minutes 6 seconds and follow transcript2:06


Frente a Accumulo o Hive, ofrecemos soluciones no SQL, 
HBase es una solución no SQL que viene incluso previa a la creación de Hive, 
que lo que permite es almacenar los datos de una manera sencilla como clave-valor. 
No tiene ninguna complicación, yo almaceno con una clave un determinado valor, 
y ese valor puede tener la forma que queramos, un dato, 
una imagen, un vídeo, lo que queramos.

Play video starting at 2 minutes 35 seconds and follow transcript2:35


HCatalog es básicamente un catálogo que nos permite controlar 
todas las bases de datos de una manera unificada. 
Es muy potente porque nos permite acceder de una manera muy sencilla a distintos

Play video starting at 2 minutes 49 seconds and follow transcript2:49


sistemas o aplicaciones de almacenamiento de base de datos distribuidas como puede 
ser Hive y HBase a la vez, y HAWQ, HAWQ es una solución pivotal, 
de ahí viene la P, entre paréntesis, es una solución muy parecida a Hive, pero 
con un pequeño detalle, y es que tiene la posibilidad de poder ejecutar en memoria. 
Es muy parecido a lo que vamos a ver más adelante, que se llama Impala, 
una solución de Cloudera. 
También otro potencial de HAWQ en este caso, 
es que nos permite ejecutar código DR dentro de la propia consulta SQL, 
a lo cual nos permite generar incluso analítica a la vez que acceso al dato.

Play video starting at 3 minutes 29 seconds and follow transcript3:29


Bien, desde el punto de vista de acceso al dato, de obtención del dato, 
existen distintas soluciones, HiveSQL, os podéis imaginar, que es la parte de Hive 
de consulta SQL, también con soporte a Cloudera y a Hortonworks. 
Impala es una solución de Cloudera que permite acceder optimizando la consulta, 
usando la memoria, hablamos de memoria individual de cada nodo, que a su vez, 
si se tuviera una memoria distribuida compartida, podría usarse a la vez.

Play video starting at 3 minutes 58 seconds and follow transcript3:58


Bien, es una solución muy potente, y hasta hace bien poco, 
era la solución más óptima que existía en soluciones BigData, 
hasta que salió otro concepto, otra aplicación que se llama Spark.

Play video starting at 4 minutes 11 seconds and follow transcript4:11


Pig es una solución basada en scripting, es acceso de manera scripting, 
no tiene más que una consulta muy parecida al resto de 
scripts de acceso a dato, si bien esos accesos se parecen 
mucho a la estructura de una SQL, difiere en algunos aspectos, 
para lo cual, si una persona no sabe ejecutar bien un script en Pig, 
nuestra recomendación es siempre utilizar con Pig otra aplicación que se llama Tez. 
¿Qué es lo que hace Tez? 
Coge la consulta hecha en Pig, la analiza y la optimiza, la reorganiza, 
la complica y la modifica para que sea una ejecución de la más óptima posible. 
Podemos ver el ejemplo donde una consulta donde aparentemente sabemos cómo se hace, 
Tez se da cuenta de que la consulta no es óptima, la modifica, 
la cambia para que sea óptima y el tiempo de ejecución sea la menor posible, 
es una solución muy práctica cuando queremos utilizar soluciones Pig cada vez.

Play video starting at 5 minutes 9 seconds and follow transcript5:09


SparkSQL. 
Si tenemos solución Spark, que vamos a ver más adelante, lo que nos va a permitir 
SparkSQL es acceder a los datos en memoria utilizando SQL, 
es una solución súper potente cuando queremos utilizar soluciones Spark, 
que veremos más adelante, 
y Kite es otra solución muy parecida a SQL que está todavía en incubación por parte 
de Apache, pero que you dan soporte tanto Cloudera como Hortonworks.

Play video starting at 5 minutes 38 seconds and follow transcript5:38


A continuación, 
vamos a ver los componentes no SQL de almacenamiento no estructurado. 
Si bien you habíamos hablado de una solución que era HBase, 
una solución bastante antigua y más bien poco usada, existen otras 
soluciones bastante más orientadas a la necesidad de la ejecución o del análisis. 
Bien, en primer lugar, vamos a Cassandra, una solución basada en 
consulta por clave-valor, una solución muy rápida y muy usada hoy en día, 
que tiene soporte en Cloudera y en Hortonworks. 
Por otro lado, la solución MongoDB, que la utilizan muchas aplicaciones web, 
soluciones basadas en almacenamiento de datos por documentos o JSON, 
una solución que si bien la escalabilidad no es muy buena, 
en realidad MongoDB ha sido muy usado y es muy famoso.

Play video starting at 6 minutes 24 seconds and follow transcript6:24


Soluciones tipo REDIS de clave-valor, donde lo más importante de REDIS es 
el rendimiento y la rapidez en la que se obtiene un dato. 
En muchas ocasiones se utiliza REDIS como base de datos tipo caché, 
¿qué quiere decir eso? 
Para no tener que acceder continuamente a un dato que estamos accediendo, 
lo más fácil es coger ese dato, llevarlo a una solución tipo REDIS, 
y tenerlo en REDIS para que el acceso al dato sea lo más rápido posible, 
no tener que consultar sobre la base de datos original, 
que pueda ser un Hive, sino que directamente podamos consultar sobre esa 
REDIS y obtener unos tiempos de respuesta muy rápidos. 
Neo4J. Neo4J ofrece soluciones 
orientada en grafos. 
Muchas veces los datos tienen relaciones entre sí, 
y a mí lo que me interesa es poder navegar por esas relaciones, 
para eso se inventaron las bases de datos de tipo grafo.

Play video starting at 7 minutes 19 seconds and follow transcript7:19


Neo4J es una de las soluciones más potentes y más adaptadas para este tipo de 
problemáticas.

Play video starting at 7 minutes 25 seconds and follow transcript7:25


GraphX es la solución que está ofreciendo Spark 
para ofrecer base de datos de tipo grafos. 
Es una solución igual de buena que Neo4J, 
y encima está totalmente cogida por soluciones Apache.

Play video starting at 7 minutes 39 seconds and follow transcript7:39


CouchDB es una solución bastante potente, y está ideada para 
tener soluciones de caché y soluciones de almacenamiento a largo tiempo. 
Lo bueno de CouchDB es que está pensado para dispositivos IET, 
¿qué quiere decir eso? 
Muchas veces los dispositivos IET pierden la conectividad, 
y no pueden transmitir los datos a una base de datos global, 
para ello se instalan pequeñas instancias de bases de datos de CouchDB, 
que vayan almacenando los datos, y que automáticamente, sin necesidad de nada, 
se sincronizarán con la base de datos global cuando se tenga conectividad, y, 
mientras tanto, tienen un almacenamiento local que está totalmente sincronizado, 
you digo, cuando se vuelve a tener la conectividad. 
Elastic. 
Elastic es una solución de almacenamiento, indexación y búsqueda de datos de 
tipo documental, almacena los datos por palabras, indexa los datos por palabra, 
y lo importante en este caso es poder hacer consultas de una manera muy rápida. 
No solo tiene proceso de almacenamiento y consulta, 
sino que también tiene pequeñas aplicaciones que permiten procesar el 
texto, como poder hacerle matización, nombres propios, ese tipo de soluciones. 
Lo importante de Elastic es que no solo tiene una solución de indexación sino 
también tiene una solución de visualización, una que se llama Kibana, 
una solución de análisis de logs, que es muy potente, 
y que es una solución completa, que si bien no están ofreciendo Cloudera y 
Hortonworks de manera directa, sí que tienen conexión directa con ellos.

Play video starting at 9 minutes 14 seconds and follow transcript9:14


Y Kudu, una solución totalmente nueva, está en incubación a día de hoy, 
una solución de Apache, que demuestra que puede ser muchísimo más rápida 
en almacenar y en obtener el dato que cualquiera de las otras soluciones, 
está por ver a día de hoy todavía porque está en incubación. 
[MÚSICA] [MÚSICA]

VIDEO 28

Componentes Big Data II

Reproducir video
reproducir
Volumen
0:00/8:04
Ajustes
Pantalla completa
Notas

Todas las notas


Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 6 seconds and follow transcript0:06
Desde el punto de vista de almacenamiento del dato, 
tenemos soluciones para almacenamiento de tipos "batch", como es Sqoop, 
que lo que hace es conectar nuestras bases de datos MySQL, 
Oracle, etcétera, y volcar la información a nuestro "data lake" famoso. 
Existen soluciones "streaming" que lo que hacen es asegurarte 
que se van a ir obteniendo los datos a medida que se vayan generando de nuestra fuente, 
como son Flume y Storm, 
Flume en soluciones Cloudera, 
Storm en soluciones Hortonworks, 
aunque es verdad que Storm no se puede instalar en soluciones Cloudera también. 
Hay una cosa importante cuando se están generando 
los datos de manera "streaming", y es la organización, 
cuando llega un dato tenemos que saber que ese dato llega en ese momento, 
y antes de otro dato y después de otro dato, 
y asegurarnos de que ese dato no lo perdemos. 
Para ello, usamos un orquestador, 
que se denomina Kafka, 
que nos permite enganchar con Flume o con Storm para 
ir cogiendo el dato y de manera organizada almacenándolo, 
crea una ventana de tiempo y va ajustando esos tiempos para ir almacenando los datos. 
Otras soluciones que nos permiten también hacer 
procesamiento en tiempo real, no sólo obtener el dato, 
sino lo proceso en ese momento de manera muy rápida, 
es las soluciones que ofrece Spark con Spark Streaming y la solución Flink,, 
que es la competidora de Spark, 
que también tiene su solución Flink Streaming. 
Y, por último, Apex, 
que también está en incubadora y que también está ofreciendo una solución 
en "batch" y en "streaming" de procesamiento del dato. 
Promete mucho, aunque todavía está en incubadora. 
Desde el punto de vista en navegación de una manera visual, 
es decir, mediante la "web", 
tenemos el componente Hue, 
que es un componente que existe tanto en Cloudera como en Hortonworks, 
y una solución que se denomina Cloudera Navigator que, 
como su nombre indica, 
procede de la solución Cloudera. 
Desde el punto de vista de consulta de datos mediante consulta búsquedas, 
tenemos la solución Elastic, 
que ya habíamos hablado anteriormente, 
una solución muy parecida a Lucene que se llama Solr que, 
si bien antes no la usaba Cloudera, 
ahora ya la ha implantado Cloudera. 
Previamente, Cloudera tenía una que se llamaba Cloudera Search, 
que se ha demostrado que era menos 
potente que la solución Solr, de ahí que se implantara. 
Desde el punto de vista de seguridad, 
ofrecen soluciones diferentes, tanto Cloudera como Horton. 
Cloudera ofrece una solución Sentry que es una solución global de control, 
acceso y "gateway" para controlar el acceso a ese dato y, 
sin embargo, Horton tiene dos soluciones, 
tres soluciones en realidad, 
Knox, Ranger y Kerberos. 
Knox nos está asegurando la conectividad desde el punto de vista de red, Ranger, 
la accesibilidad al dato, 
y Kerberos, la seguridad del dato, 
es decir, encriptación del dato. 
Desde el punto de vista de qué es lo que está produciendo, 
qué es lo que está ocurriendo sobre cada una de las máquinas, 
cómo es el estado de las máquinas, si está apagada, 
si está encendida, si está hasta arriba, 
si no, si tiene mucha memoria usada, si no, 
se utilizan varias soluciones, en Horton, 
Ambari, en Cloudera, Cloudera Director. 
Tened en cuenta que Cloudera Director es una solución de pago, 
hay que pagar por tener esa solución, 
sino tenés que intentar, 
de alguna manera, configurar Ambari dentro de una distribución Cloudera. 
Y una cosa súper interesante es CloudBreak. 
CloudBreak, lo que nos va a permitir es controlar clusters de clusters, 
es decir, si yo tengo una solución Hadoop basada en Hortonworks y una solución Cloudera, 
¿por qué no unificarlas en una sola visión que es la visión global de CloudBreak?, 
donde me va a decir cómo va a estar el estado 
del cluster de Cloudera y cómo está el estado del cluster Hortonworks. 
Desde el punto de vista de orquestación, 
como hemos dicho antes, 
Yam nos va a controlar qué procesos se están ejecutando, 
cuál es el estado de esos procesos, 
qué cola de procesos faltan, 
cuántos recursos se van a usar en nuestro sistema o infraestructura, 
y cuál es el estado futuro de nuestras máquinas. 
Es muy importante que Yarn tenga la visión de todos los recursos de nuestro sistema, 
porque si no tiene visión, no lo estamos usando. 
Yam es el que dice, "se puede usar" o "no se puede usar". 
Desde el punto de vista de flujo de trabajo, 
existe una solución Oozie que se utiliza también en sistemas de producción, 
que es como un "workflow" de trabajos, 
ejecuta esto, luego, esto, luego, esto y, luego, esto. 
No deja de ser un "script" que va ejecutando cada uno de los procesos, 
pero nos sirve muchísimo el hecho 
de poder tenerlo configurado en sistemas Big Data porque, 
de manera automática, se van a ejecutar esos procesos. 
Es verdad que como es una solución "scripting" es poco amigable, 
para ello inventaron una solución que se llama Nifi que es, 
mediante una interfaz gráfica, 
poder ir creando nodos, 
que van interconectados entre sí mediante 
flechitas que permite hacer ciertas operaciones, una detrás de otra. 
Si bien es muy intuitivo, 
no es válido para utilizar en producción, 
puesto que Nifi, que está basado en Java, 
es muy lento y muy pesado. 
Zookeeper, como hemos definido antes, 
es nuestro cuidador del zoo que lo que nos define es la alta 
disponibilidad de cada una de las aplicaciones de nuestra infraestructura Big Data. 
¿Qué quiere decir eso? Nos asegura de alguna manera que, 
cuando queramos acceder a una aplicación o a un software de nuestra plataforma, 
ese va a responder porque Zookeeper se va a encargar de que responda, 
le va a dar palos hasta que responda, básicamente. 
Y luego, soluciones de gobernanza del dato, 
que bien habíamos hablado previamente. 
Existe la solución Atlas y existe la solución Falcon. 
Atlas tiene soporte tanto en Cloudera como en Hortonworks y Falcon sólo en Hortonworks. 
Por último, la parte de analítica, 
la parte más abierta de todas, 
donde más se ha desarrollado. 
Si bien es la que más se ha desarrollado, 
también es la que más abierta hemos dejado desde el punto de vista de futuro, 
porque cada día se crean nuevas tecnologías, 
cada día obtienes nuevas aplicaciones y cada día está de moda una aplicación u otra. 
Mahout es una solución que se ha quedado anticuada, 
aunque a día de hoy sigue existiendo, de "machine learning". 
ScikitLearn y Weka, otras soluciones de "machine 
learning" en Python o en Java que se han quedado un poco obsoletas también. 
Soluciones Deep Learning hay cientos, 
las más importantes, Theano, TensorFlow, 
Keras, etcétera, H2O, son 
soluciones para ejecución de algoritmos de "deep learning" o de redes neuronales. 
Spark ML es la librería de Spark que 
me permite ejecución de "machine learning" en distribuído, 
y es más amplia que la de Spark MLlib, 
es una solución que inventaron desde 
los orígenes de Spark con soluciones "machine learning" procesadas, 
pero cuatro algoritmos procesados de manera distribuida. 
Si tuviéramos que recomendar una librería en este caso, 
nos basaríamos siempre en Spark ML. 
H2O es una solución que no sólo tiene la parte del "deep learning", 
sino otros algoritmos también distribuidos como pueda ser Random Forest. 
Y, por último, MADLib que es una solución que 
está enganchada de manera directa con Pivotal, 
es una solución que pudieras ejecutar analítica mediante Python, 
mediante Java o mediante R, 
dentro de la propia SQL de consulta del dato. 
Y bien, hasta aquí, los componentes Big Data. 
Como veis, no hemos pasado por 704 aplicaciones, 
sino sólo por las más relevantes, 
más importantes y más usadas hoy en día en la actualidad. 
Queda por esperar lo que nos viene en el futuro. 
No obstante, es prometedor.
VIDEO 29

Iaas, Paas y Saas

Reproducir video
reproducir
Volumen
0:00/11:10
Ajustes
Pantalla completa
Notas

Todas las notas

Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 0 seconds and follow transcript0:00
[AUDIO_EN_BLANCO] 
[MÚSICA] Hasta ahora hemos visto los 
componentes Big Data que nos permiten obtener una infraestructura. 
Ahora vamos a tomar decisiones desde el punto de vista de ¿dónde almacenamos 
nuestra infraestructura Big Data, en nuestras oficinas o fuera en la nube?

Play video starting at 24 seconds and follow transcript0:24


Vamos a ver cada una de las características que contempla 
el tenerlo en nuestra casa, ventajas y pros, a tenerlo fuera de nuestra casa.

Play video starting at 32 seconds and follow transcript0:32


Primer lugar, voy a proponeros cinco motivos por los cuales deberían de irse 
fuera de nuestra casa. 
Es verdad que los costes son mayores. 
Cuando tú contratas un servicio fuera, va a costar más. 
Pero eso es a la larga. 
También es verdad que a la larga mantener una infraestructura 
en nuestra casa supone muchos más gastos. 
Luego vamos a hablar de gastos, pero que quede claro que la solución pueden ser 
ambas y que nuestra recomendación es contratarla en la nube.

Play video starting at 1 minute 2 seconds and follow transcript1:02


Las cinco razones en primer lugar, la primera es que nos da visión, 
nos da visión y nos da visibilidad al resto del mundo si la tenemos en la nube. 
¿Por qué? 
Porque esa solución, 
que you la tenemos fuera, puede ser accesible a otros lados del mundo.

Play video starting at 1 minute 21 seconds and follow transcript1:21


Por otro lado, 
el uso del cloud nos permite de una manera muy sencilla la colaboración. 
Si bien yo tengo una oficina aquí y tengo que trabajar con otra oficina que se 
encuentra en China, el uso del cloud nos lo va a facilitar tremendamente.

Play video starting at 1 minute 36 seconds and follow transcript1:36


Otro de los motivos por el cual vamos a usar soluciones cloud, 
o proponemos el uso de soluciones cloud, es la posibilidad de 
ir variando e ir añadiendo soluciones de negocio a nuestra infraestructura cloud. 
De pronto, un proveedor nos ofrece una solución. 
De pronto, se genera otro tipo de soluciones que es compatible con la 
solución del proveedor anterior. 
Eso nos lo va a permitir interconectar con nuestra infraestructura Big Data 
solo si estamos en al nube, de otra manera sería mucho más complicada.
Play video starting at 2 minutes 7 seconds and follow transcript2:07
Nos permite la posibilidad de crear nuevas soluciones, 
nuevos productos e incluirlas en nuestra infraestructura cloud.

Play video starting at 2 minutes 15 seconds and follow transcript2:15


Pero lo más importante es que al final somos mucho más eficientes, 
reducimos costes y permitimos movilidad. 
Si yo cierro esta oficina, 
no pasa nada, mi infraestructura va a seguir funcionando. 
Me puedo mudar sin ningún problema. 
No requiere de ciertos perfiles, 
ciertos recursos para el mantenimiento de mi infraestructura. 
Y a la larga, la infraestructura se va degradando, 
se va quedando antigua y supone tirarla y volver a comprarla. 
Vamos a ver eso de los gastos que habíamos comentado previamente. 
Si analizamos los gastos que se están produciendo 
en una infraestructura on-premise, vemos que hay ciertos costes 
que vamos a tener que asumir que no tendríamos en la otra solución, en cloud. 
Costes del personal de IT, costes del mantenimiento, costes del entrenamiento, 
porque la gente no tiene por qué conocer infraestructuras Big Data. 
Tenemos que entrenar, tenemos que formarle de alguna manera. 
Todo esos costes junto con la degradación del hardware, con la antiguedad que 
va teniendo ese hardware y las posibles reparaciones que tenga ese hardware supone 
un coste que es del 77% del coste final que en soluciones cloud nos ahorramos. 
Que sí, que la solución final parece más costosa, 
porque cuando pagamos un servicio cloud sale muchísimo más caro 
que cuando estamos comprando la máquina y la mantenemos. 
Pero lo que pasa es que no estamos teniendo en cuenta otros gastos 
que deberíamos de tener en cuenta, ese 77% de gastos. 
Bien. 
Dando provecho que hemos elegido la solución de servicios cloud,

Play video starting at 3 minutes 52 seconds and follow transcript3:52


me gustaría comentar que existen tres tipos de servicios a tener en cuenta, 
soluciones IaaS, soluciones PaaS y soluciones SaaS. 
Las soluciones IaaS, 
que son Infrastructure as a Service o infraestructuras como servicios, 
lo que nos está ofreciendo son soluciones de tipo máquinas, 
máquinas que you están virtualizadas, máquinas que están accesibles. 
Que de lo único que nos tenemos que 
preocupar es de instalar nuestro sistema operativo, nuestro middleware, 
nuestra infraestructura Big Data y arrancamos a trabajar. 
Pero no nos tenemos que preocupar de mantenerla, 
de los técnicos que tienen que levantarla, ese tipo de cosas. 
Está pensado para arquitectos Big Data. 
Las soluciones PaaS, soluciones Platform as a Service, 
o plataformas como servicios, no solo nos están dando la solución IaaS, es decir, 
infraestructuras, sino también nos están ofreciendo soluciones you compactas de 
servicios cloud, servicios como, por ejemplo, un MR, 
una solución cluster, cluster donde nos ofrecen you el servicio Big Data. 
No nos tenemos que preocupar de instalar sistema operativo, no nos tenemos que 
preocupar de instalar soluciones middleware, de componentes Big Data. 
you lo tenemos instalado y configurado. 
Simplemente you lo tenemos preparado para ejecutar. 
¿Para quién está destinado este tipo de soluciones? 
Para gente de desarrollo, gente que va a crear una aplicación que almacena datos, 
que procesa datos, que hace analítica.

Play video starting at 5 minutes 23 seconds and follow transcript5:23


Un paso más allá son las soluciones SaaS, 
soluciones Software as a Service, o software como servicio. 
Que son un paso más allá porque no solo te ofrecen la infraestructura, 
nos olvidamos de la infraestructura, you no existe. 
Nos olvidamos de que eso es un cluster, you no existe, es transparente. 
Para nosotros, lo que nos ofrece es el servicio, el servicio de limpieza de 
datos, el servicio de anonimización, el servicio de analítica. 
Un servicio que nos va a ayudar a nosotros 
a obtener un resultado de una manera muy sencilla. 
Bien.

Play video starting at 5 minutes 59 seconds and follow transcript5:59


Este tipo de soluciones está destinado a personas, a usuarios finales. 
A personas que no tienen conocimientos ni en desarrollo ni en arquitectura, 
sino más bien hacia negocios.

Play video starting at 6 minutes 14 seconds and follow transcript6:14


En este gráfico, nos podemos observar cada una de las capas que se suelen tener en 
cuenta cuando estamos en premise, cuando estamos en cloud y dentro del cloud, 
en cada uno de los servicios que ofrecemos. 
Si bien en la solución de IaaS nos quedamos hasta la capa 
de sistema operativo, en la de Platform as a Service subimos más allá, 
hasta el punto de tener infraestructura con sistema operativo, 
con soluciones de software, middleware y hasta la opción de ejecución. 
Y en la parte de SaaS, tenemos you incluso la posibilidad de ciertas aplicaciones que 
nos van a dar ese servicio e incluso datos que internamente you tiene la plataforma. 
Podría darse el caso, ¿por qué no? 
Existen IaaS, PaaS y SaaS. 
¿Existen más? 
Sí. Podemos ver IaaS, que por poner ejemplos 
podríamos decir que IaaS podría ser Amazon EC2, las máquinas EC2 de AWS, 
soluciones ACENS de infraestructuras que te ofrecen como servicio. 
Y luego tenemos CaaS. 
CaaS es contenedores como servicios.

Play video starting at 7 minutes 18 seconds and follow transcript7:18


Una filosofía de contenedor es, 
no virtualices toda la máquina, solo virtualiza las aplicaciones. 
Con eso nos estamos ahorrando almacenamiento 
y acceso al sistema operativo. 
Si yo virtualizo un sistema operativo dentro de otro sistema operativo, 
estoy degradando los sistemas. 
Si yo no virtualizo el sistema operativo, 
sino solo lo esencial para que mi aplicación funcione y las llamadas sean 
las del anterior sistema operativo, estoy ahorrando en recursos. 
Y es una solución muy óptima para crear microservicios. 
Soluciones como AWS de ECS de contenedores, 
es una solución práctica igual que Azure, igual que Kubernetes o Docker.

Play video starting at 8 minutes 1 second and follow transcript8:01


Frente a CaaS nos encontramos you a los PaaS, que son los platform, que son 
soluciones EMR de Amazon o soluciones OpenShift o soluciones de Azure HDInsight.

Play video starting at 8 minutes 12 seconds and follow transcript8:12


Existe luego un paso más allá, que son Functions as a Service. 
Son funciones como servicios. 
Son funciones que cuando yo ejecuto esa función, se realiza cierta operativa 
que you tengo programada trasparente completamente al usuario. 
Soluciones como Amazon Lambda, soluciones como Google Cloud Functions 
o Azure Function son soluciones que se adaptan a este tipo de servicios. 
Y las soluciones finales, servicios finales, que son las SaaS. 
Que pueden ser soluciones que ofrece Salesforce, soluciones que ofrece SAP, 
soluciones que ofrece Google y soluciones que poco a poco van ofreciendo las 
distintas empresas grandes como Google, Azure o Amazon.

Play video starting at 8 minutes 58 seconds and follow transcript8:58


Si bien las soluciones SaaS son amplias, 
en verdad nos tenemos que quedar con las más importantes. 
Vamos a ver que lo fundamental en SaaS, aquello por lo cual merece la pena SaaS 
es por la eficacia desde el punto de vista de tiempo. 
Por la eficiencia desde el punto de vista de que no se queda anticuado nuestro 
software, no se queda anticuado nuestro desarrollo, 
sino que va prosperando a lo largo del tiempo sin costes nuestros. 
No necesitamos un desarrollador, no necesitamos ese conocimiento de ese 
desarrollador, sino simplemente la necesidad de poder ejecutar ese servicio. 
El servicio nos lo ofrecen, ejecutamos, obtenemos el resultado. 
Bien. 
Sin contar con que teniendo en cuenta problemas de 
soluciones para escalabilidad, porque no solo me lo están ofreciendo a mí, 
se lo están ofreciendo al mundo entero. 
Entonces, el hecho de que me respondan a mí ayuda el hecho de que mis datos pueden 
ayudar también a otro tipo de soluciones y eso puede generar nuevos negocios. 
¿Hoy en día cuáles son 
los mejores proveedores de servicios IaaS, PaaS y SaaS? 
Si bien hoy en día en SaaS el ganador sin duda es Google por la solución 
Google Suite, a día de hoy en SaaS no está todavía claro 
unos servicios en Big Data y falta todavía madurar esa parte. 
Sin embargo, en IaaS y en PaaS está claro quien es el vencedor. 
Sin duda Amazon con las soluciones AWS 
gana por encima de todos los demás a la larga. 
Es verdad que los datos que disponemos no son del 2017, sino del 2016, 
pero son prometedores también en el 2017 con los gastos que han 
invertido en nuevas soluciones AWS.

Play video starting at 10 minutes 45 seconds and follow transcript10:45


Bien. Y hasta aquí los problemas encontrados en 
dónde nos vamos a cloud, dónde nos vamos a premise, qué diferencias entre IaaS, SaaS, 
PaaS, y por qué ofrecemos soluciones cloud y por qué tendemos hacia soluciones SaaS. 
[MÚSICA] [AUDIO_EN_BLANCO]

VIDEO 30

Como enfrentarse a un reto de infraestructuras

Reproducir video
reproducir
Volumen
0:00/7:51
Ajustes
Pantalla completa
Notas

Todas las notas


Haz clic en el botón Guardar nota cuando desees capturar una pantalla. También puedes
resaltar y guardar líneas de la siguiente transcripción. Añade tus propias notas a lo que hayas
capturado.

Guardar nota
Discutir
Descargar

Ayúdanos a traducir

Transcripción interactiva: para habilitar el modo de transcripción básico, presiona la tecla de escape
Puedes navegar a través de la transcripción usando la pestaña. Para guardar una nota para
una sección de texto, presiona CTRL + S. Para expandir tu selección, puedes usar CTRL + la
tecla de flecha. Puedes contratar tu selección usando Shift + CTRL + tecla de flecha. Para los
lectores de pantalla que no son compatibles con el uso de teclas de flecha para accesos
directos, puedes reemplazarlos con las teclas H J K L. Algunos lectores de pantalla pueden
requerir el uso de CTRL junto con la tecla alt.
Play video starting at 3 seconds and follow transcript0:03
Ahora, entramos en el reto. 
¿Cómo monto una infraestructura Big Data? 
¿Qué necesito saber para montarla? 
Obviamente, con todos los conocimientos que hemos tenido previamente, no es suficiente. 
Tenemos que hacernos una serie 
de preguntas para ser capaces de reaccionar y tomar una serie de decisiones. 
Vamos a plantear esas preguntas. 
En primer lugar, ¿para qué vamos a necesitar la infraestructura?, 
¿va a ser para almacenamiento de datos?, 
¿va a ser para procesarlos?, 
¿va a ser para analítica?, 
¿va a ser para obtener un "dashboard"?, 
¿para qué vamos a necesitar esos datos? 
La segunda pregunta que se nos ocurre siempre es ¿qué tamaño van a tener esos datos?, 
¿qué volumetría?, ¿van a ser megas, gigas? 
Obviamente, si son megas, no vamos a una solución Big Data. 
Vamos a una solución Big Data cuando hablamos de teras de información. 
Pero ¿cuántos teras, dos, cinco, diez, cien? 
Dependiendo de esa volumetría tenemos que escalar la infraestructura Big Data y, 
por tanto, ver un tipo de solución u otra. 
Está claro que también la tipología de datos nos va a ayudar a 
saber si elegimos soluciones no SQL o soluciones SQL. 
¿Qué datos vamos a almacenar?, 
¿son imágenes, es video, 
es texto, son números, 
son letras, datos categóricos, datos numéricos? 
¿Qué datos vamos a almacenar? 
Y conforme a eso, 
usaremos un tipo de componentes u otros. 
Otro tipo de soluciones que vamos a ver son cómo vamos a acceder a esos datos, 
cómo vamos a obtenerlos y cómo vamos a acceder a ellos. 
¿Los datos se van a generar de manera "batch"?, 
es decir, ya están obtenidos y, 
simplemente, los vamos a volcar en 
infraestructura o ¿se van a ir generando dinámicamente?. 
Y cuando se van a ir generando dinámicamente, 
¿los vamos a ir procesando en ese momento, en tiempo real, 
o los vamos a almacenar en un sitio como caché, 
vamos a procesarlos después y vamos a hacer analítica? 
Ese tipo de detalles son importantes porque 
los tiempos de respuesta son fundamentales cuando estamos en "streaming". 
Obviamente, cuando estamos en "batch" la cosa es mucho más sencilla. 
Otro aspecto a tener en cuenta es el nivel de sensibilidad de los datos. 
¿Estamos trabajando con datos sensibles, 
desde el punto de vista de protección de datos, o no? 
Si los datos que vamos a trabajar son datos personales, requieren anonimización. 
Dependiendo de esos datos personales, 
vamos a necesitar una anonimización más robusta 
y más fuerte o una anonimización más suave. 
El acceso a ese dato requiere de unos mecanismos de seguridad. 
Por ello, es importante saber a priori con qué datos, 
con qué tipología de datos vamos a jugar y qué nivel de sensibilidad tiene, 
para poder poner una serie de aplicaciones u 
otras y medir de manera adecuada el "cluster". 
Otra pregunta típica que se suele plantear es ¿los datos se 
tienen que almacenar siempre en localizaciones de España o pueden estar fuera de España? 
Parece una pregunta rara, pero ni mucho menos. 
Cuando estamos planteando soluciones de tipo "cloud" como Amazon, 
como Azure o como Google, 
es importante tener en cuenta ese detalle, 
porque si los datos no pueden salir de España, 
a día de hoy, ninguna de esas soluciones "cloud" podría ser soluble. 
No es una solución válida para almacenar esos datos. 
Sin embargo, si los datos pueden salir fuera de España, adelante, 
bogamos soluciones de Google, 
soluciones de Amazon, soluciones de Azure sin ningún tipo de problemas. 
Otra pregunta que solemos preguntarnos es ¿quién va a acceder a esta plataforma? 
¿Van a ser analistas, van a ser ingenieros, 
van a ser desarrolladores, va a ser el cliente final? 
A veces ocurre, a veces el cliente final quiere acceder, quiere verlo. 
Tenemos que permitir acceder a esa plataforma, 
obviamente, es el cliente, tiene que verlo. 
Pero, obviamente, le vamos a dejar ver lo que tiene que ver, 
no le vamos a dejar acceder hasta la cocina. 
Vamos a dejar un acceso limitado, 
protegido y con seguridad para que vea lo que nosotros 
queramos que vea y dar accesos a las personas según sus roles. 
Por ello, es necesario tener en cuenta esta 
pregunta para meter los mecanismos necesarios de seguridad, 
para lo cual es necesario definir claramente la infraestructura Big Data. 
¿Se necesita alta disponibilidad? 
Pues esta pregunta va relacionada sobre todo al 
tipo de soluciones que vas a hacer con esta infraestructura de Big Data. 
La primera pregunta de todas, ¿qué es lo que vas a hacer? 
Porque si vas a hacer una prueba de concepto, obviamente, 
no es requerido que tengas alta disponibilidad. 
¿Qué significa alta disponibilidad? 
Que siempre, en el cien por cien de los casos, 
tu aplicación va a responder. 
Bueno, si una vez no responde, 
no deja de ser una prueba de concepto, no pasa nada. 
Lo que supone alta disponibilidad 
es duplicar los recursos de la infraestructura Big Data. 
¿Es necesario para una prueba de concepto duplicar? 
Pues, quizá no, se nos suba en costes. 
Por ello, si es una prueba de concepto, reducimos costes. 
Pero hay que saberlo anticipadamente, 
porque si sabemos, de primera mano, 
si se requiere alta disponibilidad o no, 
eso puede repercutir en el diseño y, por tanto, en gastos. 
¿En qué tiempos tiene que estar disponible la infraestructura? 
Parece una pregunta extraña, 
pero, en realidad no lo es. 
Cuando tenemos la solución implantada en soluciones AWS, 
Amazon, Azure o Google, 
podemos tener la opción de pagar siete 24, 
podemos tener la opción de pagar por uso, 
o podemos tener soluciones de ejecución múltiples, 
es decir, millones, y millones y millones de nodos de cómputo en un tiempo muy cortito. 
Dependiendo de cuál sea la necesidad y cuál sea el tiempo de acceso, 
nosotros podemos ir a un tipo de solución u otra y conlleva a un tipo de gastos u otro. 
Es importante tenerlo en cuenta y no cambiar en esa decisión, 
porque ese cambio puede suponer multiplicar por cinco, 
por diez, por 20, hasta por 100 el coste de la infraestructura. 
Hay que conectarlo con sistemas de otros, 
de terceros, por ejemplo. 
Un cliente tiene una infraestructura Big Data, 
pero lo importante para él es que tenga 
acceso a la unidad organizativa de Windows Server. 
Vaya por Dios, es complicado. 
Hay que tener en cuenta que lo que tenemos que conectar es mi 
infraestructura Big Data con soluciones Active Directory de Windows. 
Para tenerlo en cuenta hay que crear un nodo especial, 
un nodo que tenga visión de la parte de Active Directory, 
que sea compatible con Azure, 
probablemente, pagar unas licencias, 
una serie de cosas que hay que tenerlas en cuenta 
a priori cuando diseñamos una infraestructura Big Data. 
Y, por último, ¿cuánto tiempo tenemos para implantar este sistema? 
No, lo queremos para mañana. 
Bueno, si es para mañana, seguramente, 
tengamos que ir a soluciones PAS, 
es decir, AWS EMR, 
que ya en 20 minutos te levanta una infraestructura Big Data, 
y no a soluciones muy complejas de llave en mano, 
donde vamos definiendo con detalle y 
configurando con detalle cada una de las aplicaciones. 
Dependiendo de cuál sea la necesidad, 
y dependiendo del tiempo que tengamos y, sobre todo, 
del coste que tengamos, 
tenemos que ir a un tipo de decisiones u otras. 
En definitiva, hay que tener en cuenta la volumetría, 
la tipología de los datos, 
el nivel de seguridad de los datos, 
la ubicación donde se tienen que encontrar esos datos, 
el tiempo en el que va a estar disponible la infraestructura Big Data, 
el tipo de disponibilidad y, por último, 
qué componentes son necesarios en nuestra infraestructura Big Data. 
Y con esto hemos terminado el reto de cómo montar una infraestructura Big Data.

También podría gustarte