UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE INGENIERÍA INDUSTRIAL
CARRERA DE INGENIERÍA EN TELEMÁTICA
MATERIA:
MINERIA DE DATOS
PARALELO:
TLM-S-MA-8-1
TITULO:
TÉCNICAS DE APRENDIZAJE AUTOMÁTICO
GRUPO # 5
ANTEPARA REYES KEVIN JOSHUA
CEDEÑO SIMBAÑA JORGE ANTHONY
GONZÁLEZ FRANCO LUIS ALBERTO
NICOLA COLOMA JONATHAN ISRAEL
VILLACRESES SANCAN KEVIN JOEL
DOCENTE:
ING. TARANTO VERA GILDA JUDITH
PERIODO:
2022-2023CI
FECHA DE ENTREGA:
LUNES, 1 DE AGOSTO DE 2022
1
Índice
Resumen ............................................................................................................................................. 2
Aprendizaje Supervisado .................................................................................................................. 3
k-NN (k-Nearest Neighbour Classification) ...................................................................................... 3
Naive Bayes- clasificación bayesiano ingenuo ................................................................................. 5
Regresión logistica binaria ........................................................................................................ 6
Árboles de decisión..................................................................................................................... 7
Bosques aleatorios de decisión ............................................................................................... 8
Aprendizaje no supervisado ............................................................................................................. 9
Medidas de distancia .................................................................................................................. 9
K-means clustering ................................................................................................................... 10
Hierarchical clustering.............................................................................................................. 11
Model based clustering ............................................................................................................ 13
Heatmaps ..................................................................................................................................... 14
Bibliografía .................................................................................................................................. 14
2
1. Con base a la lectura de los conceptos expuestos, elaborar un
documento con el resumen e ideas principales.
Resumen
La Fase de modelado implementada en el proceso de minería de datos se
despliega de series o técnicas de aprendizaje y algoritmos automáticos cuyo objetivo
es la extracción de conocimientos de varias fuentes de información o datos.
Se puede definir las técnicas de aprendizaje automático como métodos
capaces de la detección automática de patrones en los datos cuya selección proviene
del resultado deseado y la información disponible.
En un principio las técnicas de aprendizaje se distinguen por clasificarse en
dos tipos las cuales son las técnicas de aprendizaje supervisada y técnicas de
aprendizaje no supervisadas.
Las técnicas de aprendizaje supervisadas son aquellas en que los algoritmos
de aprendizaje supervisado basan su aprendizaje en un juego de datos de
entrenamiento previamente etiquetados. Por etiquetado entendemos que para cada
ocurrencia del juego de datos de entrenamiento conocemos el valor de su atributo
objetivo. Esto le permitirá al algoritmo poder “aprender” una función capaz de predecir
el atributo objetivo para un juego de datos nuevo.
Mientras que en las técnicas de aprendizaje no guiada sus métodos no
supervisados son algoritmos que basan su proceso de entrenamiento en un juego de
datos sin etiquetas o clases previamente definidas. Es decir, a priori no se conoce
ningún valor objetivo o de clase, ya sea categórico o numérico. El aprendizaje no
supervisado está dedicado a las tareas de agrupamiento, también llamadas
segmentación, donde su objetivo es encontrar grupos similares en el conjunto de
datos.
Un ejemplo de aprendizaje supervisado sería la construcción de un modelo de
reingresos en hospitalización partiendo de un conjunto de datos previo de los que
3
conocemos si el paciente reingresó o no (el atributo que nos indique la condición de
reingreso en el conjunto de datos original sería la etiqueta).
Un ejemplo de aprendizaje no supervisado sería la de segmentar los pacientes
que han sido atendidos en urgencias en grupos homogéneos, pero sin un
conocimiento previo de los grupos que queremos obtener; lo haríamos a partir de
estructuras no evidentes subyacentes en los datos.
2. Poniéndonos en el contexto actual, investigar 5 casos donde es aplicable
Técnicas de Aprendizaje supervisado y 5 casos donde es aplicable
Técnicas de Aprendizaje no supervisado y detalle cada caso
(Planteamiento del problema y objetivo de aplicar la técnica.
Aprendizaje Supervisado
k-NN (k-Nearest Neighbour Classification)
El algoritmo k-NN reconoce patrones en los datos sin un aprendizaje específico,
simplemente midiendo la distancia entre grupos de datos. Se trata de uno de los
algoritmos más simples y robustos de aprendizaje automático.
En realidad, el algoritmo puede usarse tanto para clasificar como para pronosticar
mediante regresión, pero aquí veremos solo la forma de clasificación.
Para usarlos necesitamos cargar el paquete class y usar la función knn()que realiza
la clasificación. La idea subyacente es que a partir de un conjunto de datos de
entrenamiento se pueda deducir un criterio de agrupamiento de los datos.
Es un algoritmo muy simple de implementar y de entrenar, pero tienen una carga
computacional elevada y no es apropiado cuando se tienen muchos grados de
libertad.
4
Ejemplo:
Vamos a hacer un ejemplo sencillo de clasificación con unos datos inventados:
Imaginemos que un profesor ha anotado durante el curso los siguientes datos de los
alumnos:
• nota del trabajo de clase del primer trimestre.
• nota del examen 1º evaluación.
• interés mostrado en clase por cada alumno al final del curso(1=máximo,
2=medio,3= mínimo)
Con estos datos ha confeccionado una tabla.
5
Naive Bayes- clasificación bayesiano ingenuo
Naive Bayes es un modelo de predicción basado en la probabilidad Bayesiana.
El modelo es muy simple, pero poderoso, en cuanto que es resultado directo de los
datos y su tratamiento con simple estadística bayesiana de la probabilidad
condicionada. Hay que tener en cuenta que se asume, por simplificación que las
variables son todas sucesos independientes.
La función de clasificación ingenua de bayes se encuentra en varias librerías
de R en: naivebayes, en el paquete e1071y en otros.
Ejemplo:
La tabla_1 que vamos a crear contiene 3 variables: la hora del día, el lugar
donde está Juan a esa hora, y otra columna que nos indica si es o no fin de semana
con un valor lógico TRUE o FALSE.
Vamos a crear la tabla para el ejemplo:
6
Regresión logistica binaria
Otro modelo de predicción de aprendizaje supervisado es el de regresión
logística. Se trata de un tipo de análisis de regresión utilizado para predecir el
resultado de una variable categórica (aquella que puede adoptar un número limitado
de categorías) en función de las variables predictoras. Este modelo se enmarca
dentro de los modelos denominados de predicción lineal generalizados o glm como
son conocidos por sus siglas en inglés.
Esta curva, es una aproximación continua a la función discreta binaria, pues el
cambio de 0 a 1 se produce en corto espacio y muy pronunciado. Si usáramos otras
funciones como la lineal para la regresión de datos binarios funcionaría muy mal, pues
el ajuste lineal no capta bien la forma de los datos, las dos agrupaciones que
buscamos separar o clasificar.
Ejemplo:
Al igual que todos los modelos de aprendizaje, el modelo se compone de una
fórmula, y luego se pronostica con la función predict(). En los modelos glm(), los
únicos argumentos de predict() son response y terms. El primer caso da directamente
la probabilidad de la respuesta y el segundo argumento proporciona los coeficientes
de cada término en la fórmula. Si solo queremos obtener un valor de predicción
usaremos type = "response".
7
Árboles de decisión
Un árbol de decisión es una estructura ramificada que muestra las diferentes
opciones y sus consecuencias. Los puntos en los que hay que tomar decisiones se
muestran como nodos, las ramas unen estos nodos y las decisiones últimas son las
hojas, donde el camino termina (también se denominan nodos terminales).
Ejemplo:
Para estos ejemplos vamos a inventar nuevamente unos datos. Tenemos una
tabla en la que vienen la altura del padre, de la madre y de un hijo. Y queremos ver
su relación.
8
Bosques aleatorios de decisión
Si aplicamos de manera iterativa el algoritmo que crea árboles de decisión con
diferentes parámetros sobre los mismos datos, obtenemos lo que denominamos un
bosque aleatorio de decisión (random forest). Este algoritmo es uno de los métodos
más eficientes de predicción y más usados hoy día para big data, pues promedia
muchos modelos con ruido e imparciales reduciendo la variabilidad final del conjunto.
En realidad lo que se hace es construir diferentes conjuntos de entrenamiento
y de test sobre los mismos datos, lo que genera diferentes árboles de decisión sobre
los mismos datos, la unión de estos árboles de diferentes complejidades y con datos
de origen distinto aunque del mismo conjunto resulta un bosque aleatorio, cuya
principal característica es que crea modelos más robustos de los que se obtendrían
creando un solo árbol de decisión complejo sobre los mismos datos.
Ejemplo:
Tenemos un conjunto de entrenamiento almacenado como d_titanic_train. En
esta muestra no hay NA, pero si los datos contuviesen NA habría que imputar o quitar
los registros antes de ejecutar el modelo, por ejemplo con
complete.cases(d_titanic_train)
9
Aprendizaje no supervisado
Medidas de distancia
Todos los métodos de clustering tienen una cosa en común, para poder llevar
a cabo las agrupaciones necesitan definir y cuantificar la similitud entre las
observaciones.
El término distancia se emplea dentro del contexto del clustering como
cuantificación de la similitud o diferencia entre observaciones. Si se representan las
observaciones en un espacio p dimensional, siendo p el número de variables
asociadas a cada observación, cuando más se asemejen dos observaciones más
próximas estarán, de ahí que se emplee el término distancia.
La característica que hace del clustering un método adaptable a escenarios
muy diversos es que puede emplear cualquier tipo de distancia, lo que permite al
investigador escoger la más adecuada para el estudio en cuestión. A continuación,
se describen algunas de las más utilizadas.
Ejemplo:
El set de datos USArrests contiene información sobre el número de delitos
(asaltos, asesinatos y secuestros) junto con el porcentaje de población urbana para
cada uno de los 50 estados de USA. Empleando estas variables se pretende calcular
una matriz de distancias que permita identificar los estados más similares
Dos de las funciones en R que permiten calcular matrices de distancia
empleando variables numéricas son dist() y get_dist(). Esta última incluye más tipos
de distancias.
10
K-means clustering
El método K-means clustering (MacQueen, 1967) agrupa las observaciones en
K clusters distintos, donde el número K lo determina el analista antes de ejecutar del
algoritmo. K-means clustering encuentra los K mejores clusters, entendiendo como
mejor cluster aquel cuya varianza interna (intra-cluster variation) sea lo más pequeña
posible. Se trata por lo tanto de un problema de optimización, en el que se reparten
las observaciones en K clusters de forma que la suma de las varianzas internas de
todos ellos sea lo menor posible. Para poder solucionar este problema es necesario
definir un modo de cuantificar la varianza interna.
Ejemplo:
Los siguientes datos simulados contienen observaciones que pertenecen a
cuatro grupos distintos. Se pretende aplicar K-means-clustering con el fin de
identificarlos.
11
Hierarchical clustering
Hierarchical clustering es una alternativa a los métodos de partitioning
clustering que no requiere que se pre-especifique el número de clusters. Los métodos
que engloba el hierarchical clustering se subdividen en dos tipos dependiendo de la
estrategia seguida para crear los grupos:
• Agglomerative clustering (bottom-up): el agrupamiento se inicia en la
base del árbol, donde cada observación forma un cluster individual. Los
clusters se van combinado a medida que la estructura crece hasta
converger en una única “rama” central.
• Divisive clustering (top-down): es la estrategia opuesta al agglomerative
clustering, se inicia con todas las observaciones contenidas en un
mismo cluster y se suceden divisiones hasta que cada observación
forma un cluster individual.
12
En ambos casos, los resultados pueden representarse de forma muy intuitiva
en una estructura de árbol llamada dendrograma.
Ejemplo:
El set de datos NCI60 contiene información genética de 64 líneas celulares
cancerígenas. Para cada una de ellas, se ha cuantificado la expresión de 6830 genes
mediante tecnología microarray. Los investigadores conocen el tipo de cáncer
(histopatología) al que pertenece cada línea celular y quieren utilizar esta información
para evaluar si el método de clustering (agglomerative hierarchical clustering) es
capaz de agrupar correctamente las líneas empleando los niveles de expresión
génica.
13
Model based clustering
El clustering basado en modelos considera que las observaciones proceden
de una distribución que es a su vez una combinación de dos o más componentes
(clusters), cada uno con una distribución propia. En principio, cada cluster puede estar
descrito por cualquier función de densidad, pero normalmente se asume que siguen
una distribución multivariante normal.
Para estimar los parámetros que definen la función de distribución de cada
cluster (media y matriz de covarianza si se asume que son de tipo normal) se recurre
al algoritmo de Expectation-Maximization (EM).
Este resuelve distintos modelos en los que el volumen, forma y orientación de
las distribuciones pueden considerarse iguales para todos los clusters o distintas para
cada uno. Por ejemplo, un posible modelo es: volumen constante, forma variable,
orientación variable.
Ejemplo:
El set de datos diabetes del paquete mclust contiene 3 parámetros sanguíneos
medidos en 145 pacientes con 3 tipos distintos de diabetes. Se pretende emplear
model-based-clustering para encontrar las agrupaciones.
14
Heatmaps
Los heatmaps son el resultado obtenido al representar una matriz de valores
en la que, en lugar de números, se muestra un gradiente de color proporcional al valor
de cada variable en cada posición.
La combinación de un dendrograma con un heatmap permite ordenar por
semejanza las filas y o columnas de la matriz, a la vez que se muestra con un código
de colores el valor de las variables.
Se consigue así representar más información que con un simple dendrograma
y se facilita la identificación visual de posibles patrones característicos de cada
cluster.
Ejemplo:
El set de datos mtcars contiene información sobre 32 modelos de coche. Se
pretende representar la información combinando un heatmap con un dendrograma.
Bibliografía
Clustering y heatmaps: aprendizaje no supervisado by Joaquín Amat Rodrigo, available under a
Attribution 4.0 International (CC BY 4.0) at
https://www.cienciadedatos.net/documentos/37_clustering_y_heatmaps