Del curso: Microsoft Azure IA esencial: Introducción a Workloads y Machine Learning en Azure
Deep learning en la Visión por Computadora
Del curso: Microsoft Azure IA esencial: Introducción a Workloads y Machine Learning en Azure
Deep learning en la Visión por Computadora
Deep learning se ha convertido en el método dominante en la visión por computadora, pero antes de profundizar en cómo funciona, describamos cómo las computadoras procesan las imágenes. Para una computadora, una imagen es simplemente una cuadrícula de valores numéricos de pixeles. Comencemos con una foto en blanco y negro. Imagina una imagen de 7 x 7 pixeles, donde 0 representa el negro y 255 representa el color blanco. Esta es una imagen en escala de grises. En realidad, la mayoría de las imágenes digitales actuales están compuestas por tres capas o canales RGB, es decir, rojo, verde y azul. Por ejemplo, una imagen en color tiene tres canales que se combinan para formar una imagen similar a la de la escala de grises. Un cuadrado púrpura podría definirse por rojo 150, verde 0 y azul 255, y un cuadrado amarillo, por rojo 255, verde 255 y azul 0. Las computadoras procesan imágenes usando filtros, que son cuadrículas de valores de pixeles llamados núcleos de filtro. Un núcleo de filtro de 3 x 3, por ejemplo, puede transformar una imagen mediante cálculos matriciales aplicados a cada grupo de pixeles. Dado que el núcleo de filtro se convoluciona a lo largo de la imagen, este proceso llamado filtrado convolucional altera la imagen, resaltando bordes, desenfocando, mejorando la nitidez o invirtiendo los colores. Uno de los filtros más populares es el filtro Laplace, que resalta los bordes en una imagen. Las redes neuronales convolucionales o CNN, siglas en inglés de convolutional neural network, un tipo de modelo de deep learning, se utilizan ampliamente en la visión por computadora. Para la clasificación de imágenes, por ejemplo, una CNN se entrena con imágenes etiquetadas, como por ejemplo, 0 para manzanas, 1 para bananas o 2 para naranjas. Las CNN luego usan núcleos de filtros para extraer información y crear mapas de características a partir de las imágenes. Así que, si usamos 3 núcleos de filtro en nuestro ejemplo, tendremos 3 mapas de características. Los valores de estos mapas de características se introducen en la capa de entrada de un modelo de deep learning. Los valores de las características se alimentan luego a una red neuronal completamente conectada. La capa de salida proporciona el valor de probabilidad que determina a qué clase pertenece la imagen. Además, una función de pérdida, o loss function, calcula el error o la pérdida entre los valores predichos y los reales. Los pesos en la red neuronal y los valores del filtro se ajustan para minimizar el error. Este proceso, repetido en múltiples iteraciones llamadas epochs, reduce gradualmente la pérdida y mejora la precisión del modelo. Aunque las CNN han sido fundamentales en la visión por computadora, están surgiendo modelos más nuevos como las arquitecturas de redes neuronales multimodales basadas en transformadores. Estos modelos, entrenados con grandes conjuntos de datos de imágenes y leyendas, aprenden a asociar imágenes y textos. Un codificador de imágenes extrae características de los valores de los pixeles y un codificador de lenguaje extrae características de los textos. El modelo, en su conjunto, captura las relaciones entre imágenes y lenguaje. A diferencia del modelo CNN, que procesa únicamente imágenes, este nuevo modelo incluye imágenes y leyendas de texto en el entrenamiento. El modelo Florence de Microsoft es un ejemplo. Entrenado con grandes cantidades de imágenes con leyendas de texto, incluye tanto un codificador de lenguaje como un codificador de imágenes. A diferencia de las CNN, que se especializan en una tarea como la clasificación de imágenes, la detección de objetos o la generación de leyendas, el modelo Florence puede manejar todas estas tareas. Más adelante explicaremos los modelos fundacionales más a fondo.
Contenido
-
-
-
-
-
Introducción a la Visión por Computadora2 min 19 s
-
Deep learning en la Visión por Computadora5 min 11 s
-
Introducción a Azure AI Vision3 min 37 s
-
Introducción a Azure AI Custom Vision2 min 2 s
-
Introducción al análisis facial y Azure AI Face3 min 10 s
-
Aplicación práctica de la Visión por Computadora en los negocios3 min 38 s
-
Creación de recursos para visión por computadora4 min 2 s
-
Demostración de Azure AI Vision4 min 30 s
-
Demostración de Azure AI Custom Vision3 min 51 s
-
-
-
-
-
-
-