Unirse ahora Iniciar sesión

Del curso: Microsoft Azure IA esencial: Introducción a Workloads y Machine Learning en Azure

Introducción a Azure AI Speech

Del curso: Microsoft Azure IA esencial: Introducción a Workloads y Machine Learning en Azure

Introducción a Azure AI Speech

“

Azure AI Speech es un servicio que incluye poderosas características de conversión de voz a texto y de texto a voz. La conversión de voz a texto te permite convertir audio en texto a partir de diversas fuentes, incluidos micrófonos, archivos de audio y archivos por lotes almacenados en Azure. Algunos ejemplos de funcionalidades que podemos obtener con este servicio son la creación de transcripciones, subtítulos o leyendas para reuniones en vivo, diarización para determinar quién dijo qué y cuándo en una conversación, evaluación de pronunciación para proporcionar retroalimentación a los estudiantes de idiomas, asistencia a agentes de centros de contacto para proporcionar transcripción y análisis en tiempo real, por ejemplo, en una llamada con un cliente, dictado de textos y, finalmente, interfaces conversacionales para tus aplicaciones. Por otro lado, el API de transcripción rápida nos permite crear transcripciones de audio o video rápidamente y con baja latencia. La transcripción por lotes puede manejar grandes volúmenes de audio al mismo tiempo. Esto es ideal para crear subtítulos para contenido pregrabado, analizar datos posteriores a llamadas o realizar diarización de conversaciones. La conversación de texto a voz te permite transformar texto en voz humana natural. Puedes elegir entre voces neuronales preconstruidas o crear una voz neuronal personalizada que esté adaptada a la marca de tu empresa u organización. También puedes ajustar la voz utilizando el lenguaje de marcado de síntesis de voz o SSML, siglas en inglés de Speech Synthesis Markup Language, modificando el tono, la velocidad, la pronunciación, el volumen y otras características para adecuarla a tus necesidades. Adicionalmente, el servicio nos permite traducir el idioma hablado en tiempo real y la identificación del idioma hablado, también el identificar quién está hablando según los patrones de voz. La evaluación de pronunciación proporciona retroalimentación sobre el lenguaje hablado para mejorar el aprendizaje. El reconocimiento de intenciones combina la conversión de voz a texto con la comprensión del lenguaje natural para realizar acciones basadas en comandos hablados. Y finalmente, modelos de voz personalizados para mejorar el modelo base y reconocer mejor el vocabulario específico de la industria o especializado mediante el entrenamiento con tus propios datos de texto. Todas estas capacidades son accesibles a través del recurso dedicado de Azure AI Speech o el de Azure AI Services. Con el Azure AI Speech Studio, puedes probar sus funcionalidades sin necesidad de crear código. Asimismo, puedes probar este servicio dentro de Azure AI Foundry. Por último, si deseas integrar el servicio de Azure AI Speech en tus aplicaciones, lo puedes hacer usando los SDK y los API REST disponibles.

Contenido