SpringAI之多模态

最新推荐文章于 2025-07-13 22:10:49 发布

loser.with.m

最新推荐文章于 2025-07-13 22:10:49 发布

阅读量947

点赞数 7

CC 4.0 BY-SA版权

分类专栏： Spring AI 文章标签：人工智能 ai spring

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42878689/article/details/147759814

多模态概述

多模态，即跨多种数据输入模式同时处理知识。我们的学习方式、我们的体验都是多模式的。我们不仅有视觉，还有音频和文本。

与这些原则相反，机器学习通常专注于为处理单一模态而量身定制的专用模型。例如，我们为文本转语音或语音转文本等任务开发了音频模型，并为对象检测和分类等任务开发了计算机视觉模型。

然而，新一波多模态大型语言模型开始出现。包括 OpenAI 的 GPT-4o、Google 的 Vertex AI Gemini 1.5、Anthropic 的 Claude3 以及开源产品 Llama3.2、LLaVA 和 BakLLaVA 能够接受多个输入，包括文本图像、音频和视频，并通过集成这些输入来生成文本响应。

Spring AI 多模态

多模态是指模型同时理解和处理来自各种来源的信息（包括文本、图像、音频和其他数据格式）的能力。

Spring AI Message API 提供了支持多模态 LLM 的所有必要抽象。
在这里插入图片描述
UserMessage 的content字段主要用于文本输入，而可选的media 字段允许添加一个或多个不同形式的其他内容，例如图像、音频和视频。MimeType 指定模态类型。根据使用的 LLM，Media data 字段可以是作为Resource对象的原始媒体内容，也可以是内容的 URI。

注意：
media 字段当前仅适用于用户输入消息（例如 UserMessage）。它对系统消息没有意义。包括 LLM 响应的AssistantMessage

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

loser.with.m 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。