基于领域知识嵌入的多模态意图分析
1. 引言
在多模态意图分析领域,我们提出了一种基于领域知识嵌入的多模态方法。该方法旨在提高意图分类的准确性,通过融合文本和图像信息,并引入领域知识嵌入,使模型能够更准确地理解用户的意图。
2. 相关工作
之前的研究在单文本、单图像以及多模态意图分析方面采用了多种不同的方法:
- 文本意图分析 :如使用卷积神经网络(CNN)进行句子级分类,或者利用随机森林和决策树算法对亚马逊产品评论进行情感极性分类。
- 图像意图分析 :在社交媒体情感分类等应用中,结合不同模态信息进行分析。
- 多模态意图分析 :有多种方法用于对互联网表情包进行分类、检测社交媒体上的仇恨言论等。
与以往的模型相比,我们对基线多模态模型进行了增强,并通过连接提出的领域知识嵌入通道,使其更加鲁棒。
3. 分类体系
为了捕捉图像和相关文本内容之间关系的不同方面,我们提出了3种意图分类:
- 产品购买兴趣 :用户试图获取图像中产品的购买信息。
- 通用信息查询 :用户希望获取图像中物体的更多信息。
- 电影信息查询 :用户想了解图像中电影海报的更多信息。
4. 数据集
数据集包含3个类别:美容(产品购买兴趣)、电影(电影信息查询)和信息(通用信息查询)。每个类别都包含文本和图像数据,以CSV文