2024深度学习发论文&模型涨点之——多模态融合
多模态融合(Multimodal Fusion)是指结合来自不同模态(如视觉、听觉、文本等)的数据,以提升信息处理和理解能力的技术方法。多模态数据通常具有不同的物理性质和信息特征,通过融合这些多模态信息,可以获得更全面和准确的理解。这种融合过程可以发生在数据层、特征层和决策层。
最新的研究进展表明,多模态融合领域正在探索传统与新型框架相结合的方法。例如,ICLR2024中提出了渐进融合策略和正交顺序融合方法,这些方法旨在提高多模态信息处理领域的性能表现。渐进融合策略通过在模型的不同层次之间建立联系,使得深层融合的信息能够被浅层使用,避免了信息丢失,同时保留了后融合的优点。正交序列融合(OSF)则是一种新的融合范式,它顺序合并输入并允许对模态进行选择性加权,促进正交表示,从而提取每个附加模态的互补信息。这些研究为多模态融合领域提供了新的视角和方法。
如果有同学想发表相关论文,小编整理了一些多模态融合【论文代码】合集,以下放出部分,全部论文PDF版,需要的同学公重号【AI科研灵感】回复“多模态融合”即可全部领取
论文精选
论文1:
Deep Multimodal Multilinear Fusion with High-order Polynomial Pooling
深度多模态多线性融合与高阶多项式池化
方法
-
多项式张量池化(PTP)块:提出了一种新的多项式张量池化块,用于通过考虑高阶矩来整合多模态特征。
-
张量化全连接层:在PTP块之后使用张量化的全连接层,以进一步处理融合的特征。
-
层次多项式融合网络(HPFN):构建了一个递归传递局部相关性到全局相关性的层次结构,通过堆叠多个P