本篇论文来自IJCAI2025,最新前沿时序技术,提出了一个CASA 机制,能通过 CNN 自动编码器分数注意力机制,在多元长期时间序列预测中实现了“高性能 - 高效率”的平衡。
了解顶会最新技术,紧跟科研潮流,研究与写作才能保持在时代一线,全部49篇IJCAI2025前沿时序合集小时已经整理好了,在功🀄浩“时序大模型”发送“资料”扫码回复“IJCAI2025时序合集”即可自取~其他顶会时序合集也可以回复相关顶会名称自取哈~(AAAI25,ICLR25,ICML25等)
文章信息
论文名称:CASA: CNNAutoencoder-based Score Attention for Efficient Multivariate Long-term Time-series Forecasting
论文作者:Minhyuk Lee、HyeKyung Yoon、MyungJoo Kang
研究背景
多元长期时间序列预测(LTSF)在天气预报、交通流量分析、太阳能预测等领域意义重大。Transformer 及其变体凭借多头自注意力机制推动了该领域发展,点态、通道态、块态等令牌化技术也进一步优化了输入数据处理,但现有研究仍面临三大核心挑战:
-
计算与资源压力大:Transformer 模型时间复杂度高,对计算资源需求苛刻。例如 iTransformer 内存占用达 10360MB,PatchTST 推理时间为 0.441s/iter,难以满足高效部署需求。
-
跨维度交互捕捉不足:传统自注意力机制在嵌入查询(Q)和键(K)时存在缺陷 —— 通道态令牌化中 Q/K 嵌入与变量无关,点态和块态令牌化中则与时间无关,无法充分捕捉多元时间序列中变量间、时间点间的关键相关性。
-
训练性能易饱和:虽通道态令牌化模型性能优于其他令牌化模型,但训练后期易出现性能饱和,无法持续优化
由此提出一个CASA 机制,以解决上述问题。
模型框架
CNN 自动编码器分数注意力(CASA) 模块核心思路:
是传统自注意力机制的替代方案,保留 Transformer 编码器主干结构,通过 1D CNN 自动编码器构建 “分数网络”,近似传统自注意力中的计算过程,而非直接计算,以此解决跨维度交互不足与资源消耗过高的问题。
结构组成:CASA 模块包含 1D CNN 自动编码器(提取跨维度信息)、Softmax 归一化、与值(V)的逐元素乘法。
复杂度优势:与变量数(N)、输入长度(L)、预测长度(H)均呈线性关系,显著低于 iTransformer、PatchTST登模型。
模型无关性:可无缝集成到采用点态、块态、通道态等不同令牌化技术的 Transformer 模型中,适应性极强。
核心亮点:
-
高效捕捉跨维度信息:通过 CNN 自动编码器的 “压缩 - 解压缩” 流程,先将变量信息嵌入高维特征空间以融合全局关联,再压缩通道保留关键跨变量信息,解决传统自注意力的变量 / 时间无关性问题。
-
资源消耗大幅降低:通过近似计算与线性复杂度设计,内存占用最高减少 77.7%,推理速度最高提升 44.0%(基于 Traffic 数据集验证)。
实验数据
实验基础设置:
-
数据集:8 个真实世界多元时间序列数据集,涵盖电力(ETT 系列:ETTh1/ETTh2/ETTm1/ETTm2)、交通(Traffic)、电力消耗(ECL)、天气(Weather)、太阳能(Solar),变量数 7-862 不等,时间粒度 10 分钟 - 1 小时。
-
基线模型:8 个主流 LTSF 模型,包括 SOFTS、iTransformer、PatchTST、TSMixer、Crossformer、TiDE、DLinear、FEDformer。
-
评价指标:主要为均方误差(MSE)、平均绝对误差(MAE),同时评估内存占用、推理时间、相关性矩阵相似度(MSE、余弦相似度、SSIM)。
关键实验结果:
预测性能领先:在 8 个数据集的 64 项指标中,CASA 获得 54 项最优(84.4%);16 项平均指标中 14 项排名第一,仅 2 项排名第二。 可视化结果显示,在 Weather 数据集上,CASA 预测结果与真实值对齐度最高,iTransformer 偏差较大,SOFTS 与 PatchTST 存在明显偏离。
效率优势显著(Traffic 数据集):
-
复杂度与变量数(N)、输入长度(L)、预测长度(H)均呈线性关系。
-
内存占用仅 1684MB,相比 iTransformer(10360MB)、PatchTST(21346MB)、Transformer(4772MB)分别降低约 83.7%、92.1%、64.7%;
-
推理时间为 0.05s/iter,较 iTransformer(0.162s/iter)、PatchTST(0.441s/iter)、Transformer(0.087s/iter)分别提升约 69.1%、88.7%、42.5%。
数据小结:与同呈线性复杂度的 SOFTS(内存 1720MB、推理时间 0.042s/iter)相比,CASA 内存占用更低,且预测性能更优,整体在资源消耗与效率上表现突出。
跨维度交互能力突出:在 Weather 数据集的相关性矩阵分析中,CASA 预测结果与真实数据的相关性矩阵最接近:MSE=1.1204(低于 SOFTS 的 1.2520、iTransformer 的 1.8675),余弦相似度 = 0.9965,SSIM=0.9912,均为所有模型最优,验证其对变量间依赖关系的精准捕捉能力。
鲁棒性强:当输入长度(48-720)与变量数(7-862)变化时,CASA 性能稳定:在变量数最多的 Traffic 数据集(862 个变量)上,PatchTST 性能大幅下降,而 CASA 仍保持低 MSE;输入长度增至 720 时,CASA 无明显性能衰减,优于 iTransformer、SOFTS 等模型。
小小总结
CASA 通过 CNN 自动编码器分数注意力机制,在多元长期时间序列预测中实现了 “高性能 - 高效率” 的平衡,既解决了传统 Transformer 的资源瓶颈与跨维度交互不足问题,又具备极强的模型适应性,为交通、能源、气象等领域的长期预测任务提供了高效可靠的技术方案。
2025顶会前沿时序合集,攻🀄豪关注“时序大模型”,回复“资料”即可自取~
关注小时,持续学习前沿时序技术!