论文笔记-CATN：用于多变量时间序列预测的交叉注意力树感知网络

最新推荐文章于 2025-04-03 08:33:02 发布

原创最新推荐文章于 2025-04-03 08:33:02 发布 · 2.3k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #算法 #机器学习

时空数据挖掘专栏收录该内容

10 篇文章

订阅专栏

文章提出CATN模型，利用树结构捕捉时间序列间的交叉特征，并通过多级学习与交叉注意力机制分析序列内部时间模式，应用于多步预测，实验证明其在交通、电力等领域数据上的预测效果优于其他方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
这篇文章发表在2022年的AAAI，研究的是多元时间序列的多步预测问题。作者提出了一个CATN模型，该模型第一次使用树结构来捕捉多个时间序列间的交叉特征，然后使用包含全局、局部学习、交叉注意力机制的多级学习机制来捕捉序列内部的时间特征。

1.问题定义

1.1 什么是多元时间序列？

论文中的多元时间序列就是包含不同不同变量的时间序列，这些变量是相互关联的，它们可以来自同一系统或过程的不同方面。多元时间序列可以用于分析现实世界中的各种现象，例如金融市场、气象、交通流量等。

举一个具体的例子，假设正在研究某个城市的交通流量。我们可以收集到许多不同的变量，例如每小时通过某个路段的车辆数量、平均车速、车辆类型等等。这些变量可以组成一个多元时间序列数据集，其中每个时间点都有多个变量值。通过分析这些数据，我们可以了解交通流量的趋势和模式，并预测未来的交通情况。

1.2 多元时间序列预测

单元时间序列： $xi={x1i,x2i,...xTi}\mathrm{x}^i=\{x^i_1,x^i_2,...x^i_T\}$ .
多元时间序列： $X={x1,x2,...xdx∣xTx∈Rdx,xdx∈RTx}\mathcal{X}=\{\mathrm{x}^1,\mathrm{x}^2,...\mathrm{x}^{d_x}|x_{T_x}\in \mathbb{R}^{d_x},\mathrm{x}^{d_x}\in \mathbb{R}^{T_x}\}$
在这里插入图片描述多元时间序列预测：
给定 $X\mathcal{X}$ ，输出是 $Y={y1,y2,y3,...ydy∣ydy∈RTy,yTy∈Rdy}\mathcal{Y}=\{\mathrm{y}^1,\mathrm{y}^2,\mathrm{y}^3,...\mathrm{y}^{d_y}|\mathrm{y}^{dy}\in \mathbb{R}^{T_y},y_{T_y}\in \mathbb{R}^{d_y}\}$ .

2. 模型

模型的总体结构如图所示，
在这里插入图片描述

2.1 构建树

作者通过层次聚类的方法，由下到上构建一个树的结构。
其中，对于多元时间序列 $X={x1,x2,...xdx∣xTx∈Rdx,xdx∈RTx}\mathcal{X}=\{\mathrm{x}^1,\mathrm{x}^2,...\mathrm{x}^{d_x}|x_{T_x}\in \mathbb{R}^{d_x},\mathrm{x}^{d_x}\in \mathbb{R}^{T_x}\}$ ,
作者从时间维度将 $X\mathcal{X}$ 看作为向量形式的时间序列，即
在这里插入图片描述
将当中的每一个向量视为树的叶子节点，然后通过层次聚类，构建一棵二叉树。
层次聚类常用的方法有（1）单链接（single-linkage）聚类法，类间距离等于两类对象之间的最小距离。（2）完全链接（complete-linkage ）聚类法，组间距离等于两组对象之间的最大距离。（3）平均链接（average-linkage）聚类法，组间距离等于两组对象之间的平均距离。

但是，作者认为最远和最近的距离准则不能代表整个簇，平均链接时间复杂度较高，于是使用了中值链接准则来计算类间距离：
在这里插入图片描述

2.2 Tree embedding

作者将树定义为边和点的集合： $T{V,E}\mathcal{T}\{V,E\}$ 。将 $V$ 划分为叶子节点 $V_L$ 和非叶子节点 $V_I$ 。将边 $E$ 划分为左向边 $E_L$ 和右向边 $E_R$ 。

（1）节点嵌入
将每个叶子节点 $vl∈VLv_l\in V_L$ 嵌入到一个可更新的稠密向量 $u∈Rdu\in \mathbb{R}^d$ 。
（2）时间嵌入
选择t步的时间信息 $Et∈Rr×tE_t \in \mathbb{R}^{r\times t}$ ，r为时间戳分层的总数。然后将 $E_t$ 映射到稠密向量 $Rr×t\mathbb{R}^{r\times t}$ 。

最终，将节点嵌入向量和时间嵌入向量拼接作为叶子节点最终的表示，叶子节点可以表示为 $u:E_t]$ 。
（3）边嵌入
分别将左向边和右向边嵌入到稠密向量 $e_l,e_r$ 。

非叶子节点 $vi∈VIv_i\in V_I$ 的表示:
在这里插入图片描述
其中， $φ\varphi$ 是填充缺失值的操作。
然后对节点进行归一化：

2.3 全局和局部学习

（1）卷积操作
使用卷积来挖掘局部信息，使用循环分量来挖掘全局信息。
使用 $n c$ 个滤波器对每个节点的 $E_d$ 进行卷积操作。
在这里插入图片描述
最后，输出的大小为 $w×1w\times 1$ 。

（2）循环操作
对于每个节点，我们得到 $Ed∈Rw×dE_d\in \mathbb{R}^{w\times d}$ ，然后kn个节点的嵌入输入到kn个LSTMs当中。作者采用双向LSTM。对于每个LSTM，其循环次数为 $u=d2u=\frac{d}{2}$ ，然后我们可以得到两个隐含向量序列：

在这里插入图片描述

然后进行拼接，

最后，和卷积模块的输出 $o_c$ 拼接，然后馈入交叉注意模块。

2.4 交叉注意机制

树的第k层的节点输入到局部和全局输出模块，最终得到kn个隐藏状态。对于这些隐藏状态，作者将其划分为两个集合， $C={ha}a=1kn\mathcal{C}=\{h_a\}^{kn}_{a=1}$ 由kn个节点的隐藏状态构成和 $Q={hb}b=a+1kn\mathcal{Q}=\{h_b\}^{kn}_{b=a+1}$ 由kn-a个隐藏状态构成。然后构造集合 $S={(ha,hb)∣a∈[1,kn],b∈(a,kn]}\mathcal{S}=\{(h_a,h_b)|a\in [1,kn],b\in (a,kn]\}$ 。交叉注意通过ha和hb之间的关联度来衡量注意的程度，有助于重读目标的重要信息，提高特征的可分辩性。

对于 $h_a=[c_1,c_2,...c_d]$ 和 $h_b=[q_1,q_2,...q_d]$ 。我们可以计算 $c_i$ 和 $c_j$ 之间的相似度矩阵： $R$ ，使用余弦相似度计算。我们可以得到基于 $h_a$ 和基于 $h_b$ 的相关图 $R^c$ 和 $R^q$ （我感觉他俩是一样的）。

然后，在融合层，对于对比注意力图 $Rc={r1c,r2c,...rdc}∈Rd×dR_c=\{r_1^c,r_2^c,...r_d^c\}\in \mathbb{R}^{d\times d}$ ,我们计算第i个位置的注意力值，是一个标量
在这里插入图片描述
对于 $R_c$ ，w吗可以得到对应每个位置的注意力值向量 $αc∈R1×d\alpha_c\in \mathbb{R}^{1\times d}$ 。
同样，对于 $R_q$ ，我们可以得到注意力值向量 $αq∈R1×d\alpha_q\in \mathbb{R}^{1\times d}$ 。