ARIMA模型:时序预测的经典工具

目录

1 引言

2 AR模型

2.1 基本概念与核心思想

2.2 数学模型表示

3 差分

3.1 差分的基本概念

3.2 差分的阶数

3.3 季节性差分

4 移动平均模型

4.1 基本概念与核心思想

4.2 数学模型表示

5 确定p、d和q的值

5.1 确定d值

5.2 拖尾和截尾:确定p和q值

6 模型选择

6.1 AIC

6.2 BIC

7 代码实例

7.1 基于ARIMA模型的石油价格分析与预测

8 总结


1 引言

ARIMA(Autoregressive Integrated Moving Average Model)是一种用于时间序列分析和预测的模型,它由自回归(AR)、差分(I)和移动平均(MA)三个部分组成。它可以通过差分将非平稳时间序列转换成平稳时间序列,再使用AR和MA进行建模并预测。

图1.1 ARIMA模型构建流程图

2 AR模型

2.1 基本概念与核心思想

AR(Autoregression Model)是一种经典的时间序列分析方法,其核心思想是利用序列自身的历史数据预测未来值。该模型假设当前观测值是过去若干期观测值的线性组合加上随机误差项,通过捕捉时间序列内部的自相关结构进行建模。模型的关键参数是自回归阶数p,表示需要考虑的历史数据期数。AR模型要求时间序列具有平稳性,或者可以通过差分等处理达到平稳状态,适用于金融、经济等领域中具有短期依赖特征的预测问题。

2.2 数学模型表示

AR模型的数学表达式如下:

自回归的本质是用过去期的历史值进行线性组合来预测当前值。其中:

常数项c反映序列的均值水平;

自回归系数的绝对值小于1,系数为正表示正向影响,为负则表示负反馈;误差项

是独立同分布的白噪声,均值为0,方差为σ²,且无自相关;

为自回归阶数,决定了需要回溯多少个历史时间点来预测当前值,是模型的关键超参数。

举个例子来帮助理解。假设某电商平台希望预测下个月的销售额,已知过去几个月的销售额数据存在明显的时序依赖性(例如促销周期或季节性影响)。采用AR(2)模型(即考虑前两个月的销售影响),其数学表达式为:

其中:

Yₜ 是月份 t 的销售额(当前期)
Yₜ₋₁是前一个月(t-1期)的销售额
Yₜ₋₂  是 前两个月(t-2期)的销售额
φ₁, φ₂ 是自回归系数(|φ₁|+|φ₂|<1),φ₁ >0 表前一期正向影响,φ₁ <0 表负反馈。φ₂ >0 表前两期正向影响,φ₂ <0 表负反馈。
εₜ 是随机误差项,服从白噪声 εₜ ∼ WN(0,σ²),均值为0,方差恒定,无自相关

3 差分

3.1 差分的基本概念

差分(Integrated)是ARIMA模型中用于将非平稳时间序列转化为平稳序列的关键步骤,它的核心思想是通过计算相邻观测值之间的差值来消除数据中的趋势或季节性成分,已满足ARIMA模型对平稳性要求。

3.2 差分的阶数

差分的阶数(d)是ARIMA(p, d, q)模型中的一个重要参数,表示需要对原始序列进行多少次连续的差分操作才能达到平稳状态。最常见的有一阶差分、二阶差分。一阶差分可以消除线性趋势,二阶差分则用来处理更复杂的非线性趋势。

最基础的差分是一阶差分,即计算连续两个时间点观测值的差。如果时间序列存在强烈的线性向上或向下趋势,通常一阶差分就能有效去除这种趋势。其公式是:

也即新差分序列在 t 时刻的值 = 原始序列在 t 时刻的值 - 原始序列在 t-1 时刻的值。

若经过一阶差分后,序列仍然不够平稳,需要对经过差分处理后的序列再进行一次一阶差分,这种操作即为二阶差分,公式为:

 假如有以下这组时间序列数据:

Y = [5,8,12,17,23,30]

我们现在要对这个序列进行一阶差分。先计算第二个数据点和第一个数据点的差,是8 - 5 = 3,接着计算第三个数据点和第二个数据点的差,是12 - 8 = 4。以此类推,我们得到了经过一阶差分处理后的序列:

∇Y = [3,4,5,6,7]

经过差分后的序列比之前短了一位,该序列呈现明显的线性向上趋势,值以1递增。这表明原始序列的二次趋势未被完全去除,因此序列还不够平稳,需要进行二阶差分。

二阶差分的操作和一阶差分一致,得到新的序列:

∇²Y = [1,1,1,1]

序列变为常数 1,均值和方差恒定,完全平稳。这验证了二阶差分能有效去除原始序列的二次趋势。

3.3 季节性差分

季节性差分是一种用于消除时间序列中季节性成分的方法,特别适用于存在固定周期(如季度效应、月度效应)的数据。其核心思想是通过计算当前时刻数据与上一个同季节周期数据的差值,来消除季节性波动,使序列更平稳。公式为:

 给定时间序列数据:

 = [100,110,95,120,130,115,140,150,135,160,170,155]

假设数据为季度数据(即每季度一个观测值,季节周期t=4,一年有4个季度)。这12个数据点代表3年。因为差分需要滞后s期的数据,季节性差分计算从t=s+1=5开始,到12结束。

季节性差分后的序列为:

∇ₛ y = [30, 5, 45, 30, 5, 45, 30, 5]

图3.1 季度时序与季节性差分对比

原始序列有12个数据点,但季节性差分后仅剩8个数据点(从t=5到 t=12),因为前4个点(t=1 到 t=4)缺少滞后数据。差分序列仍呈现周期性(如每4个点重复:30, 5, 45, 30),表明季节性成分未被完全消除,或残留趋势/噪声。此时可尝试一阶普通差分或ARIMA建模进一步优化。季节性差分后,序列波动减弱,平稳性提升,更利于建模分析。

4 移动平均模型

4.1 基本概念与核心思想

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Cathyqiii

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值