五个时间序列预测的深度学习模型对比概括

发布时间：2022-07-30 12:47:55 所属栏目：大数据来源：互联网

导读：Makridakis M-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。 2018年M4的结

　　Makridakis M-Competitions系列（分别称为M4和M5）分别在2018年和2020年举办（M6也在今年举办了）。对于那些不了解的人来说，m系列得比赛可以被认为是时间序列生态系统的一种现有状态的总结，为当前得预测的理论和实践提供了经验和客观的证据。

　　2018年M4的结果表明，纯粹的“ ML”方法在很大程度上胜过传统的统计方法，这在当时是出乎意料的。在两年后的M5[1]中，最的高分是仅具有“ ML”方法。并且所有前50名基本上都是基于ML的（大部分是树型模型）。这场比赛看到了LightGBM（用于时间序列预测）以及Amazon's Deepar [2]和N-Beats [3]的首次亮相。 N-Beats模型于2020年发布，并且优于M4比赛的获胜者3％！

　　最近的 Ventilator Pressure Prediction比赛展示了使用深度学习方法来应对实时时间序列挑战的重要性。比赛的目的是预测机械肺内压力的时间顺序。每个训练实例都是自己的时间序列，因此任务是一个多个时间序列的问题。获胜团队提交了多层深度架构，其中包括LSTM网络和Transformer 块。

　　在过去的几年中，许多著名的架构已经发布，如MQRNN和DSSM。所有这些模型都利用深度学习为时间序列预测领域贡献了许多新东西。除了赢得Kaggle比赛，还给我们带来了更多的进步比如：

　　多功能性：将模型用于不同任务的能力。
　　MLOP：在生产中使用模型的能力。
　　解释性和解释性：黑盒模型并不那么受欢迎。
　　本文讨论了5种专门研究时间序列预测的深度学习体系结构，论文是：

　　N-BEATS(ElementAI)
　　DeepAR(Amazon)
　　Spacetimeformer[4]
　　Temporal Fusion Transformer or TFT(Google) [5]
　　TSFormer（时间序列中的MAE）[7]
　　N-BEATS
　　这种模式直接来自于(不幸的)短命的ElementAI公司，该公司是由Yoshua Bengio联合创立的。顶层架构及其主要组件如图1所示:

　　5个时间序列预测的深度学习模型对比总结

　　N-BEATS是一个纯粹的深度学习架构，它基于集成前馈网络的深度堆栈，这些网络也通过正向和反向的相互连接进行堆叠。

　　每一个块只对由前一个的backcast产生的残差进行建模，然后基于该误差更新预测。该过程模拟了拟合ARIMA模型时的Box-Jenkins方法。

　　以下是该模型的主要优势：

　　表达性强且易于使用：该模型易于理解，具有模块化结构，它被设计为需要最小的时间序列特征工程并且不需要对输入进行缩放。

　　该模型具有对多个时间序列进行概括的能力。换句话说，分布略有不同的不同时间序列可以用作输入。在N-BEATS中是通过元学习实现的。元学习过程包括两个过程:内部学习过程和外部学习过程。内部学习过程发生在块内部，并帮助模型捕获局部时间特征。外部学习过程发生在堆叠层，帮助模型学习所有时间序列的全局特征。

　　双重残差叠加:残差连接和叠加的想法是非常巧妙的，它几乎被用于每一种类型的深度神经网络。在N-BEATS的实现中应用了相同的原理，但有一些额外的修改:每个块有两个残差分支，一个运行在回看窗口(称为backcast)，另一个运行在预测窗口(称为forecast)。

　　每一个连续的块只对由前一个块重建的backcast产生的残差进行建模，然后基于该误差更新预测。这有助于模型更好地逼近有用的后推信号，同时最终的堆栈预测预测被建模为所有部分预测的分层和。就是这个过程模拟了ARIMA模型的Box-Jenkins方法。

　　可解释性:模型有两种变体，通用的和可解释性的。在通用变体中，网络任意学习每个块的全连接层的最终权值。在可解释的变体中，每个块的最后一层被删除。然后将后推backcast和预测forecast分支乘以模拟趋势(单调函数)和季节性(周期性循环函数)的特定矩阵。

　　注意:原始的N-BEATS实现只适用于单变量时间序列。

　　DeepAR
　　结合深度学习和自回归特性的新颖时间序列模型。图2显示了DeepAR的顶层架构:

　　5个时间序列预测的深度学习模型对比总结

　　以下是该模型的主要优势：

　　DeepAR在多个时间序列上工作得非常好:通过使用多个分布略有不同的时间序列来构建全局模型。也适用于许多现实场景。例如电力公司可能希望为每个客户推出电力预测服务，每个客户都有不同的消费模式(这意味着不同的分布)。

　　除了历史数据，DeepAR还允许使用已知的未来时间序列(自回归模型的一个特点)和额外的静态属性。在前面提到的电力需求预测场景中，一个额外的时间变量可以是月份(作为一个整数，值在1-12之间)。假设每个客户都与一个测量功耗的传感器相关联，那么额外的静态变量将是sensor_id或customer_id之类的东西。

　　如果莫熟悉使用MLPs和rnn等神经网络架构进行时间序列预测，那么一个关键的预处理步骤是使用标准化或标准化技术对时间序列进行缩放。这在DeepAR中是不需要手动操作的，因为底层的模型对每个时间序列i的自回归输入z进行缩放，缩放因子为v_i，即该时间序列的平均值。具体而言，论文基准中使用的比例因子方程如下:

　　5个时间序列预测的深度学习模型对比总结

　　但是在实践中，如果目标时间序列的大小差异很大，那么在预处理过程中应用自己的缩放还是很有必要的。例如，在能源需求预测场景中，数据集可以包含中压电力客户(例如小工厂，按兆瓦单位消耗电力)和低压客户(例如家庭，按千瓦单位消耗电力)。

　　DeepAR进行概率预测，而不是直接输出未来值。这是以蒙特卡洛样本的形式完成的。这些预测被用来计算分位数预测，通过使用分位数损失函数。对于那些不熟悉这种损失类型的人，分位数损失不仅用来计算一个估计，而且用来计算围绕该值的预测区间。

　　Spacetimeformer
　　在单变量时间序列中时间依赖性是最重要的。但是在多个时间序列场景中，事情就没那么简单了。例如假设我们有一个天气预报任务，想要预测五个城市的温度。让我们假设这些城市属于一个国家。鉴于目前所看到的，我们可以使用DeepAR并将每个城市作为外部静态协变量进行建模。

（编辑：开发网_郴州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

成功实行数据迁移的策	如何使用Google Cloud
实施合理的数据收集战	2022年优质预测分析工