admin管理员组文章数量:1031308
TMLR 2025
论文标题:DeformTime: capturing variable dependencies with deformable attention for time series forecasting
作者: Yuxuan Shu, Vasileios Lampos
论文链接:
代码:
TL; DR: 本文提出DeformTime,一个可以有效利用 外部变量(exogenous variables) 来预测目标变量(target variable)的时序模型。研究表明,可变形网络在捕捉变量间关系方面表现出色,相比其他基线模型,建立变量间关系显著提升了预测效果,尤其是对于更具挑战性的流感预测工作。此外,论文强调在评估模型性能时,应将重点放在目标预测时间步上的误差函数设计,以更准确地反映模型在实际预测任务中的效果。论文的代码已经开源。
点击文末阅读原文跳转本文arXiv链接
摘要:在多变量时间序列(multivariable time series, MTS)预测中,现有的深度学习方法往往侧重于自回归建模,并忽视了外生变量中的信息。为了解决这一限制,本文提出了 DeformTime,这是一种神经网络架构,旨在从输入空间中捕捉相关的时间模式,从而提高预测精度。它采用由可变形注意力块(deformable attention blocks, DABs)执行的两项核心操作:从不同时间步中的变量中学习依赖关系(跨变量 Variable DAB),以及保留来自先前时间步的数据中的时间依赖关系(跨时间 Time DAB)。输入数据的转换被专门设计,用于在通过 DAB 时增强从“变形”序列中学习的能力。本文在6个MTS数据集上进行了广泛实验,使用了先前建立的基准任务以及更具挑战性的传染病建模任务,这些任务中包含更多外生变量。实验结果表明,DeformTime在绝大多数多变量时间序列预测任务中相较于现有具有竞争力的方法显著提升了预测精度,平均将平均绝对误差(MAE)降低了7.2%。值得强调的是,这一性能提升在更长的预测周期下依然保持稳定,展现出良好的泛化能力和鲁棒性。
Highlights
- 使用可变形网络捕捉变量间/时序间依赖 传统的时间序列预测方法往往在建模变量间和时序间的依赖关系时受到结构限制,如固定的注意力机制或卷积核大小,难以灵活适应复杂的异质数据结构。而 DeformTime 创新性地引入可变形注意力机制(Deformable Attention),实现了对输入序列中关键时刻和关键变量的动态感知与选择。同时,本文融合固定编码(保序)与可学习编码(适应变形),解决了变形后的位置信息丢失难题。
- 真实场景中的流感预测验证 除了在经典的时间序列基准数据集上验证模型性能,本文还引入了更贴近现实的流感预测任务。该任务中,本文使用 Google 搜索趋势作为外部变量,并考虑了真实流感传播中的滞后特性,通过引入基于真实情况的 time lag 进行建模模拟。实验结果显示,DeformTime在此类具挑战性的真实数据上仍表现出色,验证了其实用性与鲁棒性。
- 更合理的评估方式:聚焦目标时间 在评估指标方面,本文强调应将关注点聚焦在目标预测时间点的误差上,而非简单平均整个输出序列的误差(这种评估方法被常常使用于时序预测模型中)。本文指出,常见的“over-sequence”评估方式可能掩盖模型在关键时间点的实际预测能力(本文在后续QA中给出了具体的例子),容易导致误导性的表现排名。实验进一步验证,采用“over-sequence”与“over-target”两种评估方法时,不同模型的排名存在显著差异,强调了合理评估的重要性。
- 建模变量间关系的重要性 在 ILI 发病率预测实验中,本文观察到,多数不建模变量间关系(variable-independent)的基线模型在该任务上的表现接近简单的 persistence model,难以准确捕捉流感趋势变化。而那些融合变量间信息的模型在预测准确性和趋势响应上明显更具优势。因此,本文认为,在时间序列建模中,变量间关系的建模仍是必要且关键的一环,尤其在多变量背景下尤为重要。
Q&A
Q:DeformTime是如何捕捉变量间关系的?
Q:为什么需要针对目标时间步(target time step)进行专门的评估?
A:这个其实很好理解,随着预测时间范围的延长,预测误差往往会增大,预测任务也会变得更加困难,而模型在短期和长期预测中的表现可能会有所不同。如果简单地对所有输出时间点的误差取平均,可能会偏向那些在初期预测非常准确、但在接近目标预测时间点时表现很差的模型。
例如,考虑一个简单的例子,目标是预测未来 3 个时间步。现在有两个预测模型。第一个模型在时间步 {1, 2, 3} 上的平均绝对误差(mean absolute error, MAE)分别为 {1, 5, 9},第二个模型的 MAE 为 {4, 5, 6}。同时,这两个模型在所有预测时间步上的平均 MAE 都是 5。然而,第二个模型在目标预测时间点(第 3 步)上更加准确——也就是本文真正试图解决的预测任务。
事实上,如果以对整个预测序列取平均的方式来计算误差(即对所有输出时间步进行平均处理),那么实际评估的并不是模型在特定目标时间步上的预测准确性。这也是本文希望强调的观点:当前常用的评估方式可能掩盖模型在目标时间步上的性能表现,从而影响模型选择与公平比较。
不过,为了更全面的去对DeformTime的综合能力进行评估,本文也在附录里(Table S6)附上了对整个预测序列取平均的比较。
实验
Baselines: LightTS, DLinear, Crossformer, PatchTST, iTransformer, TimeMixer, TimeXer, ModernTCN, CycleNet
Computational Cost 本文的方法在输入变量数量增加时始终表现出较低的内存消耗。此外,增加输入窗口的长度对内存消耗的影响也不大。
计算消耗
部分预测结果
预测结果可视化
这张图展示了 2018/19 年英国流感季节预测 28 天后flu rate的预测结果。本文观察到,许多模型的预测结果类似na"ïve persistence model,即预测值取输入序列中目标变量的最后一个观测值。这类模型的预测虽然平滑,但信息量较低,且随着预测步长 的增加,准确性逐渐下降。
那些能捕捉变量间依赖关系的有竞争力的基线模型能够提供更具信息量的预测。然而,至少在这个例子中,它们的预测结果更为嘈杂,要么无法捕捉流感季的开始时间,要么难以准确预测其强度。与之相对,DeformTime则提供了更平滑且更准确的预测,验证了本文考虑动态捕捉变量间(inter-variable)与变量内(intra-variable)依赖性的做法的有效性。
部分实验结果
主实验结果
更多实验
除了这里展示的实验结果外,本文还在论文中对 DeformTime 在不同随机种子下的鲁棒性进行了评估,并通过消融实验分析了各个模块的具体贡献。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent 删除变量论文模型数据性能TMLR 2025
论文标题:DeformTime: capturing variable dependencies with deformable attention for time series forecasting
作者: Yuxuan Shu, Vasileios Lampos
论文链接:
代码:
TL; DR: 本文提出DeformTime,一个可以有效利用 外部变量(exogenous variables) 来预测目标变量(target variable)的时序模型。研究表明,可变形网络在捕捉变量间关系方面表现出色,相比其他基线模型,建立变量间关系显著提升了预测效果,尤其是对于更具挑战性的流感预测工作。此外,论文强调在评估模型性能时,应将重点放在目标预测时间步上的误差函数设计,以更准确地反映模型在实际预测任务中的效果。论文的代码已经开源。
点击文末阅读原文跳转本文arXiv链接
摘要:在多变量时间序列(multivariable time series, MTS)预测中,现有的深度学习方法往往侧重于自回归建模,并忽视了外生变量中的信息。为了解决这一限制,本文提出了 DeformTime,这是一种神经网络架构,旨在从输入空间中捕捉相关的时间模式,从而提高预测精度。它采用由可变形注意力块(deformable attention blocks, DABs)执行的两项核心操作:从不同时间步中的变量中学习依赖关系(跨变量 Variable DAB),以及保留来自先前时间步的数据中的时间依赖关系(跨时间 Time DAB)。输入数据的转换被专门设计,用于在通过 DAB 时增强从“变形”序列中学习的能力。本文在6个MTS数据集上进行了广泛实验,使用了先前建立的基准任务以及更具挑战性的传染病建模任务,这些任务中包含更多外生变量。实验结果表明,DeformTime在绝大多数多变量时间序列预测任务中相较于现有具有竞争力的方法显著提升了预测精度,平均将平均绝对误差(MAE)降低了7.2%。值得强调的是,这一性能提升在更长的预测周期下依然保持稳定,展现出良好的泛化能力和鲁棒性。
Highlights
- 使用可变形网络捕捉变量间/时序间依赖 传统的时间序列预测方法往往在建模变量间和时序间的依赖关系时受到结构限制,如固定的注意力机制或卷积核大小,难以灵活适应复杂的异质数据结构。而 DeformTime 创新性地引入可变形注意力机制(Deformable Attention),实现了对输入序列中关键时刻和关键变量的动态感知与选择。同时,本文融合固定编码(保序)与可学习编码(适应变形),解决了变形后的位置信息丢失难题。
- 真实场景中的流感预测验证 除了在经典的时间序列基准数据集上验证模型性能,本文还引入了更贴近现实的流感预测任务。该任务中,本文使用 Google 搜索趋势作为外部变量,并考虑了真实流感传播中的滞后特性,通过引入基于真实情况的 time lag 进行建模模拟。实验结果显示,DeformTime在此类具挑战性的真实数据上仍表现出色,验证了其实用性与鲁棒性。
- 更合理的评估方式:聚焦目标时间 在评估指标方面,本文强调应将关注点聚焦在目标预测时间点的误差上,而非简单平均整个输出序列的误差(这种评估方法被常常使用于时序预测模型中)。本文指出,常见的“over-sequence”评估方式可能掩盖模型在关键时间点的实际预测能力(本文在后续QA中给出了具体的例子),容易导致误导性的表现排名。实验进一步验证,采用“over-sequence”与“over-target”两种评估方法时,不同模型的排名存在显著差异,强调了合理评估的重要性。
- 建模变量间关系的重要性 在 ILI 发病率预测实验中,本文观察到,多数不建模变量间关系(variable-independent)的基线模型在该任务上的表现接近简单的 persistence model,难以准确捕捉流感趋势变化。而那些融合变量间信息的模型在预测准确性和趋势响应上明显更具优势。因此,本文认为,在时间序列建模中,变量间关系的建模仍是必要且关键的一环,尤其在多变量背景下尤为重要。
Q&A
Q:DeformTime是如何捕捉变量间关系的?
Q:为什么需要针对目标时间步(target time step)进行专门的评估?
A:这个其实很好理解,随着预测时间范围的延长,预测误差往往会增大,预测任务也会变得更加困难,而模型在短期和长期预测中的表现可能会有所不同。如果简单地对所有输出时间点的误差取平均,可能会偏向那些在初期预测非常准确、但在接近目标预测时间点时表现很差的模型。
例如,考虑一个简单的例子,目标是预测未来 3 个时间步。现在有两个预测模型。第一个模型在时间步 {1, 2, 3} 上的平均绝对误差(mean absolute error, MAE)分别为 {1, 5, 9},第二个模型的 MAE 为 {4, 5, 6}。同时,这两个模型在所有预测时间步上的平均 MAE 都是 5。然而,第二个模型在目标预测时间点(第 3 步)上更加准确——也就是本文真正试图解决的预测任务。
事实上,如果以对整个预测序列取平均的方式来计算误差(即对所有输出时间步进行平均处理),那么实际评估的并不是模型在特定目标时间步上的预测准确性。这也是本文希望强调的观点:当前常用的评估方式可能掩盖模型在目标时间步上的性能表现,从而影响模型选择与公平比较。
不过,为了更全面的去对DeformTime的综合能力进行评估,本文也在附录里(Table S6)附上了对整个预测序列取平均的比较。
实验
Baselines: LightTS, DLinear, Crossformer, PatchTST, iTransformer, TimeMixer, TimeXer, ModernTCN, CycleNet
Computational Cost 本文的方法在输入变量数量增加时始终表现出较低的内存消耗。此外,增加输入窗口的长度对内存消耗的影响也不大。
计算消耗
部分预测结果
预测结果可视化
这张图展示了 2018/19 年英国流感季节预测 28 天后flu rate的预测结果。本文观察到,许多模型的预测结果类似na"ïve persistence model,即预测值取输入序列中目标变量的最后一个观测值。这类模型的预测虽然平滑,但信息量较低,且随着预测步长 的增加,准确性逐渐下降。
那些能捕捉变量间依赖关系的有竞争力的基线模型能够提供更具信息量的预测。然而,至少在这个例子中,它们的预测结果更为嘈杂,要么无法捕捉流感季的开始时间,要么难以准确预测其强度。与之相对,DeformTime则提供了更平滑且更准确的预测,验证了本文考虑动态捕捉变量间(inter-variable)与变量内(intra-variable)依赖性的做法的有效性。
部分实验结果
主实验结果
更多实验
除了这里展示的实验结果外,本文还在论文中对 DeformTime 在不同随机种子下的鲁棒性进行了评估,并通过消融实验分析了各个模块的具体贡献。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-10,如有侵权请联系 cloudcommunity@tencent 删除变量论文模型数据性能本文标签: TMLR 2025
版权声明:本文标题:TMLR 2025 内容由热心网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://it.en369.cn/jiaocheng/1747729286a2209939.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论