admin管理员组

文章数量:1130349

VLDB 2024

  • 包含来自 10 个不同领域的时间序列
  • 提供一个灵活、可扩展且一致的评估流程
  • 对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估

1 intro

  • 之前的benchmark存在的问题
    • 数据集覆盖不足
      • 现有的时间序列预测benchmark评估通常只覆盖有限的领域,无法全面反映方法在不同领域的表现。
    • 对传统方法的偏见
      • 早期的评估往往忽略了传统方法,如统计学习方法,而只关注基于机器学习和深度学习的方法
    • 评估流程不一致和缺乏灵活性
      • 不同的评估基准使用不同的实验设置,如数据划分、归一化方法选择和超参数设置,这使得跨基准的比较变得困难
  • ——>论文的解决方式
    • 包含来自10个不同领域的数据集,以提高领域覆盖率
    • 支持多种评估策略和指标,涵盖统计学习、机器学习和深度学习方法
    • 提供灵活且可扩展的评估流程,确保在相同设置下对不同方法进行评估,以提高比较的公平性

2 不同benchmark的对比

  • 包含的领域对比
  • 不同benchmark涉及内容对比

3 单变量时间序列

  • 每条时间序列5 个统计特征表示:

    • 趋势(trend)

    • 季节性(seasonality)

    • 平稳性(stationarity)

    • 漂移(shifting)

    • 转换(transition)

  • 对所有时间序列的这 5 维特征向量进行 PCA降维,映射到二维空间(PC1, PC2),便于可视化比较。

  • 使用 hexbin(六边形网格密度图) 展示每个数据集在这个二维空间上的分布。

    • 灰色区域表示 TFB(ours) 的分布范围

    • 蓝色区域表示其他数据集的分布范围,颜色越深,密度越大

  • ——>上图强调了TFB数据集在特征分布多样性方面的覆盖范围

  • M4虽然覆盖范围更大,但他的样本量要大很多,总计 100,000 个,而TFB的数据集仅包含 8,068 个时间序列。

 

4 多变量时间序列

5 不同时间序列评估策略

 6 TFB整体流程

7 DropLast 问题

  • “Drop last”是指在时间序列预测的测试阶段中,如果测试数据的最后一个批次(batch)的样本数量少于设定的批次大小(batch size),则通常会选择丢弃这个不完整的批次。
    • 这种做法是为了在测试过程中保持数据的一致性和加速计算。
  • 但这种做法可能会导致不公平的比较
    • 如果不同的方法在处理最后一个批次时采用不同的策略,比如一些方法丢弃了最后一个批次而另一些方法则没有,这可能会导致评估结果的偏差。
  • 论文中通过实验表明,改变批次大小会影响方法的性能
  • ——>论文提出了一种改进的评估流程,即在测试时不丢弃最后一个批次,而是确保所有方法在相同的策略下进行评估
    • 通过调整批次大小或采用其他方法来实现,以确保所有数据都被公平地考虑在内
  •  

8 比较的metric

 

 9 主要评估结果

VLDB 2024

  • 包含来自 10 个不同领域的时间序列
  • 提供一个灵活、可扩展且一致的评估流程
  • 对包括统计学习、机器学习和深度学习在内的多种时间序列预测方法进行全面且无偏见的评估

1 intro

  • 之前的benchmark存在的问题
    • 数据集覆盖不足
      • 现有的时间序列预测benchmark评估通常只覆盖有限的领域,无法全面反映方法在不同领域的表现。
    • 对传统方法的偏见
      • 早期的评估往往忽略了传统方法,如统计学习方法,而只关注基于机器学习和深度学习的方法
    • 评估流程不一致和缺乏灵活性
      • 不同的评估基准使用不同的实验设置,如数据划分、归一化方法选择和超参数设置,这使得跨基准的比较变得困难
  • ——>论文的解决方式
    • 包含来自10个不同领域的数据集,以提高领域覆盖率
    • 支持多种评估策略和指标,涵盖统计学习、机器学习和深度学习方法
    • 提供灵活且可扩展的评估流程,确保在相同设置下对不同方法进行评估,以提高比较的公平性

2 不同benchmark的对比

  • 包含的领域对比
  • 不同benchmark涉及内容对比

3 单变量时间序列

  • 每条时间序列5 个统计特征表示:

    • 趋势(trend)

    • 季节性(seasonality)

    • 平稳性(stationarity)

    • 漂移(shifting)

    • 转换(transition)

  • 对所有时间序列的这 5 维特征向量进行 PCA降维,映射到二维空间(PC1, PC2),便于可视化比较。

  • 使用 hexbin(六边形网格密度图) 展示每个数据集在这个二维空间上的分布。

    • 灰色区域表示 TFB(ours) 的分布范围

    • 蓝色区域表示其他数据集的分布范围,颜色越深,密度越大

  • ——>上图强调了TFB数据集在特征分布多样性方面的覆盖范围

  • M4虽然覆盖范围更大,但他的样本量要大很多,总计 100,000 个,而TFB的数据集仅包含 8,068 个时间序列。

 

4 多变量时间序列

5 不同时间序列评估策略

 6 TFB整体流程

7 DropLast 问题

  • “Drop last”是指在时间序列预测的测试阶段中,如果测试数据的最后一个批次(batch)的样本数量少于设定的批次大小(batch size),则通常会选择丢弃这个不完整的批次。
    • 这种做法是为了在测试过程中保持数据的一致性和加速计算。
  • 但这种做法可能会导致不公平的比较
    • 如果不同的方法在处理最后一个批次时采用不同的策略,比如一些方法丢弃了最后一个批次而另一些方法则没有,这可能会导致评估结果的偏差。
  • 论文中通过实验表明,改变批次大小会影响方法的性能
  • ——>论文提出了一种改进的评估流程,即在测试时不丢弃最后一个批次,而是确保所有方法在相同的策略下进行评估
    • 通过调整批次大小或采用其他方法来实现,以确保所有数据都被公平地考虑在内
  •  

8 比较的metric

 

 9 主要评估结果

本文标签: 论文ComprehensiveFAIRBenchmarkingTFB