京东供应链算法团队宣布推出首个自研十亿级销量预测时序大模型 TimeHF,基于人类反馈的强化学习技术(RLHF)首次应用销量预测,预测准确度大幅度提升 10%+,降低需求端预测不确定性。
公告称,经过和各时序模型在内外部数据集对比,时序大模型在模型尺寸和效果上均表现突出,优于行业水平。目前在 2 万种商品上输出预测进行自动化补货,预测准确率相较于线上大幅提升。
- 在数据方面,开发团队引入了一个包含 15 亿样本的大规模高质量复杂数据集,并提出了时序切分、数据配比、合成数据集构造等时序训练集构建范式。
- 在模型方面,提出了一个通用的 PCTLM 模型,该模型通过 Patch 的方式对数据进行切割,并在 Patch 投影的过程中进行了改进,以捕捉跨 Patch 间的信息,并通过引入时间位置编码的分组注意力机制来训练大模型。
- 在垂类优化方面,首次提出了时间序列预测模型的 RLHF 方案。由于常用的 RLHF 框架并不适用于时序大模型,开发了一套适用于纯时序大模型的强化学习框架 TPO。
此外,项目团队在公开数据集上比较了当前表现较优的微调时序大模型的效果(GPT4TS),以及 5 种当前比较领先的 full shot 的时序深度学习方法(patchtst、autoformer、itransformer、DLinear、Informer)。经过 SFT+TPO 的 PCTLM 模型在大部分公开数据集上均可取得 SOTA 的效果。(粗体为效果最优模型,评估指标为 MAE,越小越好)