金融时间序列预测难题咋解?新方法准确率提升13.48%

财经理财 厦门萤点网络科技 2026-03-05 00:08 36 0
论文链接: “ 金融时间序列预测具有高度重要性与挑战性。传统方法通常对时间序列数据标准化后输入模型,导致关键信息丢失;且模型依赖固定变量数或回看窗口长度,限制了扩展性;此外,预测的可解释性与不确定性量化仍需深入研究。为解决这些问题,本文首先...

论文链接:

“ 金融时间序列预测具有高度重要性与挑战性。传统方法通常对时间序列数据标准化后输入模型,导致关键信息丢失;且模型依赖固定变量数或回看窗口长度,限制了扩展性;此外,预测的可解释性与不确定性量化仍需深入研究。为解决这些问题,本文首先构建了多样化的金融图文数据集(FVLDB),并提出不确定性调整组相对策略优化(UARPO)方法,使模型不仅能输出预测结果,还能分析预测的不确定性。在此基础上,开发了基于UARPO微调的多模态预训练模型,支持对FVLDB金融时间序列的推理、预测与分析理解。实验表明,展现了强适应性与扩展性;经UARPO微调后,其在高置信组的预测准确率较GPT-4o提升约13.48%,验证了强化学习微调在多模态大模型(尤其是金融时间序列预测任务)中的有效性。”

01

背景

时间序列预测因广泛应用于交通、气象、能源、金融等领域而备受关注。其中,金融时间序列因受宏观/微观因素、多空博弈等复杂影响,具有适应性市场特性——历史模式一旦被交易者利用,便会失效,导致预测难度极高。

02

问题定义

本文旨在解决金融时序预测中的以下核心问题:

1. 传统时间序列处理中标准化导致的信息损失问题;

2. 模型对固定配置(如回看窗口、变量数量)的依赖导致的扩展性不足;

3. 大模型推理能力在时间序列任务中未充分利用的问题;

4. 预测结果的可解释性与不确定性量化缺失,影响实际应用可靠性。

03

方法

3.1 核心模型:

是基于多模态大模型(MLM)的金融时间序列预测模型,其整体流程如图所示。模型以30亿参数的多模态大模型(如Qwen2.5-VL-3B)为骨干,通过UARPO方法在FVLDB数据集上微调,支持显式考虑预测不确定性的推理与预测任务。

不确定性调整组相对策略优化_金融时间序列分析课后答案_金融时间序列预测

3.2 关键方法:UARPO

UARPO是对GRPO(组相对策略优化)的改进,通过引入组内相对优势(IGRA)、组间相对优势(CGRA)与不确定性调整(UARA),解决金融时间序列的非平稳性与不确定性问题。

3.2.1 优化目标

UARPO的优化目标:

不确定性调整组相对策略优化_金融时间序列分析课后答案_金融时间序列预测

其中pi_{theta}与pi_{}为当前与旧策略模型;q与o_i为从问题数据集与旧策略采样的问题与输出;A_{i, t}^{I}(组内相对优势)定义为:

不确定性调整组相对策略优化_金融时间序列预测_金融时间序列分析课后答案

其中r=

r_0, r_1, ..., r_G

为组内奖励;A_{t}^{S_{tau}}(组间相对优势)定义为:

不确定性调整组相对策略优化_金融时间序列预测_金融时间序列分析课后答案

其中s_{t}^{tau}为当前组在目标tau下的平均奖励,s_{t-1, t}^{tau}为近期窗口内多步奖励的集合;不确定性调整定义为:

其中alpha为可调系数,score为模型推理的置信度得分。

3.2.2 算法流程

不确定性调整组相对策略优化_金融时间序列分析课后答案_金融时间序列预测

UARPO的迭代过程如算法所示

不确定性调整组相对策略优化_金融时间序列预测_金融时间序列分析课后答案

3.3 奖励与不确定性设计

为引导模型学习,UARPO设计了以下奖励:

准确率奖励:衡量预测与真实涨跌结果的一致性;

完成长度奖励:鼓励推理文本长度扩展(≤200 时逐步增加奖励);

格式奖励:约束模型学习目标输出格式;

置信度得分:模型基于输入与推理过程输出置信度,量化预测不确定性,支持风险评估。

04

实验

4.1 数据集:FVLDB

FVLDB是包含10,000+金融时间序列图文对的多样化数据集,涵盖全球股市指数、比特币等加密资产数据。其多样性体现在:资产类型(股票、加密货币等);预测任务类别(价格、波动率等);历史序列长度、频率、指标种类;图像风格(如K线图、技术指标图)。

金融时间序列预测_金融时间序列分析课后答案_不确定性调整组相对策略优化

4.2 实验设置

模型骨干:Qwen2.5-VL-3B(30亿参数);

基线模型:原始Qwen2.5-VL-3B、Qwen2.5-VL-7B(70亿参数)、GPT-4o、GRPO微调的Qwen2.5-VL-3B、Naive模型(延续历史趋势);

训练配置:Adam优化器(学习率1e-6),2轮微调;

硬件:2张80G A100 GPU。

4.3 实验结果

4.3.1 训练过程

UARPO微调过程中,格式奖励与完成长度奖励在训练早期快速上升并稳定,准确率奖励持续增长,损失值不断下降,表明模型有效学习了目标格式、推理深度与预测能力。

金融时间序列预测_金融时间序列分析课后答案_不确定性调整组相对策略优化

4.3.2 预测性能

下表展示了各模型在波动率与价格预测任务中的准确率对比:

金融时间序列预测_金融时间序列分析课后答案_不确定性调整组相对策略优化

(30亿参数)在波动率与价格预测的平均准确率上均超越更大参数模型(如GPT-4o、Qwen2.5-VL-7B),验证了UARPO微调的有效性。

4.3.3 置信度分组分析

下表显示了按置信度得分分组的预测准确率:

金融时间序列预测_金融时间序列分析课后答案_不确定性调整组相对策略优化

的高置信组准确率较GPT-4o提升约13.5%,且置信度与准确率呈强正相关,表明其不确定性量化可靠,支持更可信的金融决策。

4.3.4 微调趋势对比

在微调过程中的准确率增长趋势显著优于其他模型,进一步验证了UARPO的有效性。

金融时间序列分析课后答案_不确定性调整组相对策略优化_金融时间序列预测