前沿研究院联合共建Finova大模型金融应用评测基准

2025年07月28日

7月28日，在世界人工智能大会论坛上，蚂蚁数科正式发布金融推理大模型Agentar-Fin-R1，基于Qwen3研发:在FinEval1.0、FinancelQ等权威金融大模型评测基准上超越DeepSeek-R1等同尺寸开源通用大模型以及金融大模型。特别是在面向实际金融场景应用的大模型评测基准Finova中，Agentar-Fin-R1-32B达到最高分，超越了更大规模的通用模型。

Finova大模型金融应用评测基准由北京前沿金融监管科技研究院联合中国工商银行、宁波银行、蚂蚁数科、上海人工智能行业协会等机构共同推出，深度考察智能体能力、复杂推理以及安全合规能力。

“要让行业认可大模型的能力，得有把公认的标尺。Finova评测基准，就像金融大模型的‘能力体检表’，专门考察模型在实际场景中的真本事。”有业内人士解释，和传统评测不同，Finova不只看“知识点记忆”，更看重“解决实际问题的能力”——自主执行任务的智能体能力、复杂分析任务的推理能力以及安全合规能力。

比如在智能投研测试中，模型需要分析一份上市公司财报、三份行业研报和最新政策，最终给出投资建议，整个过程要像真人分析师一样有理有据；在合规测试中，它得准确识别出贷款合同中的潜在合规风险，并引用具体法规条款说明理由。正是这些和实际场景十分贴近的评测中，Agentar-Fin-R1以优秀的成绩超越了更大参数规模的通用模型，证明了专业大模型的场景优势。

Finova 基准的全面概览图，由三个组成部分构成：代理能力、复杂推理以及安全与合规。

据介绍，目前Finova评测基准已全面开源。就像把“考试大纲”公之于众，行业都可以按这个标准训练和优化模型，推动行业共同提升大模型在金融领域的应用水平。