摘 要:在数字金融和资本市场高质量发展要求下,证券公司知识工作智能化正由单次问答、材料润色,转向可规划、可调用工具、可追踪、可接管的流程级智能体系统。本文将证券公司知识工作概括为事件驱动型研究支持和专题型综合分析两类任务,分析来源复杂、版本变化频繁、证据链和权限要求高、人工复核必要等特征;提出以任务卡、受控工具接口、上下文工程、分层记忆、运行追踪、轨迹评分、智能体评测和复核路由为核心的机制,并以公开资料增量跟踪与专题材料支撑为验证场景。研究认为,应坚持合规先行、人机协同、有限自治,围绕强证据、可观测、可接管、可迭代路径推进。

关键词:证券公司;知识工作自动化;智能体;评测治理;人工复核

一、数字金融背景下的知识工作智能化建设需求

数字化转型要求正在细化。证监会相关意见要求做好数字金融、服务高质量发展[1];七部门行动方案也强调数字技术支撑、数据治理和风险防范[2]。证券公司应用人工智能,并非增加办公插件,而是调整知识作业、流程组织和风险控制方式。

证券公司知识工作具有信息密集和文本密集特征。正式文件、公开披露、行业资料、历史底稿和内部模板往往交织出现;长文本中真正影响判断的通常是事实、字段、时间点、版本和口径。不同条线虽目标不同,却都要完成资料收集、来源识别、差异比对和底稿形成。

智能体的价值不应只看文本是否流畅,更要看其能否把需求转化为任务、受控调用工具、维护证据和上下文、留下可回放轨迹,并在高风险节点交给人工。证券公司需要的是可逐步搭建、验证和扩展的多步骤知识作业系统。

本文重点讨论任务规划、工具调用、记忆管理、过程观测、评测复核和人工接管。检索、解析和模板化生成仍重要,但主要以工具能力出现。由于证券业务处于强监管环境,系统设计必须嵌入权限控制、合规审查、留痕管理和责任边界。

二、证券公司知识工作的主要特征与现实问题

本文所称知识工作,是指以专业信息识别、证据组织、判断支撑和文本输出为核心的非程序化处理活动。其难点不只是文本量大,还在于来源层级复杂、版本变化频繁、证据链要求高、权限边界严格、复核责任明确。本文将共同任务形态概括为事件驱动型研究支持和专题型综合分析。

事件驱动型研究支持的核心是识别新增变化。它以主体、产品、项目、规则或事项为对象,在限定时间内发现新增材料、确认来源层级、抽取变化字段,并判断是否形成提示或讨论材料。智能体不应越权形成最终判断,而应组织新增事实、变化点、引用来源和待核问题。

专题型综合分析的核心是组织专题证据。它面对政策文件、行业资料、同业披露、历史材料和指标口径,需要跨时间、跨来源、跨版本归纳。智能体适合承担材料归集、要点索引、结构化提纲、差异表和初稿支撑,人工应保留口径取舍和最终结论责任。

两类任务共享同一组技术要求:需求要转写为任务卡,工具调用要受控,上下文要维护,证据与输出要绑定,高敏感节点要触发人工接管。起步阶段可先建设复用底座,再按场景配置工具、模板和复核规则,避免部门化孤岛。

三、智能体系统的建设步骤与运行机制设计

智能体建设首先要从单次文本生成转向多步骤任务执行。Anthropic 区分了工作流(workflow)与智能体(agent):前者按预设路径运行,后者由模型在边界内动态决定流程和工具使用[3]。证券公司更适合“有限自治的智能体工作流”,由业务规则设定边界,模型在边界内规划、调用、检查和交接。

建设顺序不宜从大平台开始,而应遵循“小切口、可验证、可接管”:先选择证据链清晰、模板稳定、人工复核容易介入的场景;再把需求转成任务卡和工具清单;随后梳理可调用来源,建立记忆、追踪、失败回流和评测机制;最后再决定是否扩展。

任务卡至少说明任务对象、输出物、允许来源、可调用工具、必须引用字段和必须暂停情形;还要标注是否涉及敏感信息、对外口径或负责人复核。它相当于智能体运行的业务合约,只有目标、边界和停止条件清楚,工具调用和轨迹评分才有依据。

工具接口要从“人能操作”转向“智能体能可靠调用”。起步阶段应区分可调用、仅人工查看、需审批或脱敏的系统、文档、数据库和公开来源。MCP 将能力组织为工具(tools)、资源(resources)和预设模板(prompts)等对象[4]。证券公司可据此封装检索、解析、比对、查询、模板填充和引用回跳等结构化工具。

工具返回结果应保留来源名称、日期、版本号、引用位置、权限标签、字段置信度和异常信息。这些信息能显著改善可审计性。

Anthropic 将上下文工程(context engineering)概括为在推理过程中策划和维护有限上下文资源,使模型每一步获得更合适的信息状态[5]。证券公司知识工作中的许多失败并非材料不足,而是材料太杂:同一事项可能同时存在正式文件、媒体报道、内部摘录和历史底稿。

智能体记忆(memory)应分层管理。工作记忆保留当前子任务所需的证据集、字段表和待核问题;会话摘要记录多轮任务状态和下一步计划;长期记忆只吸收经人工确认、可以复用的模板、规则、字段定义和异常案例。相关综述也表明,记忆影响任务状态、信息筛选和长期行为稳定性[6]。

长时间运行还需要稳定的运行支架(harness)。相关工程文章指出,长任务能否持续推进,取决于状态管理、工具调用和执行结构之间的协同[7]。在证券公司语境下,harness 至少要负责阶段推进、异常回退、超时重试、状态保存和人工中断。

运行追踪(tracing)解决“发生了什么”的问题。OpenAI Agents SDK 提供 tracing 机制,用于记录模型调用、工具调用、交接(handoffs)、防护规则(guardrails)和自定义事件[8]。证券公司不仅要看最终成稿,还要能回放系统看到了什么、调用了什么、为何停止。

四、评测复核机制与先行验证路径

评测和复核应从原型阶段嵌入。仅看最终输出是否完整流畅,并不足以判断系统质量:表述较好的系统可能使用不合规来源,文字不够精致的系统却可能完整完成证据获取、字段对齐和异常升级。因此,评测重心应转向过程质量和接管边界。

OpenAI 讨论了智能体评测(agent evals)对任务结果和工作流整体表现的衡量作用[9];轨迹评分(trace grading)更适合定位运行链条中的成功点和失误点[10]。证券公司可重点考察来源白名单、引用回跳、字段一致性、版本匹配、异常升级、人工接管和合规复核。

(一)Pass@k:评价多步骤任务的完成潜力

Chen 等使用 Pass@k 衡量在 k 个样本中至少有一个通过测试的概率[11]。迁移到智能体评测中,Pass@k 可观察同一任务在多次运行或重试下,是否至少有一次完成证据获取、字段抽取、引用对齐和接管判断。其常见估计式为:

Pass@k = 1 - C(n-c, k) / C(n, k) (1)

式中,n 表示运行总次数;c 表示成功次数;k 表示抽取的候选次数;C(a,b) 表示组合数,并约定当 n-c < k 时 C(n-c,k)=0。证券公司应追求提高单次运行成功率,并让失败样本在轨迹中可解释、可修复。

(二)期望校准误差(Expected Calibration Error,ECE):评价系统是否“知道自己不确定”

在人工复核路由中,置信度必须接受评测。Guo 等使用期望校准误差(Expected Calibration Error,ECE)衡量模型置信度与真实准确率之间的偏差[12],可写为:

ECE = ∑_{m=1}^{M} (|B_m|/n) · |acc(B_m) - conf(B_m)| (2)

式中,M 表示分桶数量;B_m 表示第 m 个置信度区间样本集合;|B_m| 表示样本数;n 表示总样本数;acc(B_m) 表示实际准确率;conf(B_m) 表示平均置信度。ECE 越小,说明置信度越接近真实准确性;高置信错误会增加自动放行和接管治理难度。

(三)风险—覆盖率(risk-coverage):确定自动放行和人工接管的边界

Geifman 和 El-Yaniv 提出通过拒识机制权衡风险与覆盖率[13]。这一思想适合证券公司智能体治理,因为许多场景的目标不是全部自动通过,而是在可接受风险下扩大自动化覆盖。其基本表达可写为:

式中,x 表示输入样本;y 表示真实标签或人工确认结果;f(x) 表示智能体输出;g(x)∈{0,1} 表示选择函数,g(x)=1 表示自动处理,g(x)=0 表示升级人工;表示损失函数;E[·]表示期望;coverage(g) 表示自动处理比例;risk(f,g) 表示自动处理样本平均风险。证券公司应按任务敏感度设定阈值。

从运行关系看,机制可概括为任务卡驱动的执行链:需求转写为任务卡,规划器拆解步骤并选择工具;工具层取得带来源、时间、版本和权限标签的证据对象;输出层形成字段表、差异清单、引用索引、待核问题和草稿;人工意见、失败轨迹和异常样本再回流。

先行验证可选择公开资料增量跟踪与专题材料支撑。该场景主要使用公开资料和标准化内部模板,不涉及客户隐私、交易指令或未公开经营决策,既能检验任务卡、工具调用、上下文维护、证据包输出和人工接管,也能保持清晰风险边界。

该场景同时覆盖两类任务:围绕主体或事项跟踪新增信息时,属于事件驱动型研究支持;围绕议题组织政策、同业和历史材料时,属于专题型综合分析。系统不直接给出正式结论,而是交付材料清单、字段表、差异说明、证据索引、待核问题和初稿提纲。

这一场景把方法框架落到清晰链条:任务经由任务卡和规划器进入工具调用与状态维护,再产出证据包,并在高风险节点交给人工。它不意味着系统替代最终判断,而是将智能体定位为资料组织者、证据整合者和草稿支撑者。

五、合规约束下的风险治理与持续优化

NIST 的生成式人工智能风险管理画像强调,组织应围绕治理、识别、测量和管理建立生命周期风险控制[14]。证券公司智能体风险包括幻觉、规划失当、工具误用、来源污染、版本错配、记忆污染、权限越界、日志泄露、合规口径偏差和接管失灵,尤其要警惕“静默失败”。

闭环优化不应只理解为“更换更强模型”,而应把失败样本资产化。错误工具调用要补充工具描述和异常测试;字段误抽要更新规则和评测样本;接管过晚要调整阈值;人工大改要把原因回写到模板和长期记忆候选中。长期看,有价值的是持续积累的任务库、评测库、失败库和经确认知识库。

组织层面要避免两个极端:一是过早追求全自动或全场景覆盖,把高敏感判断交给模型;二是过度谨慎,只允许模型做低风险文字润色,无法形成系统能力。稳妥路径是先选择证据链清晰、模板稳定、复核容易介入的任务,建立小规模评测闭环,再逐步扩大覆盖。

证券公司知识工作智能体化的重点,不在于把大模型视为万能助手,而在于在合规前提下重构可运行的知识作业链。智能体必须学会规划、调用工具、管理上下文、留下轨迹、接受评测,并在不确定时交给人工。

事件驱动型研究支持和专题型综合分析覆盖了大量知识工作的基本逻辑。前者强调增量变化,后者强调专题组织,但都依赖任务规划、分层记忆、过程观测和人工接管。未来建设应围绕任务卡、证据包、运行轨迹、评测集和复核节点建立机制。

综上,证券公司知识工作智能体化的重点,不是单纯引入大模型,而是形成以任务卡、受控工具接口、分层记忆、运行追踪、评测复核和人工接管为核心的知识作业机制。智能体应定位为资料组织者、证据整合者和草稿支撑者。后续可先在低敏场景中积累评测样本、失败案例和治理规则,再向复杂内部知识工作扩展。(作者:西南证券股份有限公司博士后 古梓劲)

参考文献

[1] 中国证券监督管理委员会. 关于资本市场做好金融“五篇大文章”的实施意见[EB/OL]. 2025-02-07.

[2] 中国人民银行, 国家发展改革委, 工业和信息化部, 金融监管总局, 中国证监会, 国家数据局, 国家外汇局. 关于印发《推动数字金融高质量发展行动方案》的通知[EB/OL]. 2024-11-21.

[3] Anthropic. Building effective agents[EB/OL]. 2024-12-19.

[4] Model Context Protocol. Specification, Version 2025-11-25[EB/OL]. 2025-11-25.

[5] Anthropic. Effective context engineering for AI agents[EB/OL]. 2025-09-29.

[6] Zhang Z, Bo X, Ma C, et al. A Survey on the Memory Mechanism of Large Language Model based Agents[EB/OL]. arXiv:2404.13501, 2024.

[7] Anthropic. Effective harnesses for long-running agents[EB/OL]. 2025-11-26.

[8] OpenAI. Tracing - OpenAI Agents SDK[EB/OL]. n.d. [访问日期:2026-04-29].

[9] OpenAI. Evaluate agent workflows[EB/OL]. n.d. [访问日期:2026-04-29].

[10] OpenAI. Trace grading[EB/OL]. n.d. [访问日期:2026-04-29].

[11] Chen M, Tworek J, Jun H, et al. Evaluating Large Language Models Trained on Code[EB/OL]. arXiv:2107.03374, 2021.

[12] Guo C, Pleiss G, Sun Y, Weinberger K Q. On Calibration of Modern Neural Networks[C]//Proceedings of the 34th International Conference on Machine Learning. 2017: 1321-1330.

[13] Geifman Y, El-Yaniv R. Selective Classification for Deep Neural Networks[C]//Advances in Neural Information Processing Systems 30. 2017.

[14] NIST. Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile[R/OL]. NIST AI 600-1, 2024.

编辑:宓迪
更多精彩资讯请在应用市场下载“央广网”客户端。欢迎提供新闻线索,24小时报料热线400-800-0088;消费者也可通过央广网“啄木鸟消费者投诉平台”线上投诉。版权声明:本文章版权归属央广网所有,未经授权不得转载。转载请联系:cnrbanquan@cnr.cn,不尊重原创的行为我们将追究责任。
长按二维码
关注精彩内容