多智能体自动化系统

四层闭环架构 · 感知 → 推理 → 执行 → 沉淀

每层出问题不往上抛，自己兜住

Agent Workflow Architecture · V2.0 · 2026年5月

出发点 — 三个结构性问题

财务凭证手工处理

发票看图、认字、命名、归档全人工链路，吞吐量低，格式不统一

动态网页知识提取断层

JS 渲染的技术文档保存后排版混乱、图片丢失，缺一条自动化管道

隐性组织知识流失

群里故障排查、方案决策、踩坑经验全被消息流冲走，没有沉淀机制

核心洞察
三个断点本质上是同一个问题：非结构化信息从产生到消费再到沉淀，全链路依赖人工，没有自动化闭环。

架构总览 — 四层闭环

感知层 — 多模态输入网关

图片、PDF、网页源码、聊天消息流统一接入，格式自动判别，自适应选择提取策略。

电子文档直析

PDF/Word 类直接提取文本流，保留结构信息。pdftotext → rapidocr 多级降级策略。

图像视觉推理

发票、截图类走视觉引擎，OCR + 语义解析一步完成。rapidocr-onnxruntime 纯 Python 方案，零系统依赖。

网页源码解析

JS 渲染页面走 headless browser，SSR 直出页面走 HTML parser，自动选最优策略。

环境自适应探测

运行环境缺系统级依赖时，自主探测并切换到纯 Python 替代方案。不报错、不等人救，继续跑。

推理层 — 长链任务规划 + 动态路由

Agent 拿到输入后自主在工具空间中规划执行序列，按任务类型动态路由到最适模型节点。

发票处理执行序列示例

        格式判别 → 文本提取 → 字段语义解析 → 消费类别推断 → 命名规则匹配 → 封装导出 → 推送分发

动态路由策略

OCR 走视觉模型、文档生成长文本模型、逻辑推理强推理模型。不是一个大模型打天下，谁合适谁上。

三级容错链

主力推理节点 → 备用推理集群 → 兜底免费节点。毫秒级自动切换，凌晨任务不会因厂商挂了停摆。

自主规划不打断

从输入到输出全链自主完成，用户只需给一张发票或一个链接，中间不需要任何交互确认。

3

级容错节点

<1s

故障切换延迟

300-500w

日均Token消耗

执行层 — 可复用技能库 + 跨会话记忆

流程固化为Skill

每次跑通的流程都会固化为可复用的技能模块，后续同类任务自动加载对应技能。包括：发票命名引擎、文档转换保真引擎、群聊蒸馏引擎。

跨会话记忆复用

用户纠正过的格式偏好、命名规则、操作禁忌全部记入持久记忆。跨会话复用，不需要重复交代。

工具链编排

将模型意图转化为工具调用，工具间链式调用。一张发票进来，自动走完 OCR→字段提取→命名→归档→通知全流程。

敏感数据本地清洗

涉及金额、个人信息的原始数据在本地完成脱敏后才进入云端推理链路，从设计上预留私有化部署可能性。

沉淀层 — 群聊知识蒸馏引擎

实时接入工作群消息流，将「用后即焚」的群聊转化为可检索、可追溯、可复用的组织神经中枢。

1

语义聚类切分

通过语义聚类算法识别讨论边界，把散乱的消息按事件/工单维度切分成独立的知识单元。

2

去噪 + 摘要 + 结构化改写

自动去除聊天噪音（表情、寒暄、重复消息），提取核心信息并改写为标准化知识条目。

3

自动归档知识库

日均产出 10+ 条结构化条目，历史沉淀率从近乎 0 提升到有效覆盖。

4

月度全量回溯

利用长上下文窗口一次性回朔一周甚至一个月的群聊全量历史，提取跨事件的潜在关联模式，生成月度复盘报告。

三大工作流场景

发票处理

图片/PDF上传 → OCR识别
字段提取 → 命名规范匹配
自动归档 → PDF推送
3-5分钟 → 约30秒
格式100%合规

网页知识提取

JS渲染页面 → 结构化提取
OOXML保真引擎转换
独立编号注册防串号
标准化docx一键生成
格式零返工

群聊知识蒸馏

WebSocket实时接入消息流
语义聚类切分知识单元
日均10+条结构化条目
月度全量回溯+关联分析
沉淀率从0到有效覆盖

工程保障 + 实际效果

~30s

单张发票处理时间

100%

格式合规率

10+

日均知识条目产出

30天+

持续稳定运行

文档结构保真引擎

逆向 OOXML numbering.xml 规范，独立编号注册机制，确保跨格式源到标准文档的结构 100% 保真。

三级模型容错链

毫秒级自动切换，凌晨任务从不会因为某个模型厂商挂了就停摆。30天运行零人工介入恢复。

敏感数据本地清洗层

涉及金额与个人信息的原始数据本地脱敏后才入云端推理链路，架构层面预留私有化与混合部署可能。

长期方向

当前打通「单据→文档→知识」单向链路，
下一步闭环 — 沉淀知识反哺决策：
特定故障自动调取历史工单处置方案

再往后：语音 + 截屏纳入感知层，多模态覆盖更完整

多智能体自动化系统 · V2.0 · 持续演进中