四层闭环架构 · 感知 → 推理 → 执行 → 沉淀
每层出问题不往上抛,自己兜住
Agent Workflow Architecture · V2.0 · 2026年5月
发票看图、认字、命名、归档全人工链路,吞吐量低,格式不统一
JS 渲染的技术文档保存后排版混乱、图片丢失,缺一条自动化管道
群里故障排查、方案决策、踩坑经验全被消息流冲走,没有沉淀机制
图片、PDF、网页源码、聊天消息流统一接入,格式自动判别,自适应选择提取策略。
PDF/Word 类直接提取文本流,保留结构信息。pdftotext → rapidocr 多级降级策略。
发票、截图类走视觉引擎,OCR + 语义解析一步完成。rapidocr-onnxruntime 纯 Python 方案,零系统依赖。
JS 渲染页面走 headless browser,SSR 直出页面走 HTML parser,自动选最优策略。
运行环境缺系统级依赖时,自主探测并切换到纯 Python 替代方案。不报错、不等人救,继续跑。
Agent 拿到输入后自主在工具空间中规划执行序列,按任务类型动态路由到最适模型节点。
OCR 走视觉模型、文档生成长文本模型、逻辑推理强推理模型。不是一个大模型打天下,谁合适谁上。
主力推理节点 → 备用推理集群 → 兜底免费节点。毫秒级自动切换,凌晨任务不会因厂商挂了停摆。
从输入到输出全链自主完成,用户只需给一张发票或一个链接,中间不需要任何交互确认。
每次跑通的流程都会固化为可复用的技能模块,后续同类任务自动加载对应技能。包括:发票命名引擎、文档转换保真引擎、群聊蒸馏引擎。
用户纠正过的格式偏好、命名规则、操作禁忌全部记入持久记忆。跨会话复用,不需要重复交代。
将模型意图转化为工具调用,工具间链式调用。一张发票进来,自动走完 OCR→字段提取→命名→归档→通知全流程。
涉及金额、个人信息的原始数据在本地完成脱敏后才进入云端推理链路,从设计上预留私有化部署可能性。
实时接入工作群消息流,将「用后即焚」的群聊转化为可检索、可追溯、可复用的组织神经中枢。
通过语义聚类算法识别讨论边界,把散乱的消息按事件/工单维度切分成独立的知识单元。
自动去除聊天噪音(表情、寒暄、重复消息),提取核心信息并改写为标准化知识条目。
日均产出 10+ 条结构化条目,历史沉淀率从近乎 0 提升到有效覆盖。
利用长上下文窗口一次性回朔一周甚至一个月的群聊全量历史,提取跨事件的潜在关联模式,生成月度复盘报告。
逆向 OOXML numbering.xml 规范,独立编号注册机制,确保跨格式源到标准文档的结构 100% 保真。
毫秒级自动切换,凌晨任务从不会因为某个模型厂商挂了就停摆。30天运行零人工介入恢复。
涉及金额与个人信息的原始数据本地脱敏后才入云端推理链路,架构层面预留私有化与混合部署可能。
当前打通「单据→文档→知识」单向链路,
下一步 闭环 — 沉淀知识反哺决策:
特定故障自动调取历史工单处置方案
再往后:语音 + 截屏纳入感知层,多模态覆盖更完整
多智能体自动化系统 · V2.0 · 持续演进中