numbering.xml 规范,为每个列表段分配独立编号上下文(numId),
确保有序/无序列表互不干扰,编号永不串号。
网页知识提取 · Web-to-Document Pipeline
任意网页 → 标准化 Word 文档 · 格式零返工
网页链接/文章
JS渲染页面
DOM解析
保真引擎
编号+排版
标准化文档
核心难点不是提不到文本,而是结构丢失——有序列表编号串号、字号层级混乱、嵌套内容重复。
numbering.xml 规范,深入 OOXML 编号规范,独立注册每个列表段,杜绝编号串号。
微软雅黑全篇、首行缩进两字符、h1-h3 层级分明,100% 还原排版意图。
Synology知识库、华为华三技术手册等JS渲染平台,一键转为本地docx。
SPA页面、动态加载内容的完整抓取,保留图片、表格、列表结构。
在线教程、博客文章批量转档,统一格式入库,方便全文检索。
将分散在各平台的文档统一转化为标准化格式,纳入组织知识体系。