白皮书 · 2026 版

贵公司存在隐性数据危机

80%的企业数据都隐藏在文档、图像、视频和电子邮件中,而任何计算机系统都无法对其进行有效整理。这份具有里程碑意义的中国白皮书揭示了如何驾驭这种混乱局面,并将其转化为您最大的竞争优势。

80%
企业数据大多是非结构化的
5
成熟度级别定义
19
真实案例研究

首先,什么是非结构化数据

💡 想想你的厨房。结构化数据就像整齐排列、贴着标签的调料架——每个罐子都有名字、位置和已知的用量。非结构化数据则代表厨房的其他一切:纸上潦草的食谱笔记、手机里的烹饪视频、奶奶做的蛋糕照片。所有这些都无比珍贵,但任何一个架子都装不下。

结构化数据以整齐的行和列的形式存储——例如银行账号、日期、产品价格。您的数据库就是为此而设计的。

非结构化数据是指所有无法放入整齐表格中的数据:Word 文档、PDF、电子邮件、照片、视频、工程图纸、录音等等。它由其内容描述,而不是由预定义的模式描述。

方面 结构化数据 非结构化数据
它看起来像什么 银行卡号、日期、价格 文档、图像、视频、电子邮件、报告
格式 固定类型(字符串、整数、日期) 多种格式(png、jpg、mp4、doc、ofd、pdf……)
存储共享 约占企业数据的 20% 约占企业数据的 80%
它居住的地方 数据库和应用系统 个人电脑、服务器、文件柜、数据湖
价值类型 已知、可衡量的分析 探索性的、洞察力驱动的、隐藏的宝藏
“非结构化数据占企业存储的 80%,占年度数据增长的 80%——然而大多数公司几乎根本没有对其进行管理。”

我们是怎么走到这一步的?

组织处理非结构化数据的方式经历了多次技术浪潮的演变。每一次浪潮都带来了新的功能,同时也带来了新的期望。

1960年代至1990年代 · 文件时代

数据库技术应运而生。文件成为主要的存储介质。“数据管理”最初仅仅指文件的存储和检索。

1990年代 · 无纸化办公

纸质档案数字化,电子文档库和数字档案馆应运而生。Documentum(1990)开创了企业文档管理的先河。

2000年代 · 互联网爆炸式发展

网络内容管理(WCM)蓬勃发展。门户网站推动内容呈指数级增长。电子商务和电子政务蓬勃发展。

2002–2005 年 · ECM 诞生

Documentum 于 2002 年发布了首款企业内容管理 (ECM) 产品。企业内容管理成为一个公认的类别。业务系统开始生成海量非结构化数据。

2006–2010 · 平台战争

微软推出 SharePoint(2006 年)。OpenText 于 2010 年成立。在中国,鸿毅发布了首款国产企业内容管理 (ECM) 产品(2008 年)。国际 ECM 供应商开始进军中国的航空航天、核能和工程领域。

2010–2015 · 云计算与大数据

云计算、物联网和移动互联网改变了数据形式:视频文件、工程文档、ISO质量文件等等。企业内容管理(ECM)应用能够快速扩展。

2015–2020 年 · 人工智能到来

人工智能实现内容自动化:文本挖掘、语义分析、智能分类。内容服务变得“智能”。

2020+ · 中国电子对抗措施元年

中国的平台型企业内容管理(ECM)日趋成熟。应用层工具(企业云盘、协作文档编辑器)迅速普及。2020年被称为“中国企业内容管理元年”。

OFD:中国对PDF的回应

💡 想象一下,PDF 就像一家颇受欢迎的外国连锁餐厅。它无处不在,运行良好,但菜单却不太符合当地口味,而且厨房有时还会把你的菜谱锁起来。OFD是自主研发的替代方案——它采用本地语言,使用本地安全措施(SM2/SM3 加密标准),并且从一开始就专为满足政府和企业的归档需求而设计。

OFD(开放式固定布局文档)于 2016 年 10 月正式发布为中国国家标准(GB/T 33190-2016)。与已经存在 40 多年的 PDF 不同,OFD 是专门为解决两个痛点而设计的:“文档坟场”问题(数据输入后却无法轻易提取)和信息安全漏洞。

🏗️

XML + ZIP 架构

摒弃旧的二进制格式。使用 XML 描述内容,并以 ZIP 格式打包——使其更简洁、信息更丰富、更易于解析。

🔐

本土安全

内置支持中国加密标准(SM2/SM3)。将原始内容与注释分离,以便在数字签名中清晰追踪责任归属。

🛡️

没有正在运行的脚本

与支持宏和脚本的格式不同,OFD 特意排除了它们——从而消除了病毒和恶意软件通过文档传播的途径。

📋

结构化数据友好

鼓励在固定布局文档中嵌入结构化数据(元数据、自定义标签、附件),弥合结构化世界和非结构化世界之间的差距。

非结构化数据管理框架

这是本文的主要贡献:一个综合框架,将企业需要处理非结构化数据的所有事项组织成五大支柱和十六个领域。

💡 想象一下一栋房子。屋顶是你的最高战略。地基是你的管理系统(标准、元数据、质量、安全、合规、集成)。客厅是创造价值的地方(协作、数据流、服务、洞察)。而治理就像建筑规范,确保一切安全合法。

🏛️ 顶级战略与设计

使非结构化数据战略与业务目标和 IT 目标保持一致

💎 价值体系

数据协作 数据流通 数据服务 数据洞察

⚙️ 管理系统

数据标准 元数据 数据质量 数据安全 数据合规性 数据集成

📐 治理

组织架构及角色 政策与流程 评估与审计 数据文化

五个成熟度级别

本白皮书以中国国家数据管理成熟度模型(DCMM)标准(涵盖所有数据管理)为基础,提出了一种专门针对非结构化数据的分级系统。

💡 想象一下学习烹饪的过程。第一阶段:你吃外卖,偶尔会把面包烤焦。第二阶段:你能看懂简单的食谱。第三阶段:你能自信地烹饪,并能为一周准备食材。第四阶段:你能举办晚宴,并尝试复杂的菜肴。第五阶段:你是一名专业厨师,管理着配备人工智能辅助库存管理系统的厨房。每个阶段都以前一个阶段为基础。

1. 初始级 (Initial)

非结构化数据管理几乎不存在。部门独立运作,采用传统的纸质协作。工具简单,缺乏系统流程。业务支撑弱,安全仅靠物理隔离。

2. 受管级 (Connected)

建立基本的管理策略,员工受训。按业务线管理文件,部署了数据管理系统。支持内外内容交互,并具备基于权限的访问控制。

3. 稳健级 (Measurable)

数据成为组织治理的战略资产。多数业务在线运转,内部系统统一。管理颗粒度达到文件级。引入边界检测与内容安全技术增强防护。

4. 融合级 (Integrated)

非结构化数据管理成为战略支柱。系统深度融合至全业务场景。机器生成的文档采用国家标准支持人机双读。运维专业化,安全达到等保三级以上。

5. 智能级 (Intelligent)

全面数字化转型。数据作为核心生产要素定期评估。通过NLP、知识图谱与深度学习使非创造性工作自动化,实现智能决策和前瞻性预测。

构建您的非结构化数据战略

白皮书提出了在制定非结构化数据战略时应关注的五大战略支柱,即每位高管都应该提出的五个关键问题:

📊

1. 现状评估

我们目前处于什么阶段?评估技术和应用的现状,运用成熟度模型确定阶段并找出根本原因。

🏃

2. 业务效率

首要目标:切实提升运营效率。重点关注内容协作速度、内容与业务整合深度以及对变化的响应能力。

🔍

3. 洞察力与创新

最高战略层级:利用人工智能、知识图谱和自然语言处理进行探索性数据挖掘、智能决策支持和知识创造。

🔒

4. 安全与合规

满足法律、监管和隐私要求。构建合规的内容管理系统。在所有环境中实施全生命周期安全控制。

🌱

5. 数据文化

自上而下培养意识:数据是一种资源→一种资产→一种价值来源。将非结构化数据管理融入组织基因。

ECM:企业内容管理

在实践中,非结构化数据管理采取了企业内容管理 (ECM) 的形式——它是一套策略、方法和软件,帮助企业获取、管理、存储、保护、利用其非结构化数据并从中获得洞察。

💡 如果把企业数据比作一座城市,ERP 和 CRM 就好比井然有序的政府大楼(结构化数据)。而 ECM 则是管理城市其他一切的基础设施:博物馆、图书馆、档案馆和私人住宅。如果没有 ECM,城市里只有建筑,却没有连接它们的道路。

CM³ 成熟度模型

基于跨行业实践,CM³模型描述了内容管理演进的四个阶段:

一、内容协作 (CCP)

文件分散在用户电脑上,仅支持基本的文件协作,没有业务集成。

二、内容服务 (CSP)

数据以业务系统文件的形式存在。元数据将内容链接到网络中。

三、内容业务 (CSA)

行业数据经多维度提炼形成知识体系,深度融合助力业务应用。

四、人工智能驱动

深度学习、NLP和知识图谱使生命周期各个阶段更加智能化。

ECM 平台架构功能层

📥 收集层

用户上传、API 集成、网络爬虫、邮件捕获、扫描仪集成。

💾 存储层

分布式对象存储,冷热分层,加密,多副本,百亿级小文件寻址。

🔧 治理层

数据标准、元数据管理、内容模型、分类规则、健康度评分。

📱 服务与应用层

格式转换、权限管理、在线协作、WebAPI及垂直场景应用集成。

非结构化数据管理的六大支柱

该框架列出了六项关键管理活动(点击展开了解详情):

行业实践与证明

制药行业内容协作

大型制药集团——质量体系文件管理

问题痛点

质量规章分散在各个车间,无法协同编辑。多子公司无法同时修改在线文档。

解决方案

构建全集团共享的高质量系统文件平台,支持多人在线协同编辑与详尽的修订追踪(人员、时间、变更明细),极大降低了会议沟通与纸质流转成本。

交通地铁生命周期

地铁公司——全生命周期内容管理

问题痛点

超 20 年积累的海量技术数据、施工图纸和运营文件缺乏统筹管理,隐患极大。

解决方案

部署集成文档归档管理平台。集采集、图纸预览、索引分类、海量存储与报废销毁为一体,真正实现了技术文档的“端到端”数字生命周期管理。

金融联盟安全管控

银行卡联盟组织——文件安全管理

问题痛点

系统存在信息孤岛,核心机密文件缺乏统一存储与安全的外部交换通道,检索困难。

解决方案

搭建非结构化数据中心,配备基于人工智能的密级识别技术。整合工作流引擎,实现带有严密防泄露(DLP)和水印审计的安全发布。

您应该记住的核心法则

1. 企业数据的 80/20 法则

企业数据中有 80% 是非结构化数据(文档、图像、视频),但大多数公司却将绝大部分资源投入在剩余的 20% 上。扭转这种不平衡局面是当前数字化转型的当务之急。

2. 成熟度是一个阶梯,而非一蹴而就

五个成熟度阶段(初始 → 受管 → 稳健 → 融合 → 智能)提供了清晰的发展路径,公司应准确定位自身所处阶段,逐步迭代。

3. ECM 是平台级战略

企业内容管理不仅是软件,更是涵盖内容完整生命周期(收集→存储→保护→使用→归档)的方法论底座。

4. 未来走向:AI + 知识图谱

最先进的阶段将利用深度学习、NLP 和三层知识图谱(实体、主题、文档)使每个流转阶段智能化,从而实现自动分类、语义搜索和辅助决策。