80%的企业数据都隐藏在文档、图像、视频和电子邮件中,而任何计算机系统都无法对其进行有效整理。这份具有里程碑意义的中国白皮书揭示了如何驾驭这种混乱局面,并将其转化为您最大的竞争优势。
结构化数据以整齐的行和列的形式存储——例如银行账号、日期、产品价格。您的数据库就是为此而设计的。
非结构化数据是指所有无法放入整齐表格中的数据:Word 文档、PDF、电子邮件、照片、视频、工程图纸、录音等等。它由其内容描述,而不是由预定义的模式描述。
| 方面 | 结构化数据 | 非结构化数据 |
|---|---|---|
| 它看起来像什么 | 银行卡号、日期、价格 | 文档、图像、视频、电子邮件、报告 |
| 格式 | 固定类型(字符串、整数、日期) | 多种格式(png、jpg、mp4、doc、ofd、pdf……) |
| 存储共享 | 约占企业数据的 20% | 约占企业数据的 80% |
| 它居住的地方 | 数据库和应用系统 | 个人电脑、服务器、文件柜、数据湖 |
| 价值类型 | 已知、可衡量的分析 | 探索性的、洞察力驱动的、隐藏的宝藏 |
组织处理非结构化数据的方式经历了多次技术浪潮的演变。每一次浪潮都带来了新的功能,同时也带来了新的期望。
数据库技术应运而生。文件成为主要的存储介质。“数据管理”最初仅仅指文件的存储和检索。
纸质档案数字化,电子文档库和数字档案馆应运而生。Documentum(1990)开创了企业文档管理的先河。
网络内容管理(WCM)蓬勃发展。门户网站推动内容呈指数级增长。电子商务和电子政务蓬勃发展。
Documentum 于 2002 年发布了首款企业内容管理 (ECM) 产品。企业内容管理成为一个公认的类别。业务系统开始生成海量非结构化数据。
微软推出 SharePoint(2006 年)。OpenText 于 2010 年成立。在中国,鸿毅发布了首款国产企业内容管理 (ECM) 产品(2008 年)。国际 ECM 供应商开始进军中国的航空航天、核能和工程领域。
云计算、物联网和移动互联网改变了数据形式:视频文件、工程文档、ISO质量文件等等。企业内容管理(ECM)应用能够快速扩展。
人工智能实现内容自动化:文本挖掘、语义分析、智能分类。内容服务变得“智能”。
中国的平台型企业内容管理(ECM)日趋成熟。应用层工具(企业云盘、协作文档编辑器)迅速普及。2020年被称为“中国企业内容管理元年”。
OFD(开放式固定布局文档)于 2016 年 10 月正式发布为中国国家标准(GB/T 33190-2016)。与已经存在 40 多年的 PDF 不同,OFD 是专门为解决两个痛点而设计的:“文档坟场”问题(数据输入后却无法轻易提取)和信息安全漏洞。
摒弃旧的二进制格式。使用 XML 描述内容,并以 ZIP 格式打包——使其更简洁、信息更丰富、更易于解析。
内置支持中国加密标准(SM2/SM3)。将原始内容与注释分离,以便在数字签名中清晰追踪责任归属。
与支持宏和脚本的格式不同,OFD 特意排除了它们——从而消除了病毒和恶意软件通过文档传播的途径。
鼓励在固定布局文档中嵌入结构化数据(元数据、自定义标签、附件),弥合结构化世界和非结构化世界之间的差距。
这是本文的主要贡献:一个综合框架,将企业需要处理非结构化数据的所有事项组织成五大支柱和十六个领域。
使非结构化数据战略与业务目标和 IT 目标保持一致
本白皮书以中国国家数据管理成熟度模型(DCMM)标准(涵盖所有数据管理)为基础,提出了一种专门针对非结构化数据的分级系统。
非结构化数据管理几乎不存在。部门独立运作,采用传统的纸质协作。工具简单,缺乏系统流程。业务支撑弱,安全仅靠物理隔离。
建立基本的管理策略,员工受训。按业务线管理文件,部署了数据管理系统。支持内外内容交互,并具备基于权限的访问控制。
数据成为组织治理的战略资产。多数业务在线运转,内部系统统一。管理颗粒度达到文件级。引入边界检测与内容安全技术增强防护。
非结构化数据管理成为战略支柱。系统深度融合至全业务场景。机器生成的文档采用国家标准支持人机双读。运维专业化,安全达到等保三级以上。
全面数字化转型。数据作为核心生产要素定期评估。通过NLP、知识图谱与深度学习使非创造性工作自动化,实现智能决策和前瞻性预测。
白皮书提出了在制定非结构化数据战略时应关注的五大战略支柱,即每位高管都应该提出的五个关键问题:
我们目前处于什么阶段?评估技术和应用的现状,运用成熟度模型确定阶段并找出根本原因。
首要目标:切实提升运营效率。重点关注内容协作速度、内容与业务整合深度以及对变化的响应能力。
最高战略层级:利用人工智能、知识图谱和自然语言处理进行探索性数据挖掘、智能决策支持和知识创造。
满足法律、监管和隐私要求。构建合规的内容管理系统。在所有环境中实施全生命周期安全控制。
自上而下培养意识:数据是一种资源→一种资产→一种价值来源。将非结构化数据管理融入组织基因。
在实践中,非结构化数据管理采取了企业内容管理 (ECM) 的形式——它是一套策略、方法和软件,帮助企业获取、管理、存储、保护、利用其非结构化数据并从中获得洞察。
基于跨行业实践,CM³模型描述了内容管理演进的四个阶段:
文件分散在用户电脑上,仅支持基本的文件协作,没有业务集成。
数据以业务系统文件的形式存在。元数据将内容链接到网络中。
行业数据经多维度提炼形成知识体系,深度融合助力业务应用。
深度学习、NLP和知识图谱使生命周期各个阶段更加智能化。
用户上传、API 集成、网络爬虫、邮件捕获、扫描仪集成。
分布式对象存储,冷热分层,加密,多副本,百亿级小文件寻址。
数据标准、元数据管理、内容模型、分类规则、健康度评分。
格式转换、权限管理、在线协作、WebAPI及垂直场景应用集成。
该框架列出了六项关键管理活动(点击展开了解详情):
质量规章分散在各个车间,无法协同编辑。多子公司无法同时修改在线文档。
构建全集团共享的高质量系统文件平台,支持多人在线协同编辑与详尽的修订追踪(人员、时间、变更明细),极大降低了会议沟通与纸质流转成本。
超 20 年积累的海量技术数据、施工图纸和运营文件缺乏统筹管理,隐患极大。
部署集成文档归档管理平台。集采集、图纸预览、索引分类、海量存储与报废销毁为一体,真正实现了技术文档的“端到端”数字生命周期管理。
系统存在信息孤岛,核心机密文件缺乏统一存储与安全的外部交换通道,检索困难。
搭建非结构化数据中心,配备基于人工智能的密级识别技术。整合工作流引擎,实现带有严密防泄露(DLP)和水印审计的安全发布。
企业数据中有 80% 是非结构化数据(文档、图像、视频),但大多数公司却将绝大部分资源投入在剩余的 20% 上。扭转这种不平衡局面是当前数字化转型的当务之急。
五个成熟度阶段(初始 → 受管 → 稳健 → 融合 → 智能)提供了清晰的发展路径,公司应准确定位自身所处阶段,逐步迭代。
企业内容管理不仅是软件,更是涵盖内容完整生命周期(收集→存储→保护→使用→归档)的方法论底座。
最先进的阶段将利用深度学习、NLP 和三层知识图谱(实体、主题、文档)使每个流转阶段智能化,从而实现自动分类、语义搜索和辅助决策。