AI时代如何构建数据飞轮

2024-04-30

阅读：

AI时代如何构建数据飞轮

随着AI时代来临，以缓慢的知识循环为基础的数据飞轮，已经无法满足企业需求，企业亟需一套全新的收集与使用数据的方式来激活数据飞轮，提升数据要素在企业发展中的作用。

文 / 王子阳、朱武祥、李浩然、阮申豪

2023年12月的中央经济工作会议重点提出要发展数字经济，加快推动人工智能发展，促进产业升级。国务院印发“十三五”、“十四五”的数字经济发展规划，以及近期国家数据局等十七部门联合提出“数据要素×”三年行动计划，都将数据视为重要生产要素，希望释放数据要素促进高质量发展的潜力。

数字化提升企业竞争优势已经成为事实，如能以更低成本、更快速度响应市场，产业链更透明、更协同等。对于数据要素如何提升企业竞争力，目前的讨论更多关注外部数据的交易维度，但企业最核心、最可获取的数据来源于自身的经营过程。因此，一方面，要更加关注企业业务环节和管理环节的数据生成和存储，利用数据完整映射出真实的业务情况并妥善储存，保证有实时、充足、全面且方便调取的业务数据；另一方面，要关注外部相关数据的有效获取，并将其与企业自身数据有机整合，从而拓宽并深化数据资源的覆盖范围和信息深度，在业务中建立人机协作的环境，打通数据辅助决策、辅助业务的应用路径。

数据辅助业务，业务产生数据，数字系统及AI在企业的运作逻辑可以看作是数据和业务间的循环。这个循环存在正反馈属性：更大的数据量、更深入业务细节的数据映射更能强化AI决策的精准度与适应性，提升业务决策质量；在AI辅助下，业务决策、执行效率提升的同时也会沉淀更丰富、更匹配AI需求的业务数据。我们提出“数据飞轮”概念来描述数据和业务间的这种正反馈循环。

数据飞轮转动快慢很大程度上会影响企业的竞争力。企业提供给AI的数据越丰富准确，AI的效率和决策效果越好，产出的有效数据就越多，飞轮转动得就越快。值得注意的是，驱动AI工作的数据不局限于量化的数字，大数据技术定义下的数据包含数据、信息、知识三个方面。人在理解时会将三者作区分，但对机器来说都是0和1构成的序列数据。随着AI技术尤其是大语言模型的发展，计算机能够更低成本地理解以自然语言存储的企业知识，AI原料供给更加直接，人机交互更加便捷。

然而，现有大部分企业的数据与业务之间并没有形成有效飞轮，究其原因，一方面是企业的数据收集体系不够完善，另一方面是企业尚未建立有效利用数据辅助决策的体系。2022年，某研究机构一次覆盖多个领域不同规模百余家企业的调研显示，企业现有的知识管理系统普遍效果不佳，大部分业务人员反映的问题包括“内容很多，但是存起来后用得不多”“分类和搜索功能不好用，找不到需要的知识”等。低效的数据利用方式，不完善的数据生成和存储体系导致数据飞轮转动缓慢。企业亟需一套全新的收集与使用数据的方式来激活数据飞轮，提升数据要素在企业发展中的作用。

从知识循环到更有竞争力的数据飞轮

现有比较通用的以过往数据、知识服务业务策略的底层逻辑建立在1990年代野中郁次郎提出的“知识循环”理论体系上。“知识循环”理论认为，知识与业务之间的关系是四个过程连续循环的结果：社会化、外化、结合和内化。社会化指人与人之间通过观察、模仿和亲身实践等形式传递与业务相关的知识；外化指通过语言或文字等向他人表达与业务相关的知识；结合指将新知识与已有知识结合，将零碎的知识系统化；内化指学习知识、在业务中应用知识并创造新的业务知识。

野中郁次郎的“知识循环”理论可以看作是企业全面进入数字化之前的数据飞轮的初级形态——由业务产生知识，再反哺于业务，如此循环运转（见图1）。不论是“隐性知识”还是“显性知识”，核心都是为了辅助企业决策。知识专家的作用是根据自己对业务的理解，将真实世界中的知识总结、记录在文档、书籍或知识库中，这就是“外化”和“结合”。当业务人员要调用知识时，需要对数字世界中存储的知识进行消化，即所谓的“内化”。其实，文档、书籍、知识库不过是数字技术不够完善的时代记录数据的一种手段，整个知识循环可以理解为前数字时代的数据飞轮。

随着AI时代来临，以缓慢的知识循环为基础的数据飞轮，已经无法满足企业需求了。外部商业环境快速变化，重复性业务越来越少，企业所需数据及知识量剧增，知识循环的速率很难跟上知识需求。与此同时，每个知识的适用范围变窄，有效期变短，员工有可能无法从已有知识积累中找到适用于当下场景的决策方式。“知识循环”需要进化为更有竞争力的数据飞轮（见图2）。具体而言，需要在如下几方面进行转变。

第一，记录的内容从知识转变为数据。业务中产生的过程数据、结果数据等可以辅助未来的业务流程及决策优化，是数据飞轮的重要“原料”。过去，数据的记录成本较高，能被记录的只有提炼过的知识。现在，未经提炼的底层数据也可以低成本地记录。如何更广泛地将企业经营中的业务数据、管理数据进行收集是数据飞轮第一要务。

第二，知识的提炼者从知识专家转变为业务人员及数据系统。过去只有知识专家具有知识提炼能力，现在由于记录的内容从知识转变为了数据，任何业务人员都可以参与数据总结，数据系统也扮演了重要的数据收集角色。知识专家应该聚焦于为企业提供原理级的思考。

第三，知识与数据的储存逻辑从有限存储转变为海量存储。过去数据存储的成本极高，企业只能存储知识专家总结后的有限知识。当下数据规模剧增，数据之间的关联关系不断发展，此外，存储数据的成本也在大幅下降，完全没有必要先对数据进行全面的加工，而是可以在存储中尽可能还原数据的本来面目。

第四，数据及知识驱动业务决策的方式从直接驱动决策转变为辅助决策。过去业务较为稳定，知识可以长期应用于未来的业务场景，企业对业务人员决策能力的需求较低。当前业务快速变化，业务人员需要不断作出大量新的决策，不断优化流程。因此，需要调用能够还原先前场景的底层数据而不是先前场景下产生的最终知识来辅助于思考，从而产生适合于当下场景的决策和工作流程。

如何构建高效的数据飞轮

数字经济时代信息化技术的发展以及底层基础设施的完善，业务中的过程数据、结果数据等均可以较低的成本记录在数字世界中，并实现快速便捷的调取，这为数据飞轮的发展提供了技术基础。

为了让数据飞轮高效运转，一方面需要收集充足的数据“原料”。业务人员与知识专家从真实世界中提炼出的知识，以及真实世界中未经提炼的企业内外部信息、经营量化数据等，均需要尽可能充分地映射到数字世界，从而形成能够被调用的信息库。此外，还需要高效率且低成本的检索定位工具来实现对海量级信息的调用，并在检索和调用过程中不断完善信息之间的关联关系。

另一方面需要减少数据与业务之间的摩擦。企业的业务流程要适配于新的数据利用方式，让数据能够充分融入流程优化及业务决策过程中；基于数据反馈，建立多维度的决策模型，进行实时的业务效能评估与优化。这个过程中不断产生的新数据和知识会进一步加速飞轮的运转，形成正向循环。

在当下的数据技术环境下，组织可以用全新的数据工具以及AI大模型取代完整严密的知识库，以较低的成本存储大量数据；在调用信息时，可以用自然语言交互的AI助理取代文字检索和查阅，用AI大模型中通过不断调用而自然形成的数据关系取代预先设计的知识关联，确保所需的内容能被高效获取。具体而言，在AI大模型和其他数字化工具辅助下，企业可以通过如下五个关键步骤构建高效的数据飞轮。

数据原料获取

第一步是数据原料的获取，即实现向数字世界的信息映射。

为了让员工在新任务场景下优化工作流程、构建知识关联时，有充足的知识和信息可供调取，企业首先需要将员工工作过程中的信息尽可能充分地映射到数字世界中。这些映射到数字世界的知识信息，就是数据飞轮所需的数据“原料”。这一曾经需要花费大量人力与时间成本的过程，在数字系统和AI技术的辅助下，已经可以高效实现。

比如，当员工面试形成录像资料时，AI可以将这些资料转录为文本存储下来，还可以提取关键信息、为员工赋予性格、能力标签。当员工工作时，会发生频繁的交流与协作，这些活动基本都在数字办公系统中展开，并在AI的辅助下形成较为全面的记录。此外，日常的工作沟通、任务分配及工作内容的进展程度更新、在线文档的协同办公等，都可以直接在协同办公软件如“飞书”中展开，形成记录。会议中的语言交流也可以被AI自动转录为文字，形成数据记录。AI可以进一步从记录的信息中提取关键信息，与企业的运营状况进行关联，从而分析工作开展过程中可能的问题和提升空间，反馈给员工。在进行任务复盘时，可以将评价员工绩效的原则输入数字系统中，由AI自动生成对员工的评价，并根据工作过程中的数据提供一定的建议。

数据原料存储

第二步是数据原料的存储，即存储海量的知识信息。

对于映射到数字世界的海量且格式多样的知识信息，企业要将其存储下来，存储方式要能支持查看、计算、调用、编辑等操作，以便后续对知识信息进行结构化和调用。当数据规模大到一定程度时，存储和调用过程中的一点点额外开销都会带来整体成本的指数级攀升，因此，企业还要有效控制存储的软件和硬件成本。这对于数据库的存储技术以及数据存储的硬件设备都提出了较高的要求。幸运的是，随着AI大模型和云存储技术的发展，这些要求都能被满足。

1990年代的知识管理软件主要是在关系数据库的存储形式下进行设计。这种数据库以表格的形式存储数据，使用SQL（Structured Query Language）进行数据操作和查询。这种模型强调数据的结构化、标准化和关系定义，但不能满足大规模、多格式数据存储和快速调用的需要。2000年代末期兴起的NoSQL（Not Only SQL）数据库技术一定程度上弥补了关系数据库在大规模分布式数据、半结构化数据和高速写入等方面的不足。如今，AI大模型的出现彻底颠覆了数据库存储格式。预训练AI大语言模型的数据存储，用深度学习和神经网络的参数权重取代了传统关系数据库的强结构化要求。这些参数以分布式的方式存储在特定的计算设备上，并在模型训练阶段进行更新，依赖于神经网络的连接权重进行信息处理和生成。这样的存储方式消除了强结构化带来的调用束缚，也避免了数据规模过大导致的容错性降低，满足了AI大模型对海量多格式数据的存储需求。

在硬件设备方面，云存储技术出现和成熟之前，企业只能将数据存储在本地，一座规模可观的服务器机房几乎是信息企业的标配。大量中小企业难以承受服务器设备高昂的购置和维护成本，这极大地限制了它们可获取的数据“原料”规模。如今，大量成熟可靠的云存储服务商，让企业可以以较低的成本将数据分布式存储于云空间中，进一步降低了企业存储数据“原料”的门槛。

数据原料进入飞轮

第三步是数据原料进入飞轮，即员工在业务决策中定位所需的数据、知识、信息。

知识和信息的存储只是前期准备工作。许多企业在数字化系统上事倍功半，问题大多出在这一步，即数据原料无法进入企业实际经营的业务飞轮。定位相关数据和知识是数据要素辅助决策最关键的一步，如果无法便捷地定位工作任务所需的知识，高昂的搜寻成本就会让员工对数字化系统敬而远之。

在AI时代，企业的部分数据可以由AI直接生成，还有部分数据仍然要依靠知识生产者创作。因此，知识定位包括两个方面，一是真实世界的知识定位，即通过AI辅助员工更快地在公司内找到掌握知识的人；另一个是数字世界的知识定位，即帮助员工在知识管理系统的海量数据中找到需要的知识。

对于真实世界的知识，数字系统虽然没有直接储存相关知识，但储存了知识创作的工作过程信息。借助AI对知识创作的过程信息进行处理，可以识别出哪些员工与这一知识创造相关，从而建立通向知识生产者的线索。例如，美国的Gloat.com通过AI技术对员工过往行为和表现进行标签化处理，在公司需要完成新任务时，系统会自动匹配合适的员工。

对于数字世界的知识，传统知识管理系统主要通过关键词检索来定位，但这种检索方式无法全面理解检索者的意图。AI大模型的出现突破了交互方式和语义理解上的局限性。一方面，大模型解决了人与数字化系统之间的自然语言交互难题，人与数字系统能够像人与人一样顺畅交流，不再需要通过检索这样低效率的交互方式沟通；另一方面，大模型不仅能够提取关键词，还能进一步处理和挖掘原始的数据信息，提炼成便于检索、阅读的知识点。当下如火如荼的为搜索引擎接入大模型的智能化改造，就是优化数据索引的一种表现。用户只需要提出问题，AI能给出回答和出处链接。有了AI的辅助，即使是一名普通员工，也能完成原先知识专家的任务。AI助手与员工通过自然语言交互，为员工补齐了知识专家专属的信息理解和处理能力。当员工在工作过程中需要某方面的知识支持时，可以直接通过自然语言告知AI助手，AI助手能够从企业知识库中找出对应的知识文档，或者将相关的原始信息总结为文档，提供给员工。

当前一些垂直专业领域的AI大模型已经具备AI助手的功能。例如，在法律领域，市面上已有的法律大模型大致通过三个步骤发挥作用：理解用户的事实；从事实推理到对应的法律条文和相似判例；依据上面的结果，进行完整的推理，给出法律建议。步骤一是AI与用户之间的自然语言交互，步骤三是AI的逻辑推理和语言组织，最关键的步骤二就是对法律知识的理解和定位，即法律数据库内的知识检索。

数据原料加速飞轮

第四步是数据原料加速飞轮，即AI辅助员工提升决策效率。

受大脑信息处理能力的限制，人类很难对大规模、高维度的数据进行准确高效的提炼分析。当企业已经拥有充足的数据“原料”时，需要用AI辅助员工提升业务决策效率。

AI可以从业务专家、精英管理者的工作过程数据中学习总结出一套决策规则，并运用这套规则对大规模、高维度数据进行运算处理，给出算法意义上的最优决策和相应的数据依据，供企业决策者参考。在自然语言处理打破人机之间的交互障碍后，决策者接受AI的决策辅助，就像接受参谋人员建议一样便捷高效。这样的决策过程实现了真正意义上的数字化、智能化，解决了企业经验化决策的痼疾，让数据“原料”真正助力于实实在在的效率提升。例如，在选择营销对象时，AI模型可以基于产品生命周期、用户特征等方面的海量数据，快速筛选被激活与被转化程度高、符合营销活动目标的用户群体，并有针对性地推送个性化内容。

AI在辅助决策的过程中，也在为整个数字系统源源不断地补充数据“原料”。一方面，决策结果和成效会进入数字系统，对AI算法进行迭代升级。另一方面，如果决策过程中存在特殊要求或发生突发情况，决策者也能用自然语言便捷地进行反馈，优化AI算法。双管齐下加速业务飞轮。例如，AI根据大数据搭建业务数据预测模型，用于自动生成当前最优的库存管理计划，对于不符合实际业务及市场情况的部分，AI可以根据库存结果和人工决策调整计算逻辑，进一步提升供应链管理效率。

数据飞轮适应动态环境

第五步是数据飞轮适应动态环境，即飞轮自我进化。

AI驱动的数字系统可以根据员工对知识的访问频次、停留时间等指标，判断哪些知识之间更有可能存在关联，从而自动构建知识间的连接，作为知识定位的线索。这种自动生成的知识线索可以帮助员工打开认知边界，开辟舒适圈之外的未知道路。随着调用次数的不断增加，大模型中的知识关联将会越来越完善准确，并会随着问题的变化动态更新。

这种AI自动生成知识线索的方式类似短视频应用程序的算法推荐逻辑。通过记录并分析员工（用户）对知识（短视频）的访问行为，形成访问者的个人偏好标签，为其匹配并推荐可能感兴趣的内容。数字化系统中除了员工的个人标签，还会形成另一维度的任务标签。员工对知识的需要会随着任务的变化而动态变化，在AI大模型技术的支持下，相似或相关任务用到的知识会因为调用记录产生联系。系统通过二维标签对每位员工进行定位后，员工就能够随时收到来自AI助手的知识（或知识生产者）推荐。

在公域中，百度由跨模态大模型“知一”和新一代索引技术“千流”加持的生成式搜索系统，已经能够根据模型最新学习到的知识，对检索结果进行实时动态调整，确保把满足需求的结果高效呈现给用户。百度搜索的“AI伙伴”在回答用户问题的同时，也能提供用户可能感兴趣的词条推荐。

从另一角度来说，这种迭代更新在产生新知识线索的同时，也在对旧的知识线索进行评估。知识线索在业务决策中被调用的次数越多，或者在迭代中被更新的次数越多，说明这一线索的价值越高。如果人工建立的某一知识线索长期没有被调用，那么，就有必要重新检视这一线索的必要性，降低知识系统的运行成本。

总之，随着AI能力迅猛增长，企业不仅仅是被动地记录信息、数据、知识，而是主动地去经营。数据飞轮的核心思路就是企业主动经营数据要素。不断加快数据飞轮的转动速度，可以有效提高企业的经营效率，优化商业模式，大幅提升企业面对外部变化环境的探索能力。

王子阳：伟德bevictor中文版商业模式创新研究中心研究主管，西安交通大学管理学院副研究员

朱武祥：伟德bevictor中文版教授，伟德bevictor中文版商业模式创新研究中心主任

李浩然：伟德bevictor中文版博士生

阮申豪：伟德bevictor中文版机械工程学院本科生

责任编辑：朱晶

来源：《清华管理评论》2024年4月刊