一、AI时代知识为什么很重要
在今年的各类AI应用中,Gemini的Deep Research(pro版本)和Manus无疑是最让我惊艳的。它们的出现,仿佛标志着AI已然迈入能够自主思考、独立执行任务的阶段,相信用过这些产品的朋友,都会有相同的感慨。
但值得注意的是,这些AI也存在一些局限。
若细致审视,会发现它们的不足并不少:比如执行失败率相对较高;有时规划路径明明是正确的,最终结果却没能达到预期。而对我来说,最突出的问题是Deep Research在规划时,无法理解企业特有的业务流程。这就导致它给出的很多结果虽然质量不错,却与实际业务毫不相干。尤其是当企业自身的知识难以用寥寥数语说清楚时,再智能的AI也无法理解这些专属的企业知识。
因此不难得出结论:在真正的企业AI应用场景中,知识库是不可或缺的。这就好比聘请了一位国际高级咨询师,倘若对方在完全不了解公司业务和相关知识的情况下,开了三天闭门会,即便过程让你感觉如沐春风,最终也可能毫无实际价值。
二、什么是知识
既然提到了知识库,那么我们首先来探究一下什么是知识。我们可以参考维基百科和百度百科的解释:
知识是对某个主题“认知”与“识别”的行为藉以确信的认识,并且这些认识拥有潜在的能力为特定目的而使用 —— 维基百科
知识指人类在实践中认识世界的成果 —— 百度百科
百度百科的解释较为简练,维基百科则提到了知识的“主题”属性以及“使用潜力”。由此可见,面向主题和具备使用潜力,应该是知识的重要特性。
另外,在现实生活中,我们常常难以区分数据、信息和知识。若要明确什么是知识,有一个1980年之前提出的著名认知架构——DIKW金字塔。它认为,数据是最基础的层面,其上是信息,再往上是知识,最顶端则是智慧。
不过,我个人更认同前喜茶和百果园的CIO沈欣老师的定义(作者在文字描述上做了修改,内容基本一致):知识是一种可验证、显性的经验模型。同时,知识的层次可以划分为数据—>信息—>经验—>知识。将知识定义为一种可验证且显性的模型,更有利于现代计算机及AI系统去理解和运行。关于数据、信息、经验和知识之间的关系与递进,可用下图准确诠释。
图1:沈欣老师给出的数据、信息、经验和知识的递进关系
上图对数据、信息、经验和知识作出了完整定义,具体如下:
- 数据:是反映客观事实的数字、符号或记录。
- 信息:指经过整理、归类或分析的数据,被赋予了意义和目的。
- 经验:属于技能或认知范畴,通常依赖个人或组织的积累。
- 知识:是可验证的业务模型,能够指导决策和行动。
图中还有一个生动的例子,用于阐述这四者之间的区别,大家可以自行阅读。其中,有一句话给我留下了极为深刻的印象:经验属于个人隐形认知,而知识是显性化的、可复用的体系单元。
在AI的企业落地实践中,就算力和大模型的使用而言,在一定程度上是“众生平等”的,当然,这里说的是推理环节。然而,在如何用好AI这件事上,我们最需要的是让知识发挥作用,而最难的也正是知识的转化与积累。
正如上图所表达的,当发现用户频繁点击某款运动鞋的详情页却没有下单时,巧妙地给用户发放一张优惠券以促使成交,并且将原本属于运营人员的个人经验进行模型化,让AI能够直接使用,这才是真正完成了知识转化。
在企业内部,类似的例子不胜枚举。例如:
- 面对各种不同条件,有经验的造价师计算价格的方式,其实就是一种知识模型;
- 金融行业在进行风险识别与判断时,除了依托大数据,各类知识模型也发挥着重要作用;
- HR在初筛阶段根据用人需求挑选合适简历的方法,同样是一种知识模型。
这样的例子在各行各业都存在。其实,彼得·德鲁克在《为成果而管理》一书的第三章中就明确指出,企业的关键资源只有两类:一类是知识,另一类是资金。并且,该书第七章专门讲到了知识即企业,他还超前地预测,终有一天,人力终将被机器取代,知识在企业运转过程中的重要性将愈发凸显。未来,企业竞争的关键点就在于我们的知识质量有多高。
关于知识是什么,以及知识在企业业务中的重要性,就先讲到这里。接下来,我们看看如何让知识在AI中发挥作用。
三、如何让知识在AI中发挥作用
要让知识在AI时代发挥作用,并非易事,它需要具备一定的科学性和系统化能力。这一过程可以分为三个部分来阐述:
- 知识构建:探讨如何将企业中的数据、信息和经验转化为知识。
- 知识应用:研究如何利用AI来运用知识。
- 知识运营:思考如何保持AI知识系统的可用性。
我们日常接触到的各类信息,更多聚焦的应该是第二部分——知识应用。但实际上,作为一个真正的企业级知识库,必须同时兼顾这三个部分,否则只能沦为玩具。下面,我就来详细分享这三部分的内容。
图2:AI企业级知识库的三大组成部分
3.1 知识构建
在企业里,知识通常分散在多个地方,像OA系统、传统知识库、网盘、员工个人电脑以及各类结构化数据库等。要是不能把这些知识聚集起来并加以组织,企业就很难真正成为知识驱动且富有效率的组织,而知识构建的任务就是要完成这件事。
知识构建大致分为几个步骤,分别是知识导入、知识加工,以及如何将数据和文档转化为知识。下面我们将一步步了解知识构建的具体过程。
在很多传统的书本和论文中,提到的知识构建基本都与知识图谱相关,比如常见的RDF(资源描述框架)。不过,关于如何利用知识图谱构建知识以及如何进行知识双链等内容,我们会在后面的文章中再做探讨。今天,我们先从一些相对简单的内容讲起。
3.1.1 知识导入
知识的来源有很多,相信阅读这篇文章的你对此并不陌生,主要包括以下几类:
- 本地文件:企业内部电脑中存在大量本地文件,常见格式有Word、Excel、PPT、PDF、TXT和图片等,此外还有视频、CAD等特殊格式。
- 原有系统:企业原有的各类数据和知识系统,涵盖传统知识库、文档管理系统、OA、数据库,以及钉钉、飞书、企业微信等更综合的办公软件。
- 外部知识:对于现代企业而言,从互联网获取相应知识内容变得越来越重要,因此知识库的知识导入必须支持外部知识的导入。
- 其他:还有各类纸质版知识,这些需要通过扫描或人工录入的方式,才能被机器使用。
知识导入的工作主要包括两个方面:一是为本地文件的批量上传提供入口;二是通过API对接等方式,实现原有系统内数据和知识的自动化导入。
图3:知识导入触发条件
一般可以用三种方式实现知识导入的自动化触发:
- Webhook:接受指定的触发事件时开始知识导入/抽取,如原有系统有新建文档产生;
- 定时触发:相对机械化的定期任务设置,如每天固定时间/每小时/每分钟等;
- 定时触发(高级):可自定义的定时任务,如使用Cron表达式等。
3.1.2 知识加工
如果说知识导入决定了入库知识的数据量和时效性,那么知识加工则很大程度上决定了入库知识的质量。
知识加工和数据ETL过程是类似的,也同样包含抽取(Extract)、转化(Transform)和加载(Load)等过程,目的是为了让知识具备更强的可表示性、可用性和关联性。在TorchV AIS和TorchV KBS的知识加工环节,我们会使用流程编排来完成以下一些知识加工过程:
- 内容抽取:按一定的逻辑结构抽取目标文档中的内容,包括文本直接提取、表格解析提取等,TorchV的产品还支持.doc文本和表格的提取(现已开源,欢迎关注:https://github.com/torchv/torchv-unstructured);
- 处理算子:在知识加工的流程编排中增加数据脱敏、内容赋权、ASR、摘要等处理算子,以及增加条件分支、循环、条件筛选等逻辑控制算子;
- 知识清洗:和数据清洗不太一样的是,知识清洗更多是将内容转化为Markdown,并去除一些标记语言,如HTML的EL;
- 知识丰富:包括知识打标、添加上下文辅助、知识双链和知识合并等。
知识加工与知识导入的自动化结合,将大大提升知识入库的效率和质量。
图4:知识加工流程编排
3.1.3 如何将文档转化为知识?
终于到了最难的问题,当然也是最有价值的问题。
我们和一些头部企业交流的过程中发现,图1中的数据、信息的使用,如果不考虑效果的情况下,对他们来说都已经实现了,我们可以狭义地认为就是使用RAG对文档和数据进行检索和生成。但是在企业实际业务中,大家还是希望能再进一步,能让AI实现更高阶的知识价值,如实现图1中经验和知识的使用。
从实际价值来说,从数据、文档中获取知识,把专家的个人经验和集体的经验转化为显性的知识,可以为企业带来很多好处,包括:
- 知识传承:大型组织中,老员工的退休,会带走大批宝贵个人经验。如何将这些个人经验转化为显性的知识,做好知识传承,对于企业留住知识非常关键。
- 业务智能化:类似图1中的电商场景,有效的知识应用可以让AI系统处理有经验的运营人员才能做的事物,让业务处理越来越智能。
- 其他:企业中知识的应用不胜枚举,这里不再扩展,包括新闻事件的关联影响分析对金融行业的帮助,以及工程造价环节中成本估算和工程参数判断等诸多场景,都不是简单的文本RAG就可以解决的,而是需要将个人或集体的经验变成机器可以应用的知识,才能实现更高的AI和知识应用的价值。
如何将数据、信息和文档转化为知识是有一些科学方法的,目前我们用的方法是基于SECI模型,下面简单介绍一下该方法,更多内容会在后续TorchV的AI知识库产品中体现。
SECI模型介绍
SECI模型是在1985年由*野中裕次郎(Ikujiro Nonaka)和竹内弘高(Hirotaka Takeuchi)*两位日本学者提出来的,内容包括知识产生的四个过程和各自产生的场(Ba),这里我们不介绍场的概念,有兴趣的朋友可自己研究。下面介绍一下SECI的四个阶段:
- 社会化(Socialization):它是一个通过共享经历建立隐性知识的过程,而获取隐性知识的关键是通过观察、模仿和实践。这是知识的隐性到隐性过程;
- 外在化(Externalization):它是一个将隐性知识用显性化的概念和语言清晰表达的过程,其转化手法有隐喻、类比、概念和模型等。这是一个隐性到显性的过程;
- 组合化(Combination):它是一个通过各种媒体产生的语言或数字符号,将各种显性概念组合化和系统化的过程,多种有效知识找到关联,产生更大的作用的过程。这是一个将显性知识和显性知识组合产生更大作用的过程;
- 内化(Internalization):它是一个将显性知识形象化和具体化的过程,通过“汇总组合”产生新的显性知识被组织人们吸收、消化,并升华成他们自己的隐性知识,应用到工作中并接收反馈。这是一个从显性知识到人人内化为行动的过程。
SECI模型实例
为了更清晰地理解SECI模型,我举一个现实中的例子(可能存在逻辑漏洞,但已尽力完善),具体如下:
1. 社会化过程
假设当今社会没有天气预报。某天,老李和老刘在小区门口看到天边黑云密布,老李说自己昨天看到黑云后出门,十几分钟就被淋成了落汤鸡。老刘表示自己也遇到过几次类似情况,随后围过来的老陈、老王等人也纷纷称有过相同经历。大家通过充分交流,共享了关于“黑云压城要下雨”的隐性知识,并达成了共识,这就是社会化过程。
2. 外在化过程
没过多久,很有文化的大刘将这个共识编成了一句类似谚语的话:“红云变黑云,马上大雨淋”。这句话逐渐流传开来,变得妇孺皆知,原本的隐性知识被转化为显性知识,这就是外在化过程。
3. 组合化过程
开杂货铺的老吕发现,突然下雨时雨伞往往供不应求。于是他联想到“黑云出现会下雨”的常识,想到如果天边黑云增多,就把雨伞从店内搬到门口,这样能增加销量。通过将不同知识关联组合,产生了更具应用价值的新知识,这就是知识的组合化过程。
4. 内化过程
最后,老吕在收银机上贴了一张卡片,上面写着:“窗外黑云越来越多,就把雨伞搬到店门口”。这张卡片成为了店里的员工操作指南,无论哪个班次的员工看到,都会按照卡片上的指示去做,并且逐渐形成了习惯。组合知识由此被内化为每个员工的习惯,这就是内化过程。
从实例看人类社会知识构建逻辑
从这个例子中,我们可以发现人类社会构建知识的路径:
- 首先,通过交流发现共识(社会化);
- 接着,将共识转化为可供传播和教学的常识(外在化);
- 然后,将常识与其他知识关联组合,形成对业务有帮助的组合知识(组合化);
- 最后,将组合知识转化为最佳实践等标准作业程序(SOP)(内化)。
SECI作为80年代出现的知识构建模型,当然有时代局限性,特别是在计算机、互联网和AI还未大面积普及的时候。其缺陷主要是:
- 无法为企业带来一套有效的知识构建方法,更多存在于理论研究和发现层面;
- 缺少更广泛和更新的知识,比如当代大模型中包含的知识,以及借助互联网获得的知识等;
- 其最后内后的结果更多是作用于人,但人才流动是当今社会的常态,我们更需要把知识沉淀在企业内部的系统中。
SECI模型在TorchV知识库的实现
但是在AI时代,这些缺陷是可以被弥补的。下面我们来看看TorchV的AI企业知识库是怎么实现SECI过程的,当然这里只做简单分享。
- 社会化:TorchV知识库可通过知识加工获取权限内的内容,包括会议纪要、群聊天内容、日报周报 ,以及企业自身的传统知识库和OA等,在这些内容中发现传播度/讨论度较高的内容,进行共识提取,形成企业内的潜在知识;
- 外在化:TorchV知识库通过潜在知识提炼,形成内部的一个个知识主题,具体的表现形式是应用空间(知识空间),参考图5;
- 知识组合:应用空间的主要作用就是在知识仓库的基础上引用/复制更贴合主题的知识,比如从多个部门的知识仓库中引用关于贷款审批辅助的知识,打破了部门墙,为某一应用主题形成了组合型的知识;
- 内化:知识空间与在其之上构建的智能体进行结合,形成了一个可以被智能触发而处理或分析业务的AI应用。这时候知识就不仅仅只存在于人脑里了。
图5:TorchV的AI企业知识库的知识构建过程。
当然,这里面有很多具体的技术细节,包括大模型在其中发挥的作用,资源描述框架(RDF)和标签属性图(LPG)在不同场景起到的知识组织和串联作用,以及依然需要人的动作来形成整个闭环等。比如AI专家访谈,可以将AI自动整理的知识存在多种潜在可能性的时候,对人类专家发起邀约,通过具体项目过程的复盘补充和固化这些知识。这些在后面的文章,或者TorchV新版本企业知识库产品正式发布的时候再做进一步说明吧。
3.2 知识应用
由于在3.1中篇幅没有控制好,所以在知识应用章节我不想讲太多,只想分享一下应用形态。
知识库作为AI系统中的底层组件,可以通过API被任何应用所接入,如我们的很多客户会在TorchV知识库上面对接dify,所以从应用形态上来说其实被没有明显约束。但AI知识库也有一些非常契合的自带应用,适用于绝大多数企业客户的使用。TorchV对于知识库的默认AI应用可分为三类:帮我找、帮我写以及帮我做。
图6:三种AI应用形态,帮我找、帮我写、帮我做。
帮我找的形态相对比较简单,主要还是Chatbot,包括实时交互的RAG问答,以及异步的Deep Research。
帮我写主要是基于在线编辑器,包括常见的合同、标书、会议纪要、邮件等的编写,其特点是已经连接了写这些文档内容所需要的知识,很多时候只需一键生成即可。如图7所示。
图7:编辑通过企业知识库的AI应用写日报周报。
帮我做则更多是操作类型的,比如请假、预约会议室等。界面是双栏模式,左侧带有界面,有一些操作在有界面的情况下更方便,下图是预约会议室的界面。
图8:帮我做的会议室预约。
3.3 知识运营
知识库的状态与人体有相似之处:人体每天会产生大量自由基,若缺乏有效的清除机制,人会立刻生病;知识库也是如此,每天有新文档和新知识不断涌入,极易产生内部噪声,进而影响知识检索的准确性和使用效果。
关于知识运营的具体内容,将在后续文章中详细阐述,本文仅介绍其主要手段:
知识降噪:定期检查重复文档和冲突文档,发现后推送给知识管理人员处理。这一操作主要针对重要知识,不建议由AI自动解决知识的重复或冲突问题。不过,当企业内部已建立成熟的知识管理制度且积累了丰富处理经验后,也可让AI直接自动处理此类问题。
知识刷新:
- 一类是知识自动刷新,即当明确新知识可替代老知识时,利用AI自动替换,并更新原有文档在系统中的各类链接及被引用情况。
- 另一类是知识状态的更新,例如在项目计划中替换项目经理人选等。
- 最后一类针对具备时效性的知识,若有更新内容或已过保鲜期,需将其转为冷知识。
四、总结
为什么AI在toB侧的应用常常让人感到失望?我们可以听听合作过的客户怎么说。
我们与不少处于AI应用第一梯队的客户进行了深度交流与合作,他们认为,以建设为导向推进应用、将应用作为目标,这本身没错。但AI企业知识库才是根基,是企业真正需要下大力气夯实的部分。关键在于如何从企业自身的业务资料中提炼出知识,并让这些知识能被AI所用。
他们觉得,应用环节其实不应由厂商操心,因为不同企业和岗位的业务存在独特差异,只有企业自身最了解业务,也最清楚如何设计应用才能真正发挥价值。企业可以通过外包驻场开发,或使用Dify等工具进行工作流编排来解决应用问题。
而AI企业知识库才是他们真正需要我们这类产品技术型厂商提供帮助的地方。因为它涉及一整套融合了理论知识、最佳实践、系统化方案及技术难题的综合产品,确实无法依靠企业自身能力或普通外包人员解决。并且,AI企业知识库恰恰决定了企业AI应用能否达到预期要求。
在AI时代,企业的竞争力不再仅仅取决于谁的模型更大,还取决于谁能更好地掌控知识。
五、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。