作者:来自 Elastic Yuki Jiang
敦煌数字经藏中的古籍现在已实现在线全民可访问。敦煌研究院正式发布了数字经藏数据库,收录了超过 9,900 册敦煌文献和超过 60,700 张包含佛经、法律法规、合同、丝绸画等内容的图片。
借助 Elastic 和腾讯云 AI 搜索及大型语言模型( LLM )技术,古籍中的繁体中文和罕见字符被“唤醒”,变得可搜索、可翻译,不再晦涩难懂。
敦煌数字经藏将文明深入带入每个人的眼中。
重释敦煌:AI 让古籍变得易懂
过去,要阅读一卷敦煌古籍,需要翻阅拓片和注释。现在,有了 AI 的帮助,这些书籍可以在敦煌数字经藏中直接打开。
AI 摘要:10 秒掌握一万字文章精髓
理解古籍门槛很高。以《金刚经》为例,全文超过 5,000 字,竖排且为繁体中文。
但在 AI 技术的支持下,晦涩的佛经变得清晰易读。《金刚经》主页自动提取了白话文摘要:
“佛告须菩提,一切有为法,如梦幻泡影,不应执着于形相。菩萨应无我相、人相、众生相、寿者相,以无住心行布施,方能证得觉悟。真实的法无法用言语描述,唯有超越概念和分别,才能见到如来的本质。”
AI 智能总结《金刚经》的背景知识,介绍其历史地位、核心思想、结构特点和文化影响。
智能问答:AI 助手全天候在线回答问题
平台的 AI 助手每天 24 小时开放,用户随时可以提问古籍相关问题。AI 助手将陪伴你进入图书馆,回答千年前的知识。
几秒钟内,它能回答诸如 “经藏发现于哪一年?” 或 “《金刚经》有多少个字?” 这样的问题。经敦煌专家组测试,回答准确率高达 95%。
多语言翻译:支持中文、英文、法文和日文切换
平台还支持中文、英文、法文、日文等多种语言之间的翻译。在 AI 助手中,用户可以输入这四种语言中的任意一种,助手会用相同语言与你交流 —— 实现中文、英文、法文和日文无障碍切换。多一种语言,就多一条世界了解敦煌的路径。
AI 搜索:解读经文,理解古籍
从千年碎片到数字解读的转变,依托一套专为古籍定制的 AI 搜索技术。腾讯利用腾讯云 Elasticsearch Service( ES )和大型语言模型( LLM ),构建了检索增强生成( RAG )能力组合,快速准确地满足海量古籍信息的整理与搜索需求。
古文分词:让 AI 理解千年古语
分词是大规模数据实时检索的基础技术。通过将文本拆解成有语义意义的词元,确保 AI 系统能够有效解读和处理历史文献。
传统分词器难以处理文言文。例如,“佛在舍卫国祗树给孤独园” 这句话会被拆成单个字,导致人机都难以理解。
腾讯云 ES 团队通过开发古文分词器解决了这一难题。与敦煌专家合作,优化了复杂术语的分词规则,打造了一套专门针对敦煌手稿的系统。该系统将晦涩文本转化为机器可读的词元,优化了 AI 驱动的语义搜索。
像 “佛在舍卫国祗树给孤独园” 这样的短语,现在能被准确分词为“佛 / 在 / 舍卫国 / 祗树 / 给孤独园”,保留了上下文含义。
混合搜索:找到所有相关古籍
当你提问后,敦煌数字经藏会采用两种方式查找知识库中的相关文档。例如,你问 “《金刚经》讲什么?”,腾讯云 ES 会同时启动两种搜索:
-
关键词扫描(全文搜索):精准捕捉 “金刚经” 和 “须菩提” 等关键信息
-
语义雷达(向量搜索):将“《金刚经》讲什么?”理解为核心主题请求,自动找到类似的抽象概念,如 “破除执着” 和 “无住心” 等
经过分析和智能重排序后,最相关的文档会被找到并传递给大语言模型( LLM )以备后续使用。
LLM 集成:双模驱动更精准
腾讯云 ES 无缝集成了腾讯的混元大语言模型和 DeepSeek。
通过将用户查询与上下文文档结合,这些 LLM 生成精确回答。双模型架构提升了检索准确率,确保生成的答案既符合上下文又有事实依据。
未来,还有更多 “敦煌” 等待被温柔照亮。
腾讯云 Elasticsearch 服务:云原生一站式 AI 搜索服务
腾讯云 Elasticsearch 服务是一款云端一站式 AI 搜索与日志分析服务。通过与 Elastic 的战略合作,腾讯云 Elasticsearch 提供了 Elastic 的商业订阅服务。它具有高性能自主研发内核、一站式数据接入与索引管理、智能巡检和一键升级等优势,能高效帮助用户构建海量数据检索与分析服务。
该服务还支持无服务器模式,实现按需付费、自动弹性伸缩且完全免维护,大幅提升用户的云搜索体验。腾讯云 ES 助力敦煌项目实现数字经藏的全球上线,成功推动文化遗产的数字化和全球传播。
了解更多腾讯云 Elasticsearch 服务并开始免费试用。
本博文中提及的任何功能或特性,其发布与时间完全由 Elastic 自主决定。当前尚未发布的功能可能不会如期交付,甚至可能不会发布。
本文中可能使用或提及了第三方生成式 AI 工具,这些工具由各自所有者拥有和运营。Elastic 无法控制第三方工具,对其内容、运行或使用不承担责任,也不对因使用这些工具可能造成的任何损失或损害负责。使用 AI 工具处理个人、敏感或机密信息时请谨慎。你提交的数据可能被用于 AI 训练或其他用途,Elastic 不保证你提供的信息将被保密或安全存储。请在使用任何生成式 AI 工具前,熟悉其隐私政策和使用条款。
Elastic、Elasticsearch 及相关标志是 Elasticsearch N.V. 在美国及其他国家的商标、徽标或注册商标。文中提及的其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。