Elastic 和腾讯云 AI 搜索技术让敦煌数字经藏对所有人开放

作者:来自 Elastic Yuki Jiang

敦煌数字经藏中的古籍现在已实现在线全民可访问。敦煌研究院正式发布了数字经藏数据库,收录了超过 9,900 册敦煌文献和超过 60,700 张包含佛经、法律法规、合同、丝绸画等内容的图片。

借助 Elastic 和腾讯云 AI 搜索及大型语言模型( LLM )技术,古籍中的繁体中文和罕见字符被“唤醒”,变得可搜索、可翻译,不再晦涩难懂。

敦煌数字经藏将文明深入带入每个人的眼中。

重释敦煌:AI 让古籍变得易懂

过去,要阅读一卷敦煌古籍,需要翻阅拓片和注释。现在,有了 AI 的帮助,这些书籍可以在敦煌数字经藏中直接打开。

AI 摘要:10 秒掌握一万字文章精髓

理解古籍门槛很高。以《金刚经》为例,全文超过 5,000 字,竖排且为繁体中文。

但在 AI 技术的支持下,晦涩的佛经变得清晰易读。《金刚经》主页自动提取了白话文摘要:

“佛告须菩提,一切有为法,如梦幻泡影,不应执着于形相。菩萨应无我相、人相、众生相、寿者相,以无住心行布施,方能证得觉悟。真实的法无法用言语描述,唯有超越概念和分别,才能见到如来的本质。”

AI 智能总结《金刚经》的背景知识,介绍其历史地位、核心思想、结构特点和文化影响。

智能问答:AI 助手全天候在线回答问题

平台的 AI 助手每天 24 小时开放,用户随时可以提问古籍相关问题。AI 助手将陪伴你进入图书馆,回答千年前的知识。

几秒钟内,它能回答诸如 “经藏发现于哪一年?” 或 “《金刚经》有多少个字?” 这样的问题。经敦煌专家组测试,回答准确率高达 95%。

多语言翻译:支持中文、英文、法文和日文切换

平台还支持中文、英文、法文、日文等多种语言之间的翻译。在 AI 助手中,用户可以输入这四种语言中的任意一种,助手会用相同语言与你交流 —— 实现中文、英文、法文和日文无障碍切换。多一种语言,就多一条世界了解敦煌的路径。

AI 搜索:解读经文,理解古籍

从千年碎片到数字解读的转变,依托一套专为古籍定制的 AI 搜索技术。腾讯利用腾讯云 Elasticsearch Service( ES )和大型语言模型( LLM ),构建了检索增强生成( RAG )能力组合,快速准确地满足海量古籍信息的整理与搜索需求。

古文分词:让 AI 理解千年古语

分词是大规模数据实时检索的基础技术。通过将文本拆解成有语义意义的词元,确保 AI 系统能够有效解读和处理历史文献。

传统分词器难以处理文言文。例如,“佛在舍卫国祗树给孤独园” 这句话会被拆成单个字,导致人机都难以理解。

腾讯云 ES 团队通过开发古文分词器解决了这一难题。与敦煌专家合作,优化了复杂术语的分词规则,打造了一套专门针对敦煌手稿的系统。该系统将晦涩文本转化为机器可读的词元,优化了 AI 驱动的语义搜索。

像 “佛在舍卫国祗树给孤独园” 这样的短语,现在能被准确分词为“佛 / 在 / 舍卫国 / 祗树 / 给孤独园”,保留了上下文含义。

混合搜索:找到所有相关古籍

当你提问后,敦煌数字经藏会采用两种方式查找知识库中的相关文档。例如,你问 “《金刚经》讲什么?”,腾讯云 ES 会同时启动两种搜索:

  • 关键词扫描(全文搜索):精准捕捉 “金刚经” 和 “须菩提” 等关键信息

  • 语义雷达(向量搜索):将“《金刚经》讲什么?”理解为核心主题请求,自动找到类似的抽象概念,如 “破除执着” 和 “无住心” 等

经过分析和智能重排序后,最相关的文档会被找到并传递给大语言模型( LLM )以备后续使用。

LLM 集成:双模驱动更精准

腾讯云 ES 无缝集成了腾讯的混元大语言模型和 DeepSeek。

通过将用户查询与上下文文档结合,这些 LLM 生成精确回答。双模型架构提升了检索准确率,确保生成的答案既符合上下文又有事实依据。

未来,还有更多 “敦煌” 等待被温柔照亮。

腾讯云 Elasticsearch 服务:云原生一站式 AI 搜索服务

腾讯云 Elasticsearch 服务是一款云端一站式 AI 搜索与日志分析服务。通过与 Elastic 的战略合作,腾讯云 Elasticsearch 提供了 Elastic 的商业订阅服务。它具有高性能自主研发内核、一站式数据接入与索引管理、智能巡检和一键升级等优势,能高效帮助用户构建海量数据检索与分析服务。

该服务还支持无服务器模式,实现按需付费、自动弹性伸缩且完全免维护,大幅提升用户的云搜索体验。腾讯云 ES 助力敦煌项目实现数字经藏的全球上线,成功推动文化遗产的数字化和全球传播。

了解更多腾讯云 Elasticsearch 服务并开始免费试用

本博文中提及的任何功能或特性,其发布与时间完全由 Elastic 自主决定。当前尚未发布的功能可能不会如期交付,甚至可能不会发布。

本文中可能使用或提及了第三方生成式 AI 工具,这些工具由各自所有者拥有和运营。Elastic 无法控制第三方工具,对其内容、运行或使用不承担责任,也不对因使用这些工具可能造成的任何损失或损害负责。使用 AI 工具处理个人、敏感或机密信息时请谨慎。你提交的数据可能被用于 AI 训练或其他用途,Elastic 不保证你提供的信息将被保密或安全存储。请在使用任何生成式 AI 工具前,熟悉其隐私政策和使用条款。

Elastic、Elasticsearch 及相关标志是 Elasticsearch N.V. 在美国及其他国家的商标、徽标或注册商标。文中提及的其他公司和产品名称均为其各自所有者的商标、徽标或注册商标。

原文:Elastic and Tencent Cloud AI search technology make Dunhuang Digital Scripture Cave accessible to everyone | Elastic Blog

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值