利用维基百科挖掘多媒体内容中的语义
1. 引言
如今,组织面临着信息过载的问题,需要有效组织和存储内容,并能在需要时轻松检索。目标是构建一个基于维基百科语义的内容索引和检索系统。由于搜索任务中术语的高度专业性,检索所需内容可能颇具挑战。
我们致力于解决访问不同类型的非结构化或半结构化信息源的问题,借助维基百科等公共资源提供的语义。利用特定方法,我们希望实现对语料库的自动标注,并发现标注之间的关系。随后,结合标注和文本信息检索来确定搜索上下文,进而提供搜索建议和进行查询扩展。
在电子学习环境中,尤其是增强型流式视频讲座,会结合使用多种非结构化或半结构化信息源。电子学习在内容分类方面与商业场景有诸多相似问题,因其信息量庞大且特定信息在不同上下文中的相关性各异。目标存储库收集了多种媒体(视频、音频、演示幻灯片、文本文档),可进行组合搜索和展示。
目前多媒体索引和导航的五种先进方法如下:
1. 使用元数据浏览关键帧。
2. 利用语音文本,进行基于转录的搜索。
3. 关键帧匹配与图像查询。提取关键帧作为镜头代表用于检索,需要用户通过浏览或其他搜索定位图像/其他关键帧。
4. 使用语义特征。基于对视频或关键帧的预处理来检测特征,特征可与本体相关。
5. 使用视频/图像对象作为查询。
我们主要关注第2点,并部分涉及第3点,采用语音转文本技术,结合对语音和事件相关材料的文本分析,使用维基百科而非本体。
2. 网络中的语义
网络上已有一些包含语义标注的数据集合,且越来越多的网页内容正朝着语义化方向发展。然而,仍有大量材料未应用这些技术。语义网技术推广的一个限制因素是