社交语义数据提取与分析
立即解锁
发布时间: 2025-08-22 01:08:42 阅读量: 2 订阅数: 9 


计算机支持的协作学习与技术融合
# 社交语义数据提取与分析
## 1. 聊天的图形化表示
在聊天的图形化展示中,通过特定方式呈现丰富信息。使用红色线条表示通过特定方法推导得出的引用关系,而引入新话题的话语则用红色边框标记。该图形化表示具备缩放因子,既能让人细致观察对话细节,又能提供聊天的整体概览。借助复选框,可控制不同视觉元素的显示与隐藏,这些元素包括同一话题内的话语、引入新话题的话语以及话题间的关系等。
在对话图形的顶部,有一个特殊区域用于展示每个话语作为聊天声音在对话中的重要性,后续会详细介绍其确定方法。此外,点击代表话语的矩形,就能查看该话语的所有细节,如内容、隐式和显式引用等。
## 2. 对话图的构建
基于分析对话中的现有引用,包括聊天环境提供的显式引用以及程序通过特定方法确定的隐式引用,可以构建对话图。在这个图中,每个聊天话语是一个顶点,话语间的引用(显式或隐式)则构成边,最终得到一个特定于该对话的有向图。
由于只能引用之前的话语,不能引用未来的话语,所以对话图是一个无环有向图。基于话语及其引用关系构建的对话图,可用于确定每个话语作为独立声音的强度值,也有助于突出对话中的某些主题。
无环有向图的一个重要特性是可以进行拓扑排序,即对其顶点进行排序。在聊天场景中,话语(顶点)会根据其“说出”的时刻进行拓扑排序。
## 3. 话语强度值的确定
### 3.1 确定方法
话语在对话中的重要性可以通过多种方式计算。一种方式是根据话语长度和用词的正确性,即话语应包含尽可能多的关键(重要)词,这种方法在聊天总结中可能有用。但在社交场景下,另一种方法更合适:若一个话语能影响对话的后续发展,那么它就是重要的。基于此定义,重要的话语应是被尽可能多的后续话语引用的话语。
在当前情况下,采用了一种较为简化的方法,不考虑对该话语引用的类型。因此,话语的重要性可视为其强度值,若话语能影响对话的未来走向,就认为它是强话语,就像新闻领域的突发新闻一样。
### 3.2 计算过程
为计算每个话语的重要性,会沿着图的边的反方向,也就是按照话语输入时刻的逆序遍历图。没有被引用的话语(比如聊天的最后一个话语)会被赋予默认的重要性,设为单位 1。
然后,按引用的逆序遍历图,每个话语的重要性等于默认值加上引用该话语的所有话语重要性总和的一个配额(子单位)。另一种计算方式是 1 加上引用该话语的话语数量,但这种方式不太合适。或许更好的计算方式是 1 + 配额 1 * 引用者数量 + 配额 2 * 引用者重要性总和。
通过这种计算方法,能更轻松地突出那些引发重要对话、开启新话题或标志话题转换的话语。若能始终正确使用显式关系,并尽可能准确地确定隐式关系,那么这种计算话语重要性的方法将是成功的。
## 4. 基于图的对话主题分割
利用确定对话图中连通分量的算法,可以找出通过至少一种关系(隐式或显式)相连的话语。通常认为,这些相连的话语属于同一个讨论主题。
只有当正确使用显式引用,并尽可能精确地确定隐式关系时,这种方法才能成功找出对话线索。一般认为,重要的主题至少包含四个话语,这个最小话语数量应根据聊天长度进行参数化设置,但 4 个话语被视为最小值。对于每个确定的主题,会突出显示其中最频繁出现的概念(以同义词集列表形式呈现),这样每个主题就由该主题话语中最相关的概念来描述。
这种确定对话主题的方法会产生一些有趣的结果。例如,对话在某一时刻可能包含多个主题,参与者可能同时参与不同的话题。不同主题之间的交叉情况可以在聊天图形中清晰观察到,还能看到一些主题的开始和结束,以及重要主题的暂时搁置和后续继续。
## 5. 隐式声音的发现
### 5.1 隐式引用的必要性
每个聊天话语通常包含多个声音,包括当前声音和至少一个引用声音。在处理 ConcertChat 转录文件时,能识别出聊天参与者在对话中使用软件引用工具明确指出的声音。但由于用户可能匆忙或不够专注,部分话语没有显式引用,因此需要找到一种方法来发现话语中的隐式引用,以识别聊天话语间更多的关系。
### 5.2 发现方法
#### 5.2.1 模式匹配法
提出的方法类似于确定新聊天话题引入的方法。使用一个由一组单词(表达式)和一个称为被引用词的局部主题组成的模式列表。若识别出某个话语与其中一个模式匹配,首先确定该话语中哪个词是被引用词(例如“我不同意你的评估”中的“评估”),然后在预定数量的最近的先前话语中搜索这个词。若能在其中一个话语中找到该词,就发现了这两行之间的隐式关系,即当前话语引用了所识别的话语。
#### 5.2.2 经验方法
- **短同意或不同意话语法**:若一个话语包含简短的同意或不同意表述(去除无关词后最多包含一个词),且该话语没有显式引用,那么它很可能隐式引用了最近的先前话语。例如:
- A:我认为维基是最好的
- B:我不同意
- **三话语关系法*
0
0
复制全文
相关推荐










