数据挖掘与企业术语服务相关知识解析
立即解锁
发布时间: 2025-08-23 01:29:38 阅读量: 2 订阅数: 16 

# 数据挖掘与企业术语服务相关知识解析
## 1. 新兴模式(Emerging Patterns)
### 1.1 零抑制二进制决策图(ZBDD)
零抑制二进制决策图(ZBDD)是一种特殊的BDD,最初用于组合问题中的集合操作。在相关应用中,ZBDD用于压缩稀疏高维项集或数据,并允许重用过去的计算结果。与基于树的算法相比,该算法速度可快数百倍,能够成功地从具有数百(甚至数千)个属性的数据中挖掘新兴模式。
### 1.2 关键应用
新兴模式在捕获数据集或类之间的多维对比方面非常有用,其应用场景如下:
- **分类**:广泛应用于分类任务。
- **微阵列基因表达数据分析**:尤其在癌症研究中发挥重要作用。
- **发现新兴趋势**:通过比较两个时间间隔收集的数据集,发现时间数据库中的新兴趋势。
- **识别罕见事件**:能够识别罕见事件。
- **检测网络入侵**:可用于检测网络入侵。
## 2. 企业术语服务(Enterprise Terminology Services)
### 2.1 定义
企业术语服务指的是整个电子医疗记录系统的词汇创建、发布及支持流程的完整生命周期。支持流程可能包括质量保证、支持其他系统的搜索和检索以及互操作性映射等,同时也会涉及管理工作流和定期发布等支持系统。
### 2.2 历史背景
在构建生产级术语系统时,常常会遇到一些缺失的流程和系统组件。很多时候,人们几乎将所有注意力都放在术语和存储系统上,而术语工作流、发布控制、质量保证等子系统往往是事后才考虑添加的。实际上,术语系统本身应具备支持结构,如历史数据、元数据、发布数据和工作流数据等,以支持一个能被不同群体全面维护和使用的系统。
在术语系统中,工具可能很少甚至缺失,企业通常会使用现有的办公应用程序(如文字处理、电子表格等)来填补空白。但这往往导致作者、编辑和用户的工作流被“硬塞进”这些工具中,而不是让工具适应以实现最大的数据质量、效率和清晰度。核心术语系统和系统工具应被视为一个整体的企业术语系统,并根据用户的直接输入共同发展以满足用户需求。
数据导入和导出到其他内部企业系统,以及与行业标准和供应商(如SNOMED - CT、LOINC、ICD - 9/10、CPT、First Databank/Medispan等)进行导入和映射,也应被视为完整系统的基本组成部分。定期维护支持数据、其对企业术语的影响以及批准更改所需的质量保证,可能需要数小时到数月的工作。合理的规划和系统调整能够带来数倍的回报。
### 2.3 系统架构
企业术语服务的系统架构包含以下几个部分:
1. **核心术语数据库**:核心数据模型可以使用已有的模型,也可以自定义开发。
2. **支持元数据**:用于指示单个行的作者、最后更改信息、元数据注释、都柏林核心以及其他特定机构的信息。
3. **人工工作流**:提供术语请求、整体系统请求、临时项目和其他需要跟踪的项目任务的完整术语生命周期跟踪。
4. **质量保证/指标报告层**:提供对当前总体状态、历史吞吐量、发布状态和其他系统指标的洞察。
5. **数据交换层**:提供数据导入和导出到系统的服务,理想情况下支持HL7消息作为交换的一部分。
6. **集中知识库**:用于在创作组和最终用户之间共享信息。
### 2.4 案例研究与经验
多个组织的经验表明,尽管公司工作风格、创作团队和最终用户不同,但系统问题和组织挑战却惊人地相似。大多数情况下,问题源于为了快速建立一个可用系统而采取的权宜之计,以及在设计阶段或正常工作中发现缺失系统时“稍后添加”的理念。
值得注意的是,在大多数情况下,用户和管理人员会立即转向电子表格应用程序来填补系统功能的空白,但这往往会带来灾难性的后果。用户使用电子表格来管理小型项目、在将数据加载到创作系统之前进行数据暂存以及其他临时任务。虽然电子表格在使用上具有广泛的灵活性,但它们的使用常常会产生意想不到的副作用。例如,使用电子表格的团队会出现内部代码和外键因删除前导和尾随零以及小数位四舍五入而发生变化的情况。这些转换原本是为了辅助财务信息的创建,但对ICD - 9代码、外键映射以及其他需要将键视为不可变的场景会产生严重影响。
当创作组发现这些功能缺陷时,他们通常会尝试通过设置软件选项使其在组内标准化(禁用自动格式设置)、开发用户不应偏离的内部模板,甚至在电子表格的图形用户界面后面开发编程控制(如VBA等脚本语言)来使电子表格应用程序更加严格。然而,这种努力的投入方向是错误的,它会创建一个逐个部分构建的有机系统,导致系统脆弱且过于复杂。问题的根源在于没有使用适合任务的正确技术。
如果任务是为将数据加载到系统进行暂存,经验表明创建一个灵活的暂存模型和创作工具,在最终存储经过验证和确认的数据的同一系统中创建术语,可以集中信息,使多个人能够协作。此外,验证和确认的实际任务可以立即执行,使数据可在生产环境中使用。
当使用电子表格进行项目管理时,会出现多个版本的电子表格被分发、由多个人更新、通过电子邮件传递并以各种方式传播的情况,导致无法确定哪个电子表格是“真实”的来源。这同样是因为使用了不适合任务的工具。团队通常会使用项目管理工具,但这些工具往往只关注项目经理,导致只有一个用户监督一组任务。术语创作组通常需要了解活跃项目的总体进度,并且团队成员可能需要从集中的未完成工作池中自行分配单个项目进行分段工作。这些挑战非常适合使用人工工作流引擎,如Serena Software的TeamTrack或K2的工作流产品。这些系统能够创建集中、自动化的工作流输入、跟踪和报告,其工作流可以被建模以准确反映团队的工作方式。此外,使用这些系统可以使团队将注意力集中在改进工作流、提高效率和准确性、获得批准以及记录来自请求者和其他相关方的批准等方面。
一般来说,转向开源软件产品有助于填补流程空白。首先,它允许选择真正针对相关问题的软件工具。很多时候,软件的选择仅仅是因为它已经是团队库存的一部分。就像电子表格一样,它的使用可以适应解决手头的问题,但会导致团队工作流的改变、所需功能的缩减以及其他捷径。这些表面上权宜之计的决策的影响会在后期显现出来,并如前文所述导致后续的额外流程、捷径和错误。使用开源软件不仅可以找到需求与所需功能之间的紧密匹配,还可以通过修改或扩展代码库实现系统之间的紧密集成。这种解决方案通常更受IT和其他工程团队的欢迎,并开始形成一个完全集成的工作环境。同时,这种方式省去了正常的采购流程,批准通常只需要技术批准。
通过以计算可利用的方式正式标准化和表达编辑政策,可以带来许多好处。例如,表达术语字符串显示标准时,可以包括大小写规则、特定字符串的最大长度以及不同标点符号后的空格等,这些规则可以
0
0
复制全文
相关推荐









