
数据挖掘
文章平均质量分 80
dundunmm
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【每天一个知识点】降维方法
降维是数据预处理中的关键步骤,主要用于数据可视化、噪声减少、计算加速和降低过拟合风险。常见的降维方法包括主成分分析(PCA)、线性判别分析(LDA)、t-SNE和UMAP。PCA是一种原创 2025-05-21 13:27:50 · 725 阅读 · 0 评论 -
【数据集】乳腺癌数据集的基础分析与可视化
本文介绍了Breast Cancer Wisconsin数据集的初步分析过程。该数据集包含569条样本,30个数值型特征,目标分类为恶性肿瘤(0)和良性肿瘤(1)。通过加载数据并查看基本信息,发现良性样本较多。进一步分析目标变量分布、特征统计信息及特征间的相关性,发现多个特征之间存在高度相关性。通过箱线图展示主要特征与目标变量的关系,发现恶性肿瘤在多个维度上数值更大,分布差异明显。最后,通过PCA降维可视化,发现恶性和良性样本在二维分布图中大致可分,表明该数据集具有良好的分类边界。总结指出,该数据集特征相关原创 2025-05-21 11:49:59 · 766 阅读 · 0 评论 -
【每天一个知识点】embedding与representation
在机器学习和自然语言处理等领域,"Representation(表示)"和"Embedding(嵌入)"是两个密切相关但有所区别的概念。表示是将现实世界对象转换为机器可处理的数学形式,如向量或张量,可以是稀疏的(如one-hot编码)或稠密的,可以是手工设计的(如TF-IDF)或学习得到的(如BERT提取的句向量)。嵌入是表示的一种,特指通过模型学习从高维稀疏空间转换到低维稠密空间的向量表示,如Word2Vec生成的词向量或Node2Vec生成的节点嵌入。简而言之,所原创 2025-05-19 23:59:22 · 401 阅读 · 0 评论 -
【数据挖掘】FP-growth(Frequent Pattern Growth)算法
FP-growth(Frequent Pattern Growth)算法是一种高效挖掘频繁项集的算法,它避免了Apriori算法中繁重的候选集生成和多次数据库扫描的问题。原创 2025-05-07 08:00:00 · 636 阅读 · 0 评论 -
【数据挖掘】Apriori算法
频繁项集通过apriori()计算,保留支持度高的组合;关联规则通过生成,评估置信度、提升度等;可调整和控制挖掘深度。原创 2025-05-06 20:25:53 · 1302 阅读 · 0 评论 -
【论文阅读】scASDC: Attention Enhanced Structural Deep Clustering for Single-cell RNA-seq Data
单细胞RNA测序(scRNA-seq)数据分析对于理解细胞异质性具有关键意义。然而,scRNA-seq数据固有的高稀疏性和复杂噪声模式对传统聚类方法提出了严峻挑战。为应对这些问题,我们提出了一种深度聚类方法——注意力增强的结构化深度嵌入图聚类(scASDC),该方法融合了多个先进模块,以提升聚类的准确性与鲁棒性。本文方法采用多层图卷积网络(GCN),以捕捉细胞之间的高阶结构关系,构成图自编码器模块。原创 2025-04-21 22:18:57 · 1459 阅读 · 0 评论 -
【每天一个知识点】最小二乘法(Least Squares Method)
概念内容方法名称最小二乘法(Least Squares Method)核心思想最小化残差平方和应用场景线性回归、曲线拟合、信号处理数学形式最小化 ∑(yi−yi^)2\sum (y_i - \hat{y_i})^2Python 实现可用等。原创 2025-04-10 09:00:00 · 759 阅读 · 0 评论 -
【每日一个知识点】拟合(fitting)
拟合(fitting)用已有的数据,来训练一个模型,使它能尽可能准确地描述输入和输出之间的关系。通俗理解:我们就像画一条曲线/直线,让它尽可能贴近所有样本点,这就是在“拟合”。原创 2025-04-09 08:00:00 · 1212 阅读 · 0 评论 -
【数据挖掘】岭回归(Ridge Regression)和线性回归(Linear Regression)对比实验
步骤作用加载数据得到特征和标签建立模型使用岭回归拟合预测房价模型评估输出 R² 指数交叉验证比较岭回归与线性回归的表现随 alpha 变化的趋势可视化看不同 alpha 对 Ridge 的影响,并与线性回归对比。原创 2025-04-08 23:09:17 · 1352 阅读 · 0 评论 -
【论文阅读】Anchor Graph Network for Incomplete Multiview Clustering
近年来,不完全多视图聚类(IMVC)受到广泛关注。然而,现有研究仍然存在以下几个不足之处:1) 部分方法忽略了样本对在全局结构分布中的关联性;2) 许多方法计算成本较高,因此无法应用于大规模不完全数据的聚类任务;3) 部分方法未对二分图结构进行优化。为了解决上述问题,提出了一种新颖的 IMVC 锚图网络(Anchor Graph Network),该方法包括一个生成模型和一个相似性度量网络。具体而言,该方法利用生成模型构建二分图,从而挖掘样本对的潜在全局结构分布。原创 2025-04-02 21:52:38 · 1550 阅读 · 0 评论 -
【论文阅读】Self-Correcting Clustering
目标分布的引入显著提升了深度聚类的效果。然而,大多数相关的深度聚类方法存在两个主要缺陷:(1) 依赖人工设计的目标分布函数,性能存在不确定性;(2) 聚类错误分配的累积。为了解决这些问题,本文提出了一种自校正聚类(Self-CC)框架。在 Self-CC 中,设计了一种鲁棒目标分布求解器(RTDS),用于自动预测目标分布并缓解错误分配的影响。具体而言,RTDS 通过建模聚类模块的训练损失分布,将根据聚类分配结果选出的高置信度样本划分为具有正确伪标签的已标记样本和可能错误分配的未标记样本。原创 2025-04-01 11:33:16 · 1394 阅读 · 0 评论 -
论文阅读:Dual Anchor Graph Fuzzy Clustering for Multiview Data
多视角锚图聚类近年来成为一个重要的研究领域,催生了多个高效的方法。然而,当前的多视角锚图聚类方法仍然面临三个主要挑战。首先,现实世界数据通常表现出不确定性和较差的可辨识性,导致直接从原始数据提取的锚图质量较低,影响聚类效果。其次,大多数现有方法假设视角之间存在公共信息,并主要利用这些信息进行聚类,从而忽略了视角特有的信息。第三,如何进一步探索和利用所学习的锚图以提升聚类性能仍然是一个开放性问题。为了解决这些问题,本文提出了一种新的双锚图模糊聚类方法。原创 2025-03-31 23:46:19 · 1161 阅读 · 0 评论 -
多元数据(Multivariate Data) 和 多源数据(Multi-source Data)
多源数据是指数据来自多个不同的来源,可能是不同的数据库、传感器、文本、图像等。多元数据是指一个数据集中的每个样本都有多个变量,通常用于分析变量之间的关系。:客户数据包含年龄、职业、购买记录、索赔次数、车险保费等,这些变量构成一个。:信用评分数据集包含客户收入、还款历史、负债比率、信用卡消费额度等变量。通过数据融合,预测客户的健康风险、驾驶风险,从而个性化定价。:病人检查报告,包括身高、体重、血压、血糖等生理指标。:相关性分析、回归分析、主成分分析(PCA)。:决策树、随机森林、K-means 聚类等。原创 2025-03-27 23:52:53 · 1582 阅读 · 0 评论 -
多元数据(Multivariate Data)
例如,在保险行业的客户分析中,我们可能会收集客户的年龄、收入、购买记录、索赔次数等多个变量,这些数据构成了一个典型的。K-Means 聚类(K-Means Clustering):用于将客户分为不同群体(高净值客户 vs 普通客户)。包括统计分析(PCA、因子分析)、机器学习(回归、聚类)和时间序列分析(ARIMA、LSTM)。线性回归(Linear Regression):用于预测连续变量(如预测保险客户的年消费额)。:分析客户的年龄、职业、健康状况,评估其保险风险。原创 2025-03-27 23:51:10 · 790 阅读 · 0 评论 -
sample() 函数
sample()函数是 Pandas 中用于从 DataFrame 或 Series 中随机抽取样本的函数。你可以通过指定参数来控制抽样的方式。原创 2025-03-26 23:01:09 · 629 阅读 · 0 评论 -
精准画像(Fine-Grained Profiling)
精准画像是一种基于大数据、人工智能和机器学习技术的个性化建模方法,通过整合多源数据,深度挖掘个体或群体的特征,从而精准刻画用户(如学生、客户、员工等)的行为模式、兴趣偏好、能力水平及发展趋势。:精准画像依赖于多模态数据,如行为数据(点击、浏览、购买、学习记录)、生理数据(健康状态、脑电信号)、社交数据(朋友圈、互动行为)等。:基于精准画像,可应用强化学习(RL)和因果推断(Causal Inference)技术,为个体提供个性化的学习路径、健康干预方案、智能推荐服务等,提升用户体验和决策效率。原创 2025-03-24 23:32:40 · 849 阅读 · 0 评论 -
深度强化学习(Deep Reinforcement Learning, DRL)
深度强化学习(DRL)是强化学习(Reinforcement Learning, RL)与深度学习(Deep Learning)相结合的一种方法,能够在复杂环境中通过试错学习最优策略。它广泛应用于机器人控制、游戏 AI、个性化推荐、自主驾驶等领域。原创 2025-03-24 23:28:30 · 1710 阅读 · 0 评论 -
基于用户画像的推荐系统
推荐系统利用用户画像可以精准捕捉用户需求,提高推荐质量,解决数据稀疏、冷启动等问题。原创 2025-03-23 20:54:45 · 1074 阅读 · 0 评论 -
【论文阅读】Semantic Feature Graph Consistency with Contrastive Cluster Assignments for Multilingual Docum
多语言文档聚类(MDC)旨在基于主题类别对多语言文档进行无监督划分。然而,现有的MDC方法在实际任务中仍然存在诸多局限性。首先,大多数方法在同一特征空间内优化多个目标,从而导致学习一致共享语义与重构不一致的视图特定信息之间的冲突。其次,一些方法在融合阶段直接整合多语言文档的信息,从而忽略了不同语言特征之间的语义差异。为了解决上述问题,提出了一种新型多视图学习方法,称为,用于MDC任务。原创 2025-03-22 21:42:14 · 1192 阅读 · 0 评论 -
社区检测(Community Detection)
社区检测(Community Detection)是复杂网络分析中的一个重要研究领域,旨在发现网络中具有紧密连接的节点群组(称为。:NetworkX(基础算法)、igraph(高效实现)、Gephi(可视化)、Stellargraph(GNN)。:Louvain(模块度优化)、Infomap(信息论方法)、Leiden算法(改进版Louvain)。:发现用户兴趣圈子或好友群组(如Facebook、Twitter中的社区)。:调整社区检测的粒度(例如发现大社区还是小社区)。:社区结构随时间变化的跟踪与分析。原创 2025-03-22 08:00:00 · 543 阅读 · 0 评论 -
【论文阅读】Improving Image Contrastive Clustering Through Self-Learning Pairwise Constraints
本文提出了一种新型无监督对比聚类模型——基于自学习成对约束的图像对比聚类(ICC-SPC)。该模型通过将成对约束整合到对比聚类过程中,旨在增强图像数据的潜在表征学习并优化聚类效果。引入成对约束可有效降低对比学习中假阴性与假阳性的干扰,同时保持稳健的簇类区分能力。然而,在无监督场景下直接从无标签数据中获取先验成对约束极具挑战。为此,ICC-SPC设计了成对约束学习模块,通过挖掘潜在表征与聚类算法生成的伪标签之间的共识信息,自主推断数据样本间的成对约束关系。原创 2025-03-21 09:00:00 · 1147 阅读 · 2 评论 -
【论文阅读】Contrastive Clustering Learning for Multi-Behavior Recommendation
近年来,多行为推荐模型取得了显著成功。然而,许多模型未充分考虑不同行为之间的共性与差异性,以及目标行为的数据稀疏性问题。本文提出了一种基于对比聚类学习的全新多行为推荐模型(MBRCC)。具体而言,采用图卷积网络(GCN)分别获取用户和物品的嵌入表示。随后,设计了三种优化用户和物品嵌入的任务,包括行为级嵌入、实例级嵌入和聚类级嵌入。在行为级嵌入中,设计了一种自适应参数学习策略,以分析辅助行为对目标行为的影响,并通过对用户在各行为上的嵌入进行加权,获得最终的用户嵌入表示。原创 2025-03-20 12:58:43 · 1316 阅读 · 1 评论 -
联邦学习(Federated Learning)
联邦学习(Federated Learning, FL)是一种分布式机器学习技术,它允许多个参与方(如设备、机构或企业)在。(提升跨域泛化能力),推动AI在隐私保护下的协同发展。的方式,保护数据隐私的同时,实现跨数据源的联合建模。:联邦学习将进一步结合。(去中心化模型管理)、原创 2025-03-18 23:15:38 · 5434 阅读 · 0 评论 -
边缘计算(Edge Computing)
边缘计算是一种将数据处理和计算能力从云端下沉到网络边缘(靠近数据源头)的技术架构,旨在减少延迟、节省带宽、提升实时性和隐私保护。边缘计算(Edge Computing)是一种分布式计算范式,它在数据源(如物联网设备、传感器、摄像头等)附近处理和分析数据,而不是将所有数据传输到远程云端进行计算。这样可以减少延迟、降低带宽消耗,并提高数据安全性和实时性。——在终端设备(如传感器、摄像头)或边缘节点(如基站、本地服务器)上完成数据采集、分析和决策,仅将必要结果上传至云端。原创 2025-03-21 08:00:00 · 1635 阅读 · 0 评论 -
数字孪生(Digital Twin)
数字孪生(Digital Twin)是指创建物理实体或系统的虚拟模型,通过实时数据同步,使虚拟模型与物理对象保持一致,实现监测、分析和优化。它融合了物联网(IoT)、人工智能(AI)、数据分析和仿真技术,被广泛应用于制造、城市规划、交通、医疗等领域。数字孪生正从概念走向规模化应用,其价值在于打通物理与数字世界的闭环,推动各行业向智能化、可持续化转型。:动态、持续更新的实时镜像,能根据实际数据调整模型,支持长期监控与迭代优化。:创建心脏的数字孪生,模拟手术方案,降低风险。原创 2025-03-20 08:00:00 · 1118 阅读 · 0 评论 -
文本纠错(Text Correction)
基于千亿参数模型(如GPT-4、ERNIE 3.0)的少样本/零样本纠错。:输入法纠错、OCR后处理、教育辅助(作文批改)、社交媒体内容清洗等。:联合优化检测与修正(如GECToR、LaserTagger):包含错误的原始文本(如“我明天要去北京,希望天汽好。:修正后的规范文本(如“我明天要去北京,希望天气好。:避免过度修改正确内容(如“特朗普”误改为“川普”)。:结合语音、图像(OCR文本)等多模态信息提升鲁棒性。:修正需考虑长距离语义一致性(如代词指代)。:同音异字(如“天气”误写为“天汽”)原创 2025-03-19 08:00:00 · 1583 阅读 · 0 评论 -
【论文阅读】Deep Multiview Clustering by Pseudo-Label GuidedContrastive Learning and Dual Correlation Lea
深度多视图聚类(Deep Multiview Clustering, MVC)旨在通过人工设计的深度网络,学习并利用多视图间的丰富关联以提升聚类性能。对比学习准确性不足:当前深度对比MVC方法通常仅将跨视图的同一实例样本对作为正例,其余样本作为负例,这种策略易导致对比学习(Contrastive Learning, CL)产生误差;双重关联缺失:现有方法多仅关注跨视图特征或簇单一层面的关联,而未能充分挖掘两者的双重相关性。针对上述问题,本文提出一种基于伪标签引导对比学习与双重关联学习。原创 2025-03-17 23:41:19 · 1152 阅读 · 0 评论 -
【论文阅读】Cross-View Fusion for Multi-View Clustering
多视图聚类近年来备受关注,因其能够利用多视图的一致性与互补性信息提升聚类性能。然而,如何有效融合多视图信息并平衡其一致性与互补性,是多视图聚类面临的共性挑战。现有方法多聚焦于加权求和融合或拼接融合,但这些方式难以充分融合潜在信息,且未考虑多视图一致性与互补性的平衡。为此,本文提出一种跨视图融合多视图聚类方法(CFMVC)。具体而言,CFMVC结合深度神经网络与图卷积网络实现跨视图信息融合,充分融合多视图的特征信息与结构信息。为平衡多视图的一致性与互补性,CFMVC通过增强同类样本间的相关性以。原创 2025-03-16 21:30:54 · 976 阅读 · 0 评论 -
【人工智能】人工智能安全(AI Security)
人工智能安全是指保障人工智能系统免受各种攻击、滥用和错误操作的措施与技术。随着人工智能的广泛应用,AI的安全性问题变得越来越重要。AI安全不仅关注系统本身的稳定性与安全性,还涉及到如何确保AI的决策和行为是可预测、可靠、符合伦理标准的。AI安全涵盖多个领域,包括防止恶意攻击、确保数据隐私、实现透明与可解释性、以及避免AI模型的滥用。原创 2025-03-16 14:19:22 · 1191 阅读 · 0 评论 -
对比学习(Contrastive Learning)
对比学习(Contrastive Learning)是一种(Self-Supervised Learning)方法,其核心思想是通过的方式学习数据的潜在表示。它广泛用于无标签数据的特征提取,特别是在等任务中。对比学习通过,然后在嵌入空间(Embedding Space)中优化样本表示,使正样本更接近,负样本更远离。对比学习常使用对比损失函数(Contrastive Loss)来优化模型,使得相似样本的表示更加接近,不相似样本的表示更远。原创 2025-03-15 23:00:53 · 1175 阅读 · 0 评论 -
论文阅读:Deep multi-view clustering with diverse and discriminative feature learning
多视图聚类(MVC)在无监督学习中受到了广泛关注。然而,现有方法通常面临以下两个关键限制:(1) 许多方法依赖于融合所有视图的特征来识别聚类模式,这不可避免地降低了学习到的表示的区分性;(2) 现有方法主要关注挖掘不同视图之间的共同语义特征,而忽略了对表示多样性的促进。结果,它们未能充分利用视图间的互补信息,可能限制了表示学习的有效性。为了解决这些挑战,提出了一种新颖的、多样且可区分的特征学习框架——无融合的深度多视图聚类(DDMVC)。原创 2025-03-15 22:53:43 · 964 阅读 · 0 评论 -
【论文阅读】scCAT: Single-cell Combined graph Attentional clustering for scRNA-seq analysis
单细胞RNA测序(scRNA-seq)的出现彻底改变了单细胞水平的基因表达研究,使得能够研究细胞异质性并识别稀有细胞群体。深度聚类对于分析scRNA-seq数据集至关重要,它通过将细胞划分为子群体。然而,基因表达中的固有稀疏性和变异性对聚类准确性提出了挑战。为了解决这些问题,本文提出了一种新的无监督深度聚类方法——单细胞组合图注意力聚类(scCAT)。该方法设计了一个双分支联合降维(JDR)模块来学习基因表达。该策略在捕捉复杂的非线性关系的同时,保留了关键的方差,有效应对了单细胞数据的高维挑战。原创 2025-03-14 19:12:46 · 1229 阅读 · 0 评论 -
知识图谱与知识库
知识库通常聚焦于信息的存储和检索,内容较为静态,适用于存储大量的文本、规则和解决方案。知识图谱通过图结构表现实体及其关系,支持更丰富的语义推理与动态更新,适用于处理复杂的关系和推理任务。可以理解为,知识图谱是知识库的一种进化和扩展形式,它不仅关注知识的存储,还强调知识之间的语义关联和推理能力。原创 2025-03-15 07:00:00 · 932 阅读 · 0 评论 -
知识图谱(Knowledge Graph, KG)
知识图谱(Knowledge Graph, KG)是一种通过图的结构来表示和存储知识的模型,其核心特征是使用节点和边来表示实体及其之间的关系,利用图结构的特性进行推理和查询。知识图谱不仅仅是一个数据存储工具,它还可以通过推理和计算发现数据之间隐含的关系,支持更高级的智能应用。原创 2025-03-14 15:23:26 · 1101 阅读 · 0 评论 -
【机器学习】迁移学习(Transfer Learning)
迁移学习(Transfer Learning)作为一种机器学习方法,主要通过将源域中学到的知识迁移到目标域,解决目标域中数据不足或标注困难的问题,尤其在无监督学习如聚类任务中具有显著优势。迁移学习的关键思想包括领域适应、知识共享和避免负迁移。它通过不同方式将源域的学习成果迁移至目标域,从而提高目标域学习效果。原创 2025-03-13 19:49:44 · 1160 阅读 · 0 评论 -
【数据挖掘】KL散度(Kullback-Leibler Divergence, KLD)
KL 散度是一种衡量两个概率分布相似度的重要工具,在机器学习、深度学习、NLP 和数据压缩等多个领域有广泛应用。它是非对称的,且可以用交叉熵来表示,在变分推断、信息论和深度学习模型优化中至关重要。是衡量两个概率分布 P 和 Q之间差异的一种非对称度量。它用于描述当使用分布 Q 逼近真实分布 P 时,信息丢失的程度。因此,最小化 KL 散度等价于最小化交叉熵。原创 2025-03-12 22:24:54 · 1214 阅读 · 0 评论 -
【论文阅读】scSFCL:Deep clustering of scRNA-seq data with subspace feature confidence learning
单细胞RNA测序(scRNA-seq)技术的快速发展催生了多种单细胞聚类方法。这些方法结合统计学和生物信息学,揭示细胞间基因表达的差异及细胞类型的多样性。然而,由于scRNA-seq数据具有高维度、稀疏性和噪声等特点,对单细胞数据的深入探索仍然面临诸多挑战。区分性属性信息往往难以被充分利用,而传统聚类方法可能无法准确捕捉细胞类型的多样性。因此,本文提出了一种基于子空间特征置信度学习的scRNA-seq深度聚类方法(scSFCL)。原创 2025-03-12 21:52:23 · 1622 阅读 · 0 评论 -
协同聚类(Co-clustering):概念、算法与应用解析
与传统聚类方法(如 K-means)仅针对样本(行)或特征(列)进行独立聚类不同,协同聚类旨在发现。例如,在生物信息学中,协同聚类可用于发现某些基因在特定实验条件下具有相似的表达模式,从而揭示潜在的生物学机制。随着计算能力的提升和深度学习的融合,协同聚类的应用前景将更加广阔。:如用户-物品评分数据,协同聚类可提高模式发现能力。协同聚类是一种强大的数据分析方法,能够同时发现。:算法的效果依赖于适当的超参数选择。:数据中的异常值可能影响聚类质量。,即数据矩阵中的局部相关模式。,是一种同时对数据矩阵的。原创 2025-03-11 09:00:00 · 1644 阅读 · 0 评论 -
【论文阅读】Multi-view co-clustering with multi-similarity
多视图共聚类(Multi-view co-clustering)是一种同时对多视图数据的样本和特征两个维度进行聚类的方法,近年来受到广泛关注。其目标是利用多视图数据的双重性,以获得更优的聚类结果。然而,大多数现有的多视图共聚类算法仅考虑数据的样本-特征信息,而忽略了样本-样本、特征-特征信息,因此无法充分挖掘数据中潜在的信息。为此,本文提出了一种基于多重相似性的多视图共聚类方法。特别地,在谱聚类的基础上,我们提出了一种构造图的方法,以提升聚类性能,使其不再局限于样本与特征之间的相关性。原创 2025-03-11 08:00:00 · 1784 阅读 · 0 评论 -
【人工智能】知识蒸馏与大模型
是一种模型压缩技术,通过将大模型(教师模型)中学到的知识传递给小模型(学生模型),从而使小模型在性能上接近大模型,同时保持较低的计算复杂度和参数量。这项技术可以有效地优化深度学习模型,特别是在处理计算资源有限的设备上时,可以减少模型的体积,提高推理速度。通常指的是拥有大量参数和复杂结构的深度学习模型,例如 GPT 系列、BERT 等自然语言处理模型,或者用于图像识别的深度卷积神经网络。大模型通过训练大量的数据,能够捕捉更为复杂的特征,提供更高的预测精度。原创 2025-03-10 13:36:52 · 889 阅读 · 0 评论