
《机器学习》
文章平均质量分 91
以周志华《机器学习》教材为主线,博客系列提供学习辅导。
人工干智能
IT行业的一头老黄牛!你说牛不牛!牛!
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
科普:PSI属于散度家族
最近发现一件很有趣的知识:PSI属于散度家族,其核心原理是通过分箱后的KL散度衡量两个分布的差异,是散度理论在变量分布稳定性分析中的具体应用。它利用对数差异和加权求和,量化实际分布与预期分布的漂移程度,是模型监控中检测数据分布变化的重要工具。原创 2025-04-15 09:57:13 · 1017 阅读 · 0 评论 -
科普:想想神经网络是参数模型还是非参数模型
多层感知机(Multilayer Perceptron, MLP)被归类为**非参数模型**(或更准确地说,**半参数模型**或**灵活参数模型**),这一分类的核心在于统计学习中对“参数模型”和“非参数模型”的定义差异,而非简单取决于是否存在可学习的权重参数。原创 2025-04-15 06:59:40 · 895 阅读 · 0 评论 -
科普:如何通过ROC曲线,确定二分类的“理论阈值”
在二分类问题中,已知预测概率(如逻辑回归、神经网络输出的概率值)时,阈值的选择直接影响分类结果(正/负样本判定)。到甲方做POC时,作为外部的技术人员并不懂它的业务,这时需要先从理论上给出阈值。ROC曲线上**切线与对角线(斜率1)平行的点**,是**约登指数最大的点**,也是几何上离对角线最远的“拐点”(切点)。原创 2025-04-14 22:56:32 · 981 阅读 · 0 评论 -
科普:关系图谱中的网络特征如何输入到模型中?
关系网络特征是以图的方式表达,而模型算法的输入是变量表达(离散的或连续的),那么,图谱表达的方式是否要转化为特征向量才能作为模型算法的输入?那又如何转化?将关系网络(图谱)转化为模型算法可处理的输入(如特征向量)通常是必要的,因为大多数传统机器学习模型(如线性回归、神经网络)无法直接处理图结构数据。原创 2025-04-11 10:26:33 · 981 阅读 · 0 评论 -
科普:“特征向量”是数学中的向量么?
机器学习中的特征向量也是由一组有序的数值组成,例如在一个预测某个人是否会购买某商品的模型中,特征向量可能是[年龄, 收入, 消费频率]等有序的数值组合,每个元素代表了被描述对象的一个特征,这与数学中用向量表示一个点或一个物理量等在本质上是一致的,都是通过一组有序数值来进行量化表示。但向量空间并不强制要求坐标轴为正交,只要满足向量空间的八条公理(包括加法交换律、加法结合律、存在零向量、存在负向量、数乘结合律、数乘分配律等),就可以定义为向量空间,坐标轴可以是任意线性无关的向量组。原创 2025-04-08 21:40:15 · 638 阅读 · 0 评论 -
科普:原始数据是特征向量么?
**原始数据不是特征向量**,需通过特征工程(清洗、转换、提取)生成模型可输入的数值型特征向量。 **特征维度无需强制正交**,仅在线性模型或降维场景下需要考虑正交性;对于LightGBM等树模型,特征相关性不影响模型效果,重点在于特征的预测能力,而非数学正交性。原创 2025-04-08 21:16:20 · 769 阅读 · 0 评论 -
大模型LLM:谎言重复一千遍就是真理
在大模型训练中,训练数据中重复出现错误或偏见信息,导致模型生成时倾向于这些内容。在大模型训练语境下,“谎言重复一千遍就是真理”这句话可从**数据分布、统计学习机制、认知偏差映射**三个维度理解,本质上反映了训练数据特性对模型输出的决定性影响原创 2025-04-08 08:50:21 · 836 阅读 · 0 评论 -
科普:GRU、LSTM及RNN
GRU(门控循环单元)、LSTM(长短期记忆网络)、RNN(循环神经网络)均为处理序列数据的神经网络模型,它们之间存在着紧密的联系与明显的差异。原创 2025-04-07 21:47:22 · 1294 阅读 · 0 评论 -
科普:GBDT与XGBoost比较
XGBoost是GBDT的“工程化增强版”,在保持Boosting核心思想的同时,通过数学优化(二阶导数、正则化)和工程优化(并行化、分布式)大幅提升了模型的效率和效果,成为当前结构化数据建模的首选工具。GBDT则作为基础算法,适合学习Boosting原理或小规模场景快速验证。实际应用中,XGBoost凭借其全面优势,已在绝大多数场景中取代传统GBDT。原创 2025-04-07 21:22:19 · 674 阅读 · 0 评论 -
科普:One-Class SVM和SVDD
SVM(支持向量机)算法是用于解决二分类问题的,它在样本空间(高维空间)中找一个最优超平面,使得两类数据点中离超平面最近的点(称为支持向量)到超平面的距离最大。对于极少数“坏样本”的二分类场景,我们可以换个思路:将所有样本视为一类(而不是二类),而将极少数“坏样本”视为这一类的异常。这样,用于二分类的SVM就可以改造为用于一分类的One-Class SVM和SVDD。原创 2025-04-03 07:53:12 · 1102 阅读 · 0 评论 -
科普:特征、规则、模型,及Lift(提升度)
*Lift**可评估规则和模型的效果,也可用于特征的分箱:通过特征分箱并计算每箱的Lift值,是一种常用的特征评价和筛选方法。原创 2025-03-26 21:32:29 · 1038 阅读 · 0 评论 -
科普:此“特征”非彼“特征”
机器学习中的特征工程是提升模型性能的关键环节,根据特征的生成方式和复杂度,可将其分为以下三个层次:从初级到高级,包括原始特征、业务公式生成的特征,以及算法生成的特征。原创 2025-03-26 22:19:40 · 565 阅读 · 0 评论 -
科普:处理样本不平衡的方法
处理样本不平衡问题的方法主要分为**数据层面**和**算法层面**两类原创 2025-03-22 12:05:31 · 825 阅读 · 0 评论 -
科普:特性工程干什么?
特征工程的核心目标是**通过数据预处理、特征构造和优化,提升模型的性能、可解释性和泛化能力**。原创 2025-03-20 09:00:21 · 360 阅读 · 0 评论 -
科普:评估特征对结果的贡献:SHAP值和IV值
SHAP(Shapley Additive exPlanations)和IV值(Information Value,信息价值)都是机器学习中用于评估特征对结果贡献的指标,但它们在原理、特点和应用场景等方面存在一些区别原创 2025-03-17 19:19:53 · 1480 阅读 · 0 评论 -
科普:WOE编码与One-Hot编码
WOE编码是业务逻辑与统计建模的结合,适合强业务导向的场景; One-Hot编码是数据驱动的特征工程,适合追求模型性能的场景。原创 2025-03-16 21:32:01 · 717 阅读 · 0 评论 -
科普:为何要对特征进行分箱?
分箱(Binning)是将连续型或离散型特征转化为区间型变量的过程,其核心目标是提升模型效果和解释性,原创 2025-03-16 21:52:22 · 705 阅读 · 0 评论 -
科普:ROC AUC与PR AUC
有一对是用面积AUC(Area Under the Curve)做评价的:**ROC AUC**与**PR AUC**本文我们对**ROC AUC**与**PR AUC**进行多维度对比分析原创 2025-02-28 22:19:25 · 1047 阅读 · 0 评论 -
评分卡模型(Scorecard Model)及其特征工程(分箱(Binning)和证据权重WOE)
评分卡模型是一种广泛应用于信用评分、风险管理、市场营销等领域的统计模型。它通过将客户的各项特征(如年龄、收入、信用历史等)转化为分数,最终汇总为一个总评分,用于评估客户的信用风险或其他行为倾向。评分卡模型(Scorecard Model)及其特征工程中常用到:分箱(Binning)和证据权重WOE(Weight of Evidence)。原创 2025-01-14 15:15:20 · 1535 阅读 · 0 评论 -
特征变量的信息值(Information Value, IV)及其它评估特征变量的重要性和区分能力的指标
特征变量的信息值(Information Value, IV)及其它评估一个特征变量的重要性和区分能力的指标,常用于特征工程,帮助判断某个特征是否适合用于模型构建。原创 2025-01-14 11:40:37 · 1325 阅读 · 0 评论 -
RFM分析技术
**RFM分析技术**是一种用于客户价值分析的营销工具,通过评估客户的购买行为来识别最有价值的客户。RFM代表三个关键指标。原创 2025-01-14 11:07:07 · 949 阅读 · 0 评论 -
核密度估计(Kernel Density Estimation, KDE)是一种非参数统计方法
核密度估计(Kernel Density Estimation, KDE)是一种非参数统计方法,用于估计随机变量的概率密度函数。它通过将每个数据点周围的核函数叠加,生成平滑的密度曲线。原创 2025-01-13 08:56:22 · 2976 阅读 · 0 评论 -
科普:没有量子计算机怎么办?模拟
:**量子近似优化算法(QAOA)可以在量子模拟器上运行**,即使没有实际的量子计算机硬件。量子模拟器是在经典计算机上运行的软件工具,能够模拟量子计算机的行为,包括量子比特的状态演化、量子门操作和量子测量等。原创 2025-01-11 14:42:41 · 831 阅读 · 0 评论 -
如何衡量专家评级和评分模型评级之间一致性或相关性?Spearman 秩相关系数(Spearman’s Rank Correlation Coefficient)
Spearman 秩相关系数是一种强大的工具,适用于衡量两个变量之间的单调关系,尤其在数据不满足线性或正态分布假设时。它的应用场景广泛,包括模型验证、性能评估、数据一致性分析、社会科学研究和生物医学研究等。通过使用 Spearman 秩相关系数,可以更全面地理解变量之间的关系,并为决策提供支持原创 2025-01-10 14:37:41 · 1500 阅读 · 0 评论 -
考考你——你能区分么:方差、样本方差、均方差
- **方差**:用于衡量单组数据的离散程度,反映数据点与均值的偏离。- **均方差**:用于衡量预测值与实际值的差异,反映预测模型的准确性。原创 2025-01-09 19:50:38 · 743 阅读 · 0 评论 -
高考成绩处理中,原始分如何得到汇总分(最终成绩)
在高考成绩处理中,原始分通常需要通过一定的转换方法得到汇总分(最终成绩),以便更公平地比较和评价考生的成绩,本文谈到的公式可用于指标评价原创 2025-01-09 10:29:24 · 1082 阅读 · 0 评论 -
“declarative data-parallel operators“与“MapReduce”
“Declarative data-parallel operators”与“MapReduce”在数据处理和并行计算领域具有不同的特点和适用场景。它们之间的关系是相辅相成、相互补充的,而不是相互替代的。在实际应用中,应根据具体的需求和场景选择合适的工具或方法。原创 2024-12-26 11:47:56 · 913 阅读 · 0 评论 -
考你:递推式与迭代式是一回事么?
递推式与迭代式各自具有独特的特点和适用场景,在解决问题时需要根据具体问题选择合适的算法思想。原创 2024-12-26 09:27:01 · 483 阅读 · 0 评论 -
收集一些词汇(不定期更新)
SOTA不仅仅是指单一的技术或算法,而是指在某一领域内,经过实践验证,被认为是最有效、最先进的解决方案。PPO旨在改进和简化以前的策略梯度算法,如TRPO(Trust Region Policy Optimization,信任域策略优化),它通过几个关键的技术创新提高了训练的稳定性和效率。PPO是一种用于训练代理的“on-policy”算法,它直接学习和更新当前策略,而不是从过去的经验中学习。ReFramework 是机器人流程自动化(RPA)领域中的一个常用框架原创 2024-12-14 15:19:13 · 190 阅读 · 0 评论 -
图计算之科普:BSP计算模型、Pregel计算模型、
BSP模型把并行计算抽象为多个模块,包括处理器集合、发送消息的全局通讯网络、各处理器间的路障同步机制。其并行计算的基本执行单元是超级步(Super Step)。一个BSP程序包含多个超级步,每个超级步由本地计算、全局通信和路障同步三个阶段组成。这三个阶段是严格串行的,即所有处理机本地计算结束后统一进行通讯过程,最后执行同步阶段。Subgraph-centric模型关注图中的子图结构,并以子图作为图计算的基本单位。这种模型允许开发者以子图为中心进行编程,从而更直观地处理和分析图数据。文中推荐了一些学习书藉。原创 2024-12-13 15:39:34 · 1572 阅读 · 0 评论 -
(《机器学习》完整版系列)第14章 概率图模型——14.3 条件随机场(链式CRF的条件概率)
联合概率可分解为条件概率的连乘,若每个因子都是同底的指数形式,则可转化为指数相加,由此引导我们对模型提出有利于计算的假设。通过团的分解及团上的势函数定义概率,而团的势可以定义成同底的指数形式。原创 2023-03-21 09:04:54 · 168 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第16章
周志华西瓜书《机器学习》习题提示——第16章原创 2023-07-24 15:51:31 · 351 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第15章
周志华西瓜书《机器学习》习题提示——第15章原创 2023-07-24 14:50:26 · 359 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第14章
周志华西瓜书《机器学习》习题提示——第14章原创 2023-07-24 13:12:14 · 577 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第13章
周志华西瓜书《机器学习》习题提示——第13章原创 2023-07-24 11:57:21 · 376 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第12章
周志华西瓜书《机器学习》习题提示——第12章原创 2023-07-23 18:06:27 · 417 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第11章
周志华西瓜书《机器学习》习题提示——第11章原创 2023-07-23 17:11:09 · 650 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第10章
周志华西瓜书《机器学习》习题提示——第10章原创 2023-07-23 16:09:50 · 662 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第9章
周志华西瓜书《机器学习》习题提示——第9章原创 2023-07-23 15:27:35 · 1492 阅读 · 0 评论 -
周志华西瓜书《机器学习》习题提示——第8章
周志华西瓜书《机器学习》习题提示——第8章原创 2023-07-23 11:48:43 · 1015 阅读 · 0 评论