目录
一首数据与二手数据的区别在于他们来源的直接性和处理方式的不同:
- 一手数据(Primary Data):直接获取的数据,没有经过加工或者第三方传递。这些数据可以通过多种方式收集,如传统调研中的问卷测评、小组访谈、面对面沟通,或者是互联网时代用户直接填写的个人信息数据以及平台的行为数据等。一首数据通常与收集者直接相关,如搭建网站、组织的获得、开展的调研等;
- 优点:针对性强、及时性和可信度更高、排除干扰因素;
- 缺点:成本高、易受误差影响
- 二手数据(Secondary Data):是指通过第三方或者现有的数据资料获取的数据。这些数据可能包括国家统计局数据、知名文献中罗列的数据等。二手数据相对于一手数据来说,来源渠道更加多样化,任何会产出数据相关信息的第三方机构都可以i作为来源渠道。二手数据成本较低,更容易获取,但是可用性可能不如一手数据。二手数据是一手数据采集的基础,为实地调查创造条件,使得师弟调查更准确、更可靠。
- 优点:收集速度快且成本低;客观性高和广泛性;时效性,反应历史或趋势研究价值;
- 缺点:相关性差;时效性不够;变量指标的契合性问题
主成分分析
主成分分析的计算步骤
主成分芬妮下是一种常见的数据降维方法,其计算步骤如下:
- 数据标准化:将原始数据进行标准化处理,使得每个变量的均值为0,方差为1;
- 计算样本协方差矩阵或相关数据矩阵:根据样本数据计算 协方差矩阵或相关系数矩阵;
- 特征值分解:对协方差矩阵或相关系数矩阵进行特征值分解,得到特征值和特征向量;
- 选择主成分:根据特征值大小,选择前k个主成分。通常选取的主成分个数k可以根据累计贡献率和特征值大小来确定;
- 计算主成分:将原始数据映射到主成分上,得到新的数据集合,每个变量对应一个主成分;
- 解释主成分:根据主成分的特征向量,解释每个主成分代表的意义,理解数据降维后的含义。
主成分分析的基础内容
主成分分析(Principal Component Analysis,PCA)的假设和模型设置如下:
假设:
- 假设变量之间存在线性关系
- 假设变量的方差不同
- 假设各变量之间不存在完全的共线性(即变量之间存在一定程度的独立性)
- 假设数据符合正太分布或接近正态分布
模型设置:
- 确定主成分的个数,通常通过特征值分析和累计方差贡献率分析来确定;
- 根据主成分个数,运用线性代数方法求解主成分;
- 利用主成分系数,计算每个样本在不同主成分上的得分;
- 分析主成分的解释,并对主成分进行旋转和解释;
需要注意的是,PCA是一种基于样本协方差矩阵的无监督学习方法,因此对数据的可信度和有效性有一定要求。同时,PCA的结果也需要经过科学的解释和分析,才能得到有意义的结论和应用。
适用于主成分分析的变量度量类型
-
定量变量(连续型):如身高、体重、收入等数值型变量
-
定量二元变量:如是否吸烟、是否结婚等二元型数值变量
-
定性变量(分类型):如性别、种族、婚姻状态等分类变量
-
定序变量:如受教育程度、职位级别等顺序型分类变量
因子分析模型
在因子分析模型中,需要设置以下几个参数:
- 因子数目:决定了模型中的因子个数,可以根据实际情况进行选择;
- 因子旋转方法:用于将因子旋转到一个更可解释的位置上,以便于进一步分析。常用的方法包括最大旋转法、斜交旋转法等;
- 因子载荷估计方法:用于估计每个变量与因子之间的关系。常用的方法包括主成分分析、最大似然方法、加权最小二乘法等;
- 原始数据处理方法:如果原始数据存在缺失值、异常值等问题,需要先进行数据清洗和预处理;
- 因子的命名和解释:根据因子的载荷和变量的含义,对因子进行命名和解释,以便于后续分析。
以上参数设置需要根据具体研究问题和数据特点进行调整和选择。
因子分析的变量度量类型
- 定距变量:如温度、时间等,可以进行加减运算,但没有绝对零点;
- 定比变量:如重量、长度等,具有绝对零点,可进行任何数据运算,包括乘除;
- 顺序变量:如评分、等级等,有顺序关系但没有固定的数值,通常可以将其转化为数值;
- 名义变量:如性别、国籍等,便是分类,通常可将其转化为虚拟变量。
回归学习模型
线性回归的综合应用
线性 回归是一种常见的机器学习算法,它可以被广泛应用于各种场景,如下:
- 房价预测:通过分析历史房价数据和房屋特征(如地理位置、房屋面积、房间数量等),可以建立一个线性回归模型来预测未来房价。
- 销售预测:通过分析历史销售数据和市场特征(例如经济情况、竞争对手数量和市场份额等),可以建立一个线性回归模型来预测未来销售额。
- 财务预测:通过分析历史财务数据和市场特征(例如利润率、销售额等),可以建立一个线性回归模型来预测未来的财务表现;
- 医疗预测:通过分析患者的个人信息、病史和检查结果数据,可以建立一个线性回归模型来预测患者的疾病风险和治疗效果等;
- 交通预测:通过分析历史交通数据和交通状况(例如拥堵程度、交通信号灯状况等),可以建立一个线性回归模型来预测未来交通情况,从而帮助规划交通路线和优化交通流量。
线性回归6个经典假设
-
线性模型假设:线性回归模型是基于假设因变量与自变量之间存在的线性关系的
-
不存在共线性(独立性)假设:自变量之间不存在高度相关性,即不存在共线性问题;
-
残差期望为0(无内生性)假设:模型的残差项的期望值为0,这意味着模型中的任何遗漏变量并不影响模型的预测能力,也就是说,没有内生性问题;
-
同方差假设:对于任何给定的自变量,残差的方差相等,即残差具有同方差性;
-
正态性假设:残差符合正太分布,即误差是随机的,不会呈现任何系统性的模式;
-
随机抽样假设:观测数据是从一个总体中随机抽取的,即每个观测值对于总体是独立的。
分类变量
- 查看分类变量的取值范围:分类变量通常包括不同的类别或者标签,需要先查看该变脸改的取值范围,以便后续分析;
- 统计每个分类变量的频数和频率:对于分类变量,我们需要了解每个类别的频数和频率,以衡量每个类别在样本中所占的比例。可以通过绘制频率分布表、柱状图等方式来展示;
- 进行分类变量的编码:在一些模型建立和分析中,需要使用分类变量进行分析,但是计算机往往不能直接处理分类变量,因此需要将其编码成数字形式。可以采用哑变量编码、标签编码等方法;
- 进行分类变量的特征工程:当变量为分类变量时,我们可以进行一些特征工程,例如对某些类别进行合并或删除,以提高变量的区分度和预测能力
- 分析分类变量与其他变量之间的关系:可以通过交叉分析、卡方检验等方法,来了解分类变量和其他变量之间的关系,进一步探查分类变量对预测目标的影响;
预测性建模和解释性建模的区别
-
预测性建模:通常是为了解决一个具体的问题或预测未来的趋势而创建的模型。例如,通过使用历史销售数据来预测未来的销售额,或使用股票价格数据来预测未来市场趋势。预测性建模的目标是创建一个高准确性的模型,以便可以做出最佳的预测决策;
-
解释性建模:理解模型中的关键因素和变量之间的互相作用。这种建模同工厂被用于研究学术或者科学问题,以及在政策制定和决策制定方面进行决策。解释性建模的目标是创建一个能够清楚的解释模型的结果和结论的模型,以便可以帮助人们更好的解释数据和现象。
虽然预测性建模和解释性建模有着不同的目标,但他们 之间存在一定的联系。预测性建模通常需要对数据进行深入分析,以了解数据中的模式和关系。这种分析通常需要使用解释性建模的方法来解释数据。同样,解释性建模通常需要将模型用于实际问题中,从而需要进行预测性建模来预测实际情况下的结果。
客户价值分析
基本步骤
- 定义研究目标:明确需要了解的问题和目标,例如客户需求、满意度、忠诚度等
- 确定研究方法:根据研究目标,选择适当的研究方法,例如调查问卷、深度访谈、焦点小组讨论等;
- 客户分群:将客户根据行为、偏好、价值等因素划分为不同的群体,以便更好的了解其需求和特点;
- 客户细分:在每个客户群体中进一步细分客户,如购买频率、消费金额、购买渠道等,以便更好的了解其需求和行为
- 进行调查分析:通过调查和分析客户数据,了解客户的需求、满意度、期望等,发现客户痛点和机会,提高客户价值提供依据;
- 制定客户价值策略:根据客户价值分析结果,制定相应的策略,如提高服务质量、增加产品分类、优化营销策略等,以提升客户价值。
分类分析
卡方检验计算公式
X² = Σ [ (Oi - Ei)² / Ei ]
其中, X²为卡方值; Oi为实际观察值; Ei为期望值,由样本数据计算而来; Σ为求和符号。
二分类逻辑回归的计算公式
hθ(x)=g(θTx)=1+e−θTx1
其中,hθ(x)表示预测的概率,g(z) 是逻辑函数(也称为sigmoid函数),x xx 是输入特征向量,θ \thetaθ 是模型参数向量。
聚类分析
聚类 算法是无监督学习中最常用的方法之一,它的目标是将数据集划分为若干个不同的组或簇。不同的聚类算法基于不同的假设和方法,因此具有不同的特点,以下是常见的聚类算法特点:
- K均值聚类:一种基于举例度量的聚类算法,通过将数据点分配到最近的k个簇中,来构建簇。该算法的优点是简单易懂,计算速度快,适用于大规模数据集。但是,该算法对初始簇中心的选择非常敏感,可能会收敛到局部最优解。
- 层次聚类:一种逐步合并或分裂簇的算法,形成一个层次结构。可以选择自底向上(聚合)或自顶向下(分裂)地构建层次结构。该算法地优点是可以生成不同地簇数,不需要预先制定聚类数,同时可以看到层次结构。但是,该算法对于大规模数据集地计算开销较大,同时合并或分裂决策可能会导致局部最优解。
- 密度聚类:一种基于样本间密度地聚类算法,通过寻找高密度区域来确认簇。该算法特别适合于处理具有不同密度和形状地簇。但是,该算法对于噪声和维数灾难地数据集容易出现偏差,但需要手动制定密度阈值和邻域大小等参数;
- 谱聚类:是一种基于图论地聚类算法,通过计算样本地拉普拉斯矩阵,将数据投影到低维空间,然后使用其他聚类方法来划分簇。该算法可以处理非线性可分地数据,且对噪声具有一定地鲁棒性。但是,该算法有较高地计算复杂度,并且需要进行特定地特征变换和簇数地选择
- DBSCAN聚类:一种基于密度的聚类算法,它通过将样本点分为核心点、边界点和噪声点,来确定簇。该算法可以自动确定簇的数量,且对噪声和密度变化敏感。但是,该算法对于高维数据和不同密度的数据集可能会失效,并且需要手动调整参数。
迭代的概念与实现
迭代是指重复 执行一定的操作来逐步接近所需要的结果的过程。在编程中,迭代通常用于处理数据集合中的每个元素,或在循环中重复执行某些操作。迭代的实现方式有很多种,以下是其中的几种常用的方式:
- For 循环:for循环是一种非常常见的迭代方式。for通常用于遍历数组、列表等数据结构中的每个元素,并对每个元素执行一定的操作。
- while循环:while循环也可以用来实现迭代。while循环通常用于在满足某个条件时重复执行的一些操作,直到条件不再满足;
- 迭代器:迭代器是一种用于遍历数据集合的对象。迭代器提供了next()方法,用于返回下一个元素,直到所有元素遍历完毕;
- 递归:递归是一种通过重复调用函数来实现迭代的方式。递归通常用于处理树形结构等复杂的数据结构,逐层遍历节点并对每个节点进行操作。
聚类方法的基本逻辑
聚类方法的基本逻辑是将数据集中的对象划分成多个类别或簇,使得同一类内的对象相似度尽可能高,不同类间的对象相似度尽可能低。聚类方法的目的是找到数据中的潜在结构模式和分类规律,以便对数据进行分析和应用。
相关题目及答案:
-
线性规划 的标准型要求等式约束方程右端的常数都是:B:非负
-
在解线性规划问题时,可能出现的情况不包括:可行域为空集、原问题有可行解
-
可行域为空集,原问题就没有可行解
-
-
依照决策变量取整要求的不同,整数规划的划分类型不包括以下:非纯整数规划
-
关于二次规划的问题说法错误的是:求解等式约束的二次规划问题,转化为求解线性方程组的问题后问题的维度不发生改变
-
整数规划,作为一种特殊的线性规划可以适用于多种运筹学和管理科学的场景,下列选项中,不适用的是:A:农产品企业在种植面积受限的情况下,分配多种蔬菜种植面积以使收益最大化
-
整数规划是要求决策变量必须取整数,面积是可以取非整数的
-
-
关于线性规划的标准型描述正确的是:所有决策变量都是非负的
-
关于单纯形法的说法正确的:单纯形法的核心是根据一定的规则,一步步寻找可行域中的最优解
-
只有线性规划问题的最优解存在时,才一定可以在可行域的顶点中找到
-
对偶单纯形法是使用对偶理论来求解线性规划问题的一种方法,而不是求解对偶问题
-
原单纯形法以高斯消去法为基础,并不是一种很经济的算法,故产生了改进单纯形法,在减少迭代累计误差的同时也提高了计算精度
-
-
在原因分析中鱼头在右侧是哪种类型因果图:原因型
-
当要素与特性值间不存在原因关系,而是结构构成关系时采用整理问题型鱼骨图。
-
鱼头在右侧的是原因型鱼骨图
-
鱼头在左的是对策型鱼骨图
-
整理问题型也是鱼头在左侧
-
-
根本原因分析中的5WHY分析法是从下列那几个层面实施:D以上都是:制造角度、检验角度、体系角度
-
头脑风暴因果图(鱼骨图)绘制过程中填上问题或现状的是在鱼的哪个部位:A:鱼尾
-
鱼骨图中:鱼尾填上问题或现状,鱼头代表了目标,脊椎就是达成过程的所有步骤与影响因素;
-
-
以下哪项不属于根因分析因果图的类型:D结果导向型
-
整理问题型鱼骨图
-
原因型鱼骨图
-
对策型鱼骨图
-
-
提问每个已识别的原因是否是一个症状,或者是低层次的原因,还是根本原因的应用属于头脑风暴的哪种方法:B五问法
-
对于定性数据的分析更适合使用根本原因的哪种识别工具:C亲和图;
-
定量分析:散点图、帕累托图、柱状图
-
-
在根因分析的头脑风暴法中,每位参与者轮流提出一个想法,确保平等参与的模式属于:A结构化的头脑风暴;自由提出想法属于 非结构化头脑风暴
-
根因分析是一项结构化的问题处理法,用以逐步找出问题的根本原因并加以解决,而不是仅仅关注问题的表征,根因分析的核心是:C根因识别
-
求解线性规划问题的最优解:D 0 ;带入法:x1,x2 都设置为0
-
某美容机构,2-5年一次,结果为重度伤害,属于:C 3
-
SAC是依据损害严重程度与事件发生频率为两周所呈现的风险矩阵
-
-
时间序列呈现出以年为周期长度的固定变动模式,这种模式年复一年的出现,我们称之为:B季节波动
-
循环波动指周期长度不定的变动模式
-
-
可以用趋势成分和季节成分序列的预测是:A Winter模型
-
Winter模型是同时含有平滑值(随机成分)和季节成分
-
Hot不含季节成分,
-
简单指数平滑模型:不含随机成分
-
-
对于非平稳时间序列来说,大部分场景下最好的让它编程平稳序列的方法是:C差分
-
影响事件序列的因素不包括以下:D有效性:有效性是评估计量用的
-
事件序列分析可以根据历史数据对未来进行预测,以下最常见的时间序列算法模型:C-ARMA
-
RSI:相对强弱指标,能够反应出市场在一定时期内的景气程度
-
MACD:称为异同移动平均线,代表着市场趋势的变化
-
KNN:(K-NearNeighbor)临近算法,属于分类算法,是数据挖掘分类技术中最简单的方法之一
-
ARMA:自回归滑动平均模型,是研究时间序列的重要方法
-
-
在系统聚类方法中,哪种系统聚类是直接利用了组内的离差平方和:C Ward法:基于方差分析的思想,如果分类正确,同类样品之间的理查平方和应当较小,类与类之间的离差平方和应当较大;
-
某公司为了更好的进行用户留存,需要建立用户行为画像,并且历史数据集中也没有用户标签信息,需要使用算法找出合理的画像标签,可以用:A 聚类算法,其他的都是有监督
-
对于K-Means算法,描述错误的是:C对异常值不敏感。K-Means需要计算均值和举例,非常容易收到异常值的影响
-
对于K-Means算法,描述正确的是:A 需要对数据进行标准化 。 K-Means需要计算均值和距离,非常容易受到量纲和异常值等影响,因此需要进行数据标准化
-
如果不考虑外部信息,聚类结构的优良性度量应该采用:B 均方差
-
关于忽略自相关可以带来的问题描述错误的是: D 参数估计值的最小方差无偏性仍成
-
关于回归与分类问题的讨论不正确的是:C:回归问题最常用的评价指标体系有混淆矩阵以及ROC曲线。 这都是用来描述分类问题的
-
在回归模型中,下列哪一项在权衡欠拟合和过拟合中影响最大:A 多项式阶数。多项式阶数的改变显著影响回归模型对于数据的拟合程度。
-
下列哪些指标不适合用来评估线性回归模型:A LIFT 。LIFT用来评估分类模型,不适用于线性回归
-
下列关于线性回归分析中的残差的假设说法正确的是:A 残差均值总是为零
-
以下不适合对线性回归模型进行评估的指标: B FI sore 。属于分类变量
-
假设在多元线性回归中,我们有了因变量Y与自变量X1,X2,X3.。。的N组观测值,则下列说法正确的是:B 用最小二乘法求解得到的多元线性回归朝平米那,可能有一个超平面也可能有无穷多个超平面
-
在多元线性回归中,下列哪项可以环节多重共线性问题:D 逐步回归。通过逐步剔除不显著变量的过程,环节多重共线性问题;
-
在多元线性回归模型中自变量的系数矩阵X为列满秩,则表名矩阵X的列向量之间是什么关系:C线性无关。系数矩阵每一列对应一个自变量,列满秩意味着自变量X之间的线性无关;
-
多元线性回归的正规方程组中系数矩阵X`X的阶数等于(p个变量,n个观测值): C-P 。P*P的矩阵
-
多元回归分析预测与一元线性回归预测的相同点是:C 预测步骤基本一样
-
R方度量了多元回归方程的拟合程度,以下关于R方的说法正确的是:D 为了避免增加自变量而高估R方,统计学家提出了调整R方
-
R方表示多元回归中的回归平方和占总平方和的比例
-
R方越大,表示多元回归方程的拟合程度越好
-
R方会随着模型中自变量数量的增加而增加
-
-
在回归分析中,回归系数的估计方法是:A 最小二乘法
-
如果回归分析中存在这多重共线性,下列说法错误的是:B 不会影响模型的预测结果
-
逻辑回归是用来解决分类问题的算法,逻辑回归系数代表的含义是:D 自变量对几率的对数的影响。几率(odds)指事件发生于不发生的概率的比值P/(1-p)
-
逻辑回归的输出概率在[0,1]的范围内,逻辑回归使用以下哪个函数来实现概率转换:A Sigmoid
-
逻辑回归中,若选0.5作为阈值区分正负样本,其决策平面是:A wx + b = 0
-
评价一元线性回归模型拟合程度时,主要根据 : B R2.虽然在医院线性回归中,R2=相关系数的平方,但是在评价模型拟合程度时仍然要使用R2。
-
对于一组数据,搭建了一个逻辑回归模型,则下列描述正确的是:D 模型的最优阈值需要根据数据结果结算。
-
线性回归模型的经典假设不包括:D 因变量的方差随自变量的不同而变化
-
因子分析技术有一定的计算步骤,以下不属于因子分析计算过程的步骤是:C 估计特殊因子得分。解释:特殊因子是没有泛用性但是又对结果又影响的因子,比如博彩中的运气;
-
关于因子分析,说法错误的是:C 使用因子分析前不需要对数据进行规范化。解释:因子分析需要计算协方差或相关系数,非常容易收到异常值等影响,因此需要先进性规范化。
-
因子分析是一种经典的统计分析方法,关于因子分析下列说法错误的是:D 因子分析的假设中没有规定特殊因子同公共因子的相关关系。解释:因子分析的假设包括:各个共同因子之间不相关,特殊因子之间也不 相关,共同因子和特殊因子之间也不相关。
-
关于因子分析的KMO检验说法错误的是:D 当所有变量间的简单相关系数平方和远远大于偏相关系数平方和时,KMO值越接近于0。解释:越接近1
-
关于主成分分析与因子分析的区别和联系说法正确的是:C 因子分析需要假设各个因子之间互不相关,特殊因子之间也不相关,公因子和特殊因子之间也不相关;但是主成分分析不需要任何假设。
-
对于主成分分析来说,主要关注的是:B 变量之间的相关性
-
主成分是常用的数据挖掘算法,下面对于主成分分析叙述错误的是:D 主成分分析设法将原来变量重新组合成一组新的,彼此相关的几个综合变量。
-
在实际应用中,关于主成分数量K的取值,下列说法错误的是:D 各个主成分之间的方向夹角需要尽可能地小。解释:各主成分之间地夹角是固定地,都是正交地
-
在实际应用中,若研究单个指标地方差对结果地影响,在做主成分分析的适合应该选择使用:A 协方差矩阵
-
主成分分析中,从第一主成分到最后一个主成分的方差具有的特征是:B依次递减 。解释:主成分的方差是协方差矩阵的特征值,统计软件会按从大到小的顺序排列。
-
线性回归模型 y= a+bx+e,中的e是:C 误差项 。e表示随机误差项
-
线性回归模型中的误差项的数据期望为:A 0 .解释,误差期望为0,方差为正态分布
-
根据模型假设,线性回归模型中误差项的方差为:A 常数
-
在业务上常常要分析两个变量之间的相关性并根据结果来制定后续的计划,度量两个连续变量的相关性时,常用以下哪个指标:A 皮尔逊相关系数。
-
两个连续变量使用皮尔逊相关
-
两个顺序性变量使用斯皮尔曼相关系数
-
一个连续,一个顺序变量使用肯德尔曼相关系数
-
-
关于相关分析中应注意的问题,说法错误的是:B 如果两变量间的相关系数为0,则说明二者独立。解释:两变量相关系数为0,只能说明两者不存在线性相关关系,无法确定二者是否存在非线性的相关关系。