仅基于numpy等python基础库实现机器学习经典算法.zip_机器学习基本算法python，numpy实现资源-CSDN下载

共1个文件

py：1个

版权申诉

107 浏览量 2024-02-15 16:24:02 上传评论 1 收藏 2KB ZIP 举报

在Python编程环境中，Numpy是科学计算的核心库，它提供了高效多维数据处理和矩阵运算的能力。本项目实践“仅基于numpy等python基础库实现机器学习经典算法”旨在通过使用Python的基础库，如Numpy、Pandas等，来实现一些机器学习中最基本且重要的算法，这对于理解这些算法的工作原理非常有帮助。下面我们将详细探讨如何利用这些基础库来构建机器学习模型。 1. **线性回归**：线性回归是最简单的预测模型之一，用于找出两个或多个变量之间的线性关系。在Numpy中，我们可以创建一个线性模型的类，实现拟合数据、计算损失函数和梯度下降等方法。矩阵运算使线性代数操作变得简洁高效。 2. **逻辑回归**：逻辑回归是一种分类算法，常用于二分类问题。尽管名字中有“回归”，但实际上是分类模型。通过sigmoid函数将线性回归的结果转换为0-1概率值。Numpy中的矩阵运算使得梯度下降优化变得更加便捷。 3. **决策树**：决策树是一种非参数算法，适用于分类和回归任务。虽然决策树的构建通常涉及更复杂的库如Scikit-Learn，但通过递归分割数据集和计算信息增益，我们仍然可以使用Numpy实现基础版本。 4. **随机森林**：随机森林是多个决策树的集成，通过集成学习提高预测性能。每个决策树使用随机样本和特征子集进行训练，最后通过投票或平均得出结果。尽管Numpy不是首选工具，但理解其在单个决策树中的作用有助于构建整个森林。 5. **支持向量机（SVM）**：SVM是一种有效的二分类模型，通过构造最大间隔超平面进行分类。在Numpy中，我们需要计算核函数，如高斯核或多项式核，然后解决一个凸优化问题来找到最优超平面。 6. **K-近邻（KNN）**：KNN是一种懒惰学习算法，用于分类和回归。在Numpy中，我们可以存储训练数据，然后在测试时计算新样本与所有训练样本的距离，选取最近的K个点作为类别预测。 7. **朴素贝叶斯**：朴素贝叶斯是一种基于贝叶斯定理的分类算法，假设特征之间相互独立。在Numpy中，我们可以计算先验概率和条件概率，然后使用贝叶斯公式进行预测。 8. **聚类**：例如K-Means算法，用于无监督学习中的数据分组。通过迭代更新质心和分配样本到最近的簇，Numpy使得数据的欧氏距离计算和簇的更新变得简单。 9. **主成分分析（PCA）**：PCA是一种降维技术，通过旋转数据找到主要成分。在Numpy中，我们可以通过计算协方差矩阵和特征值来实现。通过以上介绍，我们可以看出，尽管高级库如Scikit-Learn提供了封装好的机器学习算法，但了解如何仅依赖Python基础库实现这些算法，能帮助我们深入理解算法内部工作机理，对机器学习的实践和研究大有裨益。在实际项目“人工智能-项目实践-机器学习”中，这样的实现方式对于初学者来说，既具有挑战性，也极具价值。

资源推荐

资源详情

资源评论

收起资源包目录

仅基于numpy等python基础库实现机器学习经典算法.zip （1个子文件）

ML_classic_algorithms_python_code-main

Linear Regression

LR.py 6KB

import numpy as np class LR(object): def __init__(self,fit_intercept=True): ''' :param fit_intercept: 是否加入截距项，如果加入，需要对X第一列拼接上全1向量 ''' self.beta = None #线性回归参数 self.fit_intercept = fit_intercept def fit(self, X, y): ''' :param X: 样本矩阵，shape=[n_sample, n_feature] :param y: shape=[n_sample,1] :return: ''' #当有截距项，需要在X左侧加上全1值 if self.fit_intercept: X = np.hstack((np.ones_like(y.reshape((-1,1))), X)) ##判断(XTX)是否可逆 n_sample = X.shape[0] n_feature = X.shape[1] #当特征数量大于样本数量显然不可逆，因为XTX的shape是[n_feature,n_feature] if n_feature > n_sample: is_inv = False #进一步判断行列式 elif np.linalg.det(np.matmul(X.T, X)) == 0: is_inv = False else: is_inv = True #当可逆 if is_inv: self.beta = np.linalg.inv(X.T.dot(X)).dot(X.T).dot(y) #当不可逆 else: u,s,vt = np.linalg.svd(X) #SVD分解,注意这里的s是向量，表示奇异值， # 后续进行矩阵乘法需要转成矩阵 #还有一个坑！这里的v是vT，而不是v，后续要进行转置 if len(np.nonzero(s)[0]) == X.shape[0]: sigma_inv_vector = 1 / s #奇异值倒数向量 else:#当出现0奇异值，1/s会报错 n_nonzero = len(np.nonzero(s)[0]) s_nonzero = s[:n_nonzero] s_inv = 1 / s #对角阵的伪逆 zeros = np.zeros((n_feature - len(s_inv))) sigma_inv_vector = np.hstack((s_inv,zeros)) ##奇异值倒数向量sigma_inv_vector转成矩阵sigma_inv sigma_inv_diag = np.diag(sigma_inv_vector) #sigma_inv的对角部分 if X.shape[0] == X.shape[1]: #当sigma方阵 sigma_inv = sigma_inv_diag elif X.shape[0] > X.shape[1]: #当sigma是竖的矩形 sigma_zeros = np.zeros((X.shape[1],(X.shape[0] - X.shape[1]))) sigma_inv = np.hstack((sigma_inv_diag, sigma_zeros)) else:#当sigma是横的矩形 sigma_zeros = np.zeros(((X.shape[1] - X.shape[0]),X.shape[0])) sigma_inv = np.vstack((sigma_inv_diag, sigma_zeros)) self.beta = vt.T @ sigma_inv @ u.T @ y self.beta = self.beta.reshape((-1,1)) def predict(self, X): ''' :param X: 测试集，shape=[n_sample, n_feature] :return: y_predict,shape=[n_sample,1] ''' if X.shape[1] != self.beta.shape[0]: X = np.hstack((np.ones((X.shape[0], 1)), X)) y_predict = X.dot(self.beta) return y_predict def cal_mse(y_predict, y_true): assert y_predict.ndim == y_true.ndim, 'y_predict和y_true需要维度相同' return np.mean((y_predict - y_true) ** 2) if __name__ == '__main__': from sklearn.datasets import make_regression from sklearn.model_selection import train_test_split print('=====实验1：可逆情形=====') #实验1：可逆的XTX X,y, coef = make_regression(n_samples=100, n_features=10, n_informative=10, coef=True, random_state=2022) X_train,X_test,y_train,y_test = train_test_split(X,y,random_state=2022) print('=====My Linear Regression=====') #实现的LR lr = LR(fit_intercept=True) lr.fit(X_train,y_train) y_train_predict = lr.predict(X_train) y_test_predict = lr.predict(X_test) ##计算训练集MSE，测试集MSE print('MSE in training set:%.4f'%(cal_mse(y_train_predict, y_train.reshape((-1,1))))) print('MSE in testing set:%.4f' % (cal_mse(y_test_predict, y_test.reshape((-1,1))))) #sklearn的LR from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error lr_sk = LinearRegression() lr_sk.fit(X_train,y_train) y_train_predict_sk = lr_sk.predict(X_train) y_test_predict_sk = lr_sk.predict(X_test) print('=====Sklearn Linear Regression=====') ##计算训练集MSE，测试集MSE print('MSE in training set:%.4f'%(mean_squared_error(y_train, y_train_predict_sk))) print('MSE in testing set:%.4f' % (mean_squared_error(y_test, y_test_predict_sk))) print('=====实验2：不可逆情形=====') # 实验2：不可逆的XTX X, y, coef = make_regression(n_samples=10, n_features=100, n_informative=100, coef=True, random_state=2022) X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=2022) # 实现的LR lr = LR(fit_intercept=True) lr.fit(X_train, y_train) y_train_predict = lr.predict(X_train) y_test_predict = lr.predict(X_test) print('=====My Linear Regression=====') ##计算训练集MSE，测试集MSE print('MSE in training set:%.4f' % (cal_mse(y_train_predict, y_train.reshape((-1, 1))))) print('MSE in testing set:%.4f' % (cal_mse(y_test_predict, y_test.reshape((-1, 1))))) # sklearn的LR from sklearn.linear_model import LinearRegression from sklearn.metrics import mean_squared_error lr_sk = LinearRegression() lr_sk.fit(X_train, y_train) y_train_predict_sk = lr_sk.predict(X_train) y_test_predict_sk = lr_sk.predict(X_test) print('=====Sklearn Linear Regression=====') ##计算训练集MSE，测试集MSE print('MSE in training set:%.4f' % (mean_squared_error(y_train, y_train_predict_sk))) print('MSE in testing set:%.4f' % (mean_squared_error(y_test, y_test_predict_sk))) print('SVD的解是当OLS解不唯一时，最小二范数解') print('SVD LR coef 2-norm:%.4f'%np.linalg.norm(lr.beta)) print('sklearn LR coef 2-norm:%.4f' % np.linalg.norm(np.hstack((lr_sk.coef_, lr_sk.intercept_))))

评论收藏

内容反馈

版权申诉