
数据分析和挖掘学习笔记
文章平均质量分 54
学习Python过程中,整理一些与Python相关的知识点,包括与其相关的一些库
翻滚的小@强
毕业于某985高校,计算机技术专业,研究方向是数据挖掘和时空序列预测,在学校学习过一些机器学习和深度学习的皮毛,入门过推荐系统,计算机视觉以及NLP和大数据等领域,目前在做大数据分析和挖掘相关的工作, 对人工智能,大数据等各种前沿计算机技术以及其他领域的新事物都特别感兴趣,一直奔跑在学习的路上, 欢迎伙伴们一块学习, 一起交流呀......
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas读取CSV的时候报错文件不存在的经验小记
1. 写在前面这篇文章非常短,主要是记录下遇到的一个常见报错FileNotFoundError: [Errno 2] No such file or directory: ‘data/dataset.csv’, 虽然说这个报错的原因比较简单, 就是在当前的路径下面找不到这个文件, 但是有时候,我却不知道怎么解决,明明当前目录下有这个文件了, 为啥还说找不到? 找到哪里去了呢?我这次的场景是这样: pycharm里面建立项目rec_pro, 在里面有个data目录,这里面有dataset.csv文件。然原创 2021-06-29 13:00:58 · 38665 阅读 · 6 评论 -
Numpy的reshape和广播机制的原理大揭秘
1. 写在前面python的全栈学习进入了python数据分析部分, 这里依然是涉及到了numpy, pandas,matplotlib各种包的的学习使用, 由于之前已经整理过这三个, 这次就是一个查缺补漏的环节, 因为我发现有很多的细节并没有get到, 也有很多好用的函数之前没有注意到, 所以借着这次的python全栈学习对之前学习的知识进行复盘的同时,也会整理一些遗漏的地方。关于numpy, pandas, matplotlib的遗漏的基础知识, 相应的在快速入门的那三篇里面进行补充, 最后面会放上原创 2020-08-01 08:14:50 · 2421 阅读 · 2 评论 -
pandas的stack, unstack, melt, 和pivot函数的学习总结
1. 写在前面今天总结一下pandas的四个函数, stack, unstack, melt和pivot, 这四个函数再处理DataFrame结构的时候, 非常常用, 也非常好用, 具体的就来看一下。pd.stack()和pd.unstack()这两个方法在数据分析的时候也是非常常用, 网上的文档说这是行转列,列转行的方法,但是具体转的时候,还是不知道转过来会是什么样子,或者有了需求也不会用,所以在这里,记录一下我对这两个方法的理解。方法原型: 通过 ?pd.DataFrame.unstack/st原创 2020-09-27 10:47:06 · 4813 阅读 · 3 评论 -
安利一个缺失值填充的包fancyimpute
1. 写在前面这两天看比赛, 发现了一个比较不错的包可以用来缺失值的填充, 那就是fancyimpute, 比赛中数据的存在缺失貌似已经成了家常便饭了, 而找到正确的方式去填充这些缺失值就显得尤为重要, 关于缺失值处理的方式,之前整理到的, 有几种情况:不处理(这是针对xgboost等树模型), 有些模型有处理缺失的机制,所以可以不处理,如果缺失的太多,可以考虑删除该列, 另外还有插值补全(均值,中位数,众数,建模预测,多重插补等), 还可以分箱处理,缺失值一个箱。# 删除重复值data.drop_d原创 2020-07-25 15:21:00 · 2926 阅读 · 1 评论 -
酷炫的可视化工具包 - cufflinks
在学习可视化的时候发现了一个非常棒的工具cufflinks,可以交互式的绘制图像,并且非常酷炫, 下面转载一篇博客,记录一下使用方法:原博客地址:Python动态可视化Cufflinks一、cufflinks介绍1.1 简介 学过Python数据分析的朋友都知道,在可视化的工具中,有很多优秀的三方库,比如matplotlib,seaborn,plotly,pyecharts等等。这些可...转载 2020-04-28 17:25:50 · 2032 阅读 · 0 评论 -
特征选择,我们真的学会了吗?
这是在整理数据挖掘特征工程部分知识的时候,看到了一个不错的特征选择的文章,这个是专门把特征选择拿过来讲的, 并且比较详细,所以在这里转载一下, 原文地址:如何进行特征选择下面是主要内容: 特征选择(排序)对于数据科学家、机器学习从业者来说非常重要。...转载 2020-03-27 17:31:07 · 1608 阅读 · 0 评论 -
Pandas的数值访问(.loc, .iloc, .ix访问数据的区别)+query+set_index和reset_index
今天整理的三个pandas的小知识点,是从工业化生产预测这个比赛中用到的三个,所以集体来整理一下:1. pandas数值访问(.loc, .iloc,.ix)首先,建立一个pd.DataFrame做演示:import pandas as pddata = pd.DataFrame({'A':[1,2,3],'B':[4,5,6],'C':[7,8,9]},index=["a","b","c...原创 2020-03-14 21:01:40 · 2943 阅读 · 0 评论 -
pandas的iterrows函数和groupby函数
今天整理pandas的iterrow函数和groupby函数,这两个函数还是很常用的,在实际中的应用可以参考数据竞赛修炼笔记之快手用户活跃度的预测1. pd.iterrows()函数iterrows() 是在DataFrame中的行进行迭代的一个生成器,它返回每行的索引及一个包含行本身的对象。所以,当我们在需要遍历行数据的时候,就可以使用 iterrows()方法实现了。df = pd.D...原创 2020-03-07 14:44:08 · 8857 阅读 · 0 评论 -
重温归一化(MinMaxScaler)和标准化(StandardScaler)
最近做一个时空序列预测的一个问题,用到了数据归一化和标准化,之前一直想花点时间看一下这俩的区别究竟是啥? 现在参考了几篇博文,加上自己的一些理解,来具体的总结总结。数据的归一化是无量纲化,也就是忽略掉特征之间值大小对最后结果带来的影响,而标准化是统一特征的数据分布,忽略掉不同分布的特征对最后结果带来的影响首先给出sklearn中归一化和标准化的实现方法:from sklearn.prep...原创 2019-12-30 13:37:17 · 23100 阅读 · 10 评论 -
真的明白sklearn.preprocessing中的scale和StandardScaler两种标准化方式的区别吗?
写在前面之前,写过一篇文章,叫做真的明白数据归一化(MinMaxScaler)和数据标准化(StandardScaler)吗?。这里面搞清楚了归一化和标准化的区别,但是在实用中发现,在数据标准化中,又存在两种方式可以实现,在这里总结一下两者的区别吧。标准化是怎么回事来?什么是标准化在机器学习中,我们可能要处理不同种类的资料,例如,音讯和图片上的像素值,这些资料可能是高维度的,资料标准化...原创 2020-02-07 17:04:26 · 11599 阅读 · 5 评论 -
np.mat()函数与np.array()函数的辨析
写在前面今天,在学习numpy的时候,偶然看到np.mat()函数,查了一下,也是生成矩阵,这里的mat与MATLAB中的很相似,所以在这里简单的记录一下np.mat()函数应该怎么使用,和numpy中的array()函数有什么区别?np.mat()的基本操作常规操作创建矩阵访问数据排序等>>> m= np.mat([1,2,3]) #创建矩阵>>...原创 2020-02-07 16:22:27 · 31312 阅读 · 3 评论 -
离散数据编码方式总结(OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVectorizer、to_categorical的区别?)
写在前面在机器学习的特征选择的时候,往往有一些离散的特征不好计算,此时需要对这些特征进行编码,但是编码方式有很多,不同的包也会有不同的编码方式。(明白OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies、DictVectorizer的区别吗?)通过在Titanic预测的学习, 在这里对不同包的编码方式进行一个小总结。 至少以后使用的时候,不...原创 2020-02-04 15:57:13 · 9995 阅读 · 5 评论 -
matplotlib和Seaborn数据可视化快速入门
1. 写在前面今天的这篇文章是继快速入门数据分析系列的第四篇文章, 快速入门数据可视化, 前面三篇分别是:Numpy快速入门、Pandas快速入门、爬虫快速入门今天呢,讲讲Python进行数据的可视化分析:Python进行可视化分析的库有matplotlib和Seaborn, Seaborn相当于matplotlib更加高级的一个库,两者的关系类似于numpy与pandas的关系(后者比前者...原创 2020-02-01 12:58:00 · 3020 阅读 · 0 评论 -
Python爬虫快速入门
1. 写在前面前面相继写了Python数据分析快速入门系列之Numpy快速入门, Pandas快速入门, 为什么我们需要快速入门, 这其实这其实涉及到学习方式的问题(在人工智能时代,如何快速学习一项技能?),今天是快速入门第三篇爬虫快速入门, 这是第一次学习Python爬虫,虽然不知道后面能不能用的到,但是还是学学吧,万一以后能用到呢? 至少知道点爬虫的原理啥的,借助这个偶然的机会吧,就用了一天...原创 2020-01-30 22:51:31 · 1304 阅读 · 0 评论 -
做数据分析,标签化的抽象能力一定要有
写在前面互联网的迭代更新速度非常快,我们已经迎来了下半场,如果说上半场是比较新鲜的互联网时代,那么下半场大部分公司都已经互联网化,早就走进了我们的生活,没有了上半场那样的粗犷经营,下半场,我们有很多数据,有很多用户,我们需要的是精细化运营。下半场引领发展的是“大数据”,“赋能”技术,比如基于大数据告诉政府如何智慧管理交通,做城市规划,通过消费数据,告诉企业什么时候生产什么产品,最大化满足客户需...原创 2020-01-29 12:10:06 · 1772 阅读 · 0 评论 -
Pandas快速入门
写在前面上一篇文章中,我写的是Numpy快速入门, 这次写一下Pandas的快速入门,这篇博客同样是针对想入门机器学习和深度学习,或者数据分析的小白而写,我们都知道机器学习和深度学习,数据分析的编程基础就是Python编程,而最常用的一些库,像numpy,pandas,matplotlib,sklearn等这些库都必须熟记于心。依然是强调快速上手的学习技能: 掌握一些基本概念,建立一个知识框架...原创 2020-01-28 16:33:46 · 2131 阅读 · 0 评论 -
Numpy快速入门
写在前面这篇博客是针对想入门机器学习和深度学习,或者数据分析的小白而写,我们都知道机器学习和深度学习,数据分析的编程基础就是Python编程,而最常用的一些库,像numpy,pandas,matplotlib,sklearn等这些库都必须熟记于心,如果学习深度学习的话,还必须有着深度学习基础,掌握一些主流的TensorFlow,pytorch等框架才能在这条路上走下去。而在信息发展很快的时代,...原创 2020-01-28 12:13:53 · 1241 阅读 · 0 评论 -
Pandas 一文看懂透视表pivot_table
在学习pandas的时候,发现了一个统计数据的神奇pivot_table,数据透视表,所以根据知乎上的一篇文章在这里整理一下pivot_table如何使用?分为下面几个问题:什么是透视表?详见百科透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Excel使用过数据透视表(如下图),也体会到它的强大功能,而在pandas中它被称作pivot_table。 ...转载 2019-11-24 16:04:14 · 759 阅读 · 0 评论 -
python之GUI可视化Tkinter窗口入门
做项目时,突然需要用到GUI可视化窗口来和用户互动,就即时学习了一下python自带的GUI包Tkinter,然后根据下面的基本内容可以实现自己的一些简单窗口了 此篇文章是跟着沫凡小哥的视频学习的,附上学习网址:https://morvanzhou.github.io/tutorials/python-basic/什么是 tkinter 窗口1.1 什么是 Tkinter P...原创 2019-04-30 18:14:21 · 15448 阅读 · 8 评论