
Pandas数据分析
追丰少年
干就完了
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
excel 日期转时间戳
【代码】excel 日期转时间戳。原创 2023-11-01 10:03:22 · 706 阅读 · 1 评论 -
pandas更改excel的column宽度
【代码】pandas更改excel的column宽度。原创 2023-10-31 10:44:47 · 1462 阅读 · 0 评论 -
Python Pandas 筛选数据以及字符串替换
str.replace`方法接受两个参数:要替换的字符串和用来替换的字符串。这两个参数都可以是正则表达式,从而可以实现更加灵活的替换操作。这将会把`df['text']`中的“hello”全部替换为“hi”。原创 2023-06-25 22:17:40 · 3166 阅读 · 0 评论 -
Python Pandas之loc、iloc
df.loc 通过标签索引获取数据df.iloc 通过位置索引获取数据原创 2023-06-25 21:58:22 · 325 阅读 · 0 评论 -
Python Pandas之DataFrame
和一个ndarray一样,我们通过shape,ndim,dtype了解这个ndarray的基本信息,那么对于DataFrame我们有什么方法了解呢DataFrame的基础属性df.shape #行数列数df.dtypes#列数据类型df.ndim #数据维度df.indrx # 行索引df.columns # 列索引df.values #对象值,二维ndarray数组DataFrame整体情况查询df.head(3)#显示头部几行,默认5行df.tal(3)#显示未尾几原创 2023-06-25 21:52:46 · 811 阅读 · 0 评论 -
Python pandas 读取数据库操作
read_sql是综合了read_sql_table和read_sql_query的,所以一般用read_sql就好了。原创 2023-06-24 18:31:38 · 2196 阅读 · 1 评论 -
pandas 字典转dataframe
【代码】pandas 字典转dataframe。原创 2023-05-04 13:48:13 · 410 阅读 · 0 评论 -
openpyxl.utils.exceptions.IllegalCharacterError
库,然后to_excel时,令engine='xlsxwriter’即可。原创 2023-04-17 10:41:58 · 220 阅读 · 0 评论 -
pandas通过索引删除行
删除data中索引为0和1的行。原创 2023-02-02 13:37:21 · 442 阅读 · 0 评论 -
pandas中重置索引(从零开始顺序排序)
【代码】pandas中重置索引(从零开始顺序排序)原创 2023-01-30 17:29:06 · 2100 阅读 · 0 评论 -
Python Pandas提取指定行列
通过列名称来提取指定列。原创 2022-12-13 12:08:22 · 7404 阅读 · 0 评论 -
pandas中pd.read_excel()方法中的converters参数
用pandas的pd.read_excel()方法读取excel文件时,遇到某一列的数据前面包含0(如010101)的时候,pd.read_excel()方法返回的DataFrame会将这一列视为int类型,即010101变成10101,这种情况下,如果想要保持数据的完整性,可以以str类型来读取这一列。df = pd.read_excel ("test.xlsx" , converters={'类别编码':str})原创 2022-11-23 10:56:03 · 19404 阅读 · 0 评论 -
pandas 常用函数--round()
【代码】pandas 常用函数--round()原创 2022-11-17 23:14:34 · 20951 阅读 · 0 评论 -
解决PANDAS TYPEERROR: BAD OPERAND TYPE FOR UNARY ~: ‘FLOAT‘
因为需要去除一些特殊字符,故在网上查询了不少 方法,估计大家也都看到了这种。但是可能因为版本更替原因,现在已经无法这样去做了,会报错。化为字符串,然后进行,匹配,取反,非常巧妙。...转载 2022-08-30 10:01:08 · 98872 阅读 · 0 评论 -
Pandas中的unique()和nunique()方法
Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法。这两个方法作用很简单,都是求Series或Pandas中的不同值。而unique()方法返回的是去重之后的不同值,而nunique()方法则直接放回不同值的个数。具体如下:如果Series或DataFrame中没有None值,则unique()方法返回的序列数据的长度等于nunique()方法的返回值(如上述代码中所展示的)。则当Series或DataFrame中有None值时,这两个就不一定相等了。原创 2022-07-13 21:45:44 · 138361 阅读 · 1 评论 -
Python将DataFrame的每一行组成元组
Python将DataFrame的每一行组成元组转载 2022-07-13 17:39:21 · 132185 阅读 · 0 评论 -
Python: 一文看懂pandas的透视表pivot_table
本文转载自知乎《Pandas | 一文看懂透视表pivot_table》,在原文基础上略有增删改。感谢原作者非常生动的例子。目录一、概述1.1 什么是透视表?1.2 为什么要使用pivot_table?二、如何使用pivot_table2.1 读取数据2.2 Index2.3 Values2.4 Aggfunc2.5 Columns2.6 pivot_table vs. groupby2.7 query2.8 Cheat Sheet透视表是一种可以对数据动态排布并且分类汇总的表格格式。或许大多数人都在Exc转载 2022-06-15 09:23:17 · 134314 阅读 · 0 评论 -
pandas pivot_table透视表 去除重复计数
pandas pivot_table透视表 去除重复计数原创 2022-06-11 16:59:00 · 134254 阅读 · 0 评论 -
pandas 如何移动列的位置
要把采集时间这列放在第一列操作如下: mid = df['采集时间'] # 取备采集时间的值 df.pop('采集时间') # 删除备采集时间 df.insert(0, '采集时间', mid) # 插入采集时间列原创 2022-05-28 18:06:19 · 132758 阅读 · 0 评论 -
Pandas 获取列名
获取DataFrame的列名是一个比较简单的操作,又以下几个方法:1.[column for column in df]2.df.columns.values 返回 array3.list(df)4.df.columns 返回Index,可以通过 tolist(), 或者 list(array) 转换为listimport pandas as pdfrom numpy.random import randintdf = pd.DataFrame(columns=list('abcdefg转载 2022-05-07 17:09:41 · 141596 阅读 · 0 评论 -
将pandas.DataFrame格式的数据,每一行转为元组tuple,所有数据以列表list输出
import pandas as pddf = pd.DataFrame([[1, 2, 3, 4], [5, 6, 7, 8], [1, 4, 5, 2]], columns=['a', 'b', 'c', 'd'])print(df)df = df.apply(lambda x: tuple(x), axis=1).values.tolist()print(df)输出 a b c d0 1 2 3 41 5 6 7 82 1 4 5 2..原创 2022-05-25 13:18:29 · 134442 阅读 · 1 评论 -
openpyxl.utils.exceptions.IllegalCharacterError
pandas导入 excel表,出现openpyxl.utils.exceptions.IllegalCharacterError,解决方法:1. import xlsxwriter2. ‘df.to_excel('duanzi.xlsx', engine='xlsxwriter')’,加一个 engine='xlsxwriter'3.就ok了。原创 2022-05-22 08:58:07 · 132104 阅读 · 0 评论 -
Python 读取 MySQL 数据并转为DataFrame
import pandas as pdimport pymysql # Linux Windows 都可以用, 可以导入,不能导出, 导出还得要 mysqldb con = pymysql.connect(host='192.168.9.9', user='admin', passwd='admin', db='test', port = 3306) # 连接cur = con.cursor() def read_table(cur, sql_order): # sql_order is a .原创 2022-03-21 16:44:16 · 134943 阅读 · 0 评论 -
pandas删除nan数据,筛选出nan的数据,筛选出非nan的数据,替换nan值
在处理缺失值的时候,总会遇到各种问题目录1.删除全部为nan的行2.删除含有nan的行3.删除全部为nan的列4. 删除包含nan的列5.删除指定某一列有nan,这样即可定位到所在行的index,然后对该index进行drop操作即可df[np.isnan(df[‘open’])].index #定位某一列是否有nan直接drop对应indx即可删除该行df.drop(df[np.isnan(df[‘open’])].index, inplace=True)6.df1 = df.原创 2022-05-11 18:58:44 · 144554 阅读 · 0 评论 -
pandas.errors.InvalidIndexError: Reindexing only valid with uniquely valued Index objects(删除重复的列名)
删除相同的列名称,从数据帧中删除重复列的最简单方法是什么?我正在通过以下途径读取具有重复列的文本文件:import pandas as pddf=pd.read_table(fname)列名为:Time, Time Relative, N2, Time, Time Relative, H2, etc...所有时间和时间相关列都包含相同的数据。我想要:Time, Time Relative, N2, H2我试图删除的所有尝试,如:df=df.T.drop_du原创 2022-05-07 18:59:08 · 148072 阅读 · 1 评论 -
pandas 提取月份和年份
文章目录 1、pandas.Series.dt.year() 和 pandas.Series.dt.month() 方法提取月份和年份 2、strftime() 方法提取年份和月份 3、pandas.DatetimeIndex.month 和 pandas.DatetimeIndex.year 提取年份和月份 4、参考资料 1、pandas.Series.dt.year() 和 pandas.Series.dt.month() 方法提取月份和年份应用于Datetime类型的 p..转载 2022-04-27 18:24:06 · 138576 阅读 · 0 评论 -
A value is trying to be set on a copy of a slice from a DataFrame.
进行下面计算 df['已完成'] = df['已完成'] / 10000 df['未完成'] = df['未完成'] / 10000运行警告:大概意思是在DataFrame复制切片上设置值导致这个报错,类似word副本不允许编辑SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.Try using .loc[row_indexer,col_indexer.原创 2022-04-20 16:29:38 · 131968 阅读 · 0 评论 -
Pandas 删除列
一、数据准备import pandas as pd data = pd.read_excel(r'测试.xlsx')print(data) 如下数据 名称 类型 型号 C0 多多 1 AA 121 多多1 2 BB 12# 使用del, 一次只能删除一列,不能一次删除多列import pandas as pddata = pd.read_excel(r'测试.xlsx')print(d原创 2022-04-14 22:24:49 · 133727 阅读 · 0 评论 -
ValueError: Cannot mask with non-boolean array containing NA / NaN values
错误原因:这里就是说,分组这一列里面,包含了非字符串的内容,比如数字。因为 .str.contains 的使用就要求这个字段必须是字符串,不能掺杂数字的。解决方案:# 包含对应关系的所有行data_ych_pid = self.database[self.database[column_name].str.contains(index_, na=False)]</pre>na=False的意思就是,遇到非字符串的情况,直接忽略。你也可以写na=True,意思就是遇到非字符串的情况原创 2022-04-09 10:38:40 · 133521 阅读 · 0 评论 -
Python将图片插入到Excel中
效果图:安装:命令:pip install XlsxWriter (或者 easy_install XlsxWriter)在下载的过程中慢的话,可以尝试其中一个,速度会比单纯的pip快10倍不止。地址如下http://pypi.douban.com/simple/ 豆瓣http://mirrors.aliyun.com/pypi/simple/ 阿里http://pypi.hustunique.com/simple/ 华中理工大学http://pypi.sdutlinux.o..原创 2022-03-26 15:44:26 · 138468 阅读 · 0 评论 -
Pandas merge交集、并集使用与区别
先看下图,快速理解含义。注意!以上的结果 是两边都没有重复ID的合并结果,如果有重复,记录会翻倍增加python pandas 实现t1 = pd.merge(t3,t4,on=['key','key2'],how='inner')t1 = pd.merge(t3,t4,on=['key','key2'],how='left') t1 = pd.merge(t3,t4,on=['key','key2'],how='right') t1 = pd.merge(t3,t4,on=原创 2022-03-19 23:10:45 · 131941 阅读 · 0 评论 -
Pandas返回包含NaN的行
pandas返回包含NaN的行df[df[‘nig_sample_index’].isna()]pandas返回不包含NaN的行df[~df[‘nig_sample_index’].isna()]原创 2022-03-14 13:35:17 · 132260 阅读 · 0 评论 -
Python Pandas条件筛选
筛选是在平时的工作中使用非常频繁的功能了一、准备数据import pandas as pddata = pd.read_excel(r'销售数据.xlsx')print(data)数据如下:二、以>,<,==,>=,<=来进行选择(“等于”一定是用‘==’,如果用‘=’就不是判断大小了):例如:筛选销售员是马姐的数据df = data[data['销售员'] == '马姐']例如:筛选销售员是马姐的数据且天河店销量大于100的数据.原创 2022-03-06 15:29:10 · 131226 阅读 · 0 评论 -
Python Pandas 索引与列相互转化
Pandas是一个数据处理的库,今天我们来学习索引与列相互转化一、数据准备import pandas as pddata = pd.read_excel(r'销售数据.xlsx')print(data)运行结果:二、列 -->索引df.set_index('date')import pandas as pddata = pd.read_excel(r'销售数据.xlsx')print(data)data.set_index('销售员', inpl...原创 2022-03-06 09:48:27 · 134628 阅读 · 1 评论 -
Python Pandas 多列分组聚合以及索引转为列
Pandas是一个数据处理的库,今天我们来学习groupby()这个函数的用法。一.通过 pandas.groupby函数import pandas as pddata = pd.read_excel(r'分组汇总.xlsx')print(data)有如下数据 : 销售日期 时间段 销售员 天河店销量 番禺店销量 越秀店销量0 2022-01-01 上午 小敏 118 200 1671 2022-01-01.原创 2022-03-06 09:25:45 · 133301 阅读 · 0 评论 -
Python Pandas中更改列的数据类型
Pandas中进行数据类型转换有二种基本方法:使用astype()函数进行强制类型转换 使用Pandas提供的函数如to_numeric()、to_datetime()1.使用astype()函数进行强制类型转换1.1转float类型df['金额'].astype('float')1.2转int类型df['金额'].astype('int')1.3转booldf['状态'].astype('bool')2.使用to_num.........原创 2022-03-04 15:30:54 · 143932 阅读 · 0 评论 -
Python pandas 屏蔽警告See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable
SettingWithCopyWarning加入此代码进行屏蔽pd.set_option('mode.chained_assignment', None)原创 2022-02-25 15:19:08 · 122215 阅读 · 1 评论 -
Python Pandas常用的描述性统计信息的函数
1.count() # 非空观测数量2.sum() # 所有值之和3.mean() # 所有值的平均值4.median() # 所有值的中位数5.mode() # 值的模值6.std() # 值的标准偏差7.min() # 所有值中的最小值8.max() # 所有值中的最大值9.abs() # 绝对值10.prod() # 数组元素的乘积11.cumsum() # 累计总和12.cumprod() # 累计乘积import pandas as pd# Cr原创 2022-02-24 17:27:18 · 116131 阅读 · 0 评论 -
Pandas如何指定某一列作为索引
# 以商品名称这一列作为索引df1 = df.set_index('商品名称')# 有时候数据没有表头,即发生了缺失:# 指定第一列为索引df1 = pd.read_excel(df,index_col=0)原创 2022-02-24 12:02:15 · 117382 阅读 · 0 评论 -
Pandas pd.merge 函数使用 交集、并集、左连接、右连接
取交集:print(pd.merge(df1,df2,on=['name', 'age', 'sex']))取并集:print(pd.merge(df1,df2,on=['name', 'age', 'sex'], how='outer'))原创 2022-02-24 11:50:25 · 113800 阅读 · 0 评论