
pandas笔记
文章平均质量分 62
「已注销」
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Pandas和SQL行转列,pivot_sum(case…)
在Pandas中,可以使用pivot方法将行转换为列,这通常被称为“透视”操作。以下是一个简单的例子来说明如何进行行转列:输出:输出:Category在这个例子中,index参数指定了哪一列作为新DataFrame的行索引,columns参数指定了哪一列的值将作为新DataFrame的列名,而values参数指定了哪一列的值将填充到新DataFrame中。请注意,pivot方法要求索引/列名组合必须是唯一的,也就是说,每个Category和Year的组合必须是唯一的。原创 2024-10-03 09:41:56 · 559 阅读 · 0 评论 -
Leecode pandas groupby keep cols 1070. Product Sales Analysis III
【代码】Leecode pandas groupby keep cols 1070. Product Sales Analysis III。原创 2024-10-02 20:24:38 · 380 阅读 · 0 评论 -
如何在 Pandas 中对 dataframe 进行 groupby 并保留列?
在此示例中,sales_data.groupby(‘product’) 按 ‘product’ 列对销售数据进行分组,而 agg({‘quantity_sold’: [‘sum’, ‘mean’]}) 将 sum 和 mean 函数应用于每个组的 ‘quantity_sold’ 列。结果是一个包含所有原始列的新 DataFrame 和一个新列 ‘quantity_sold_sum’,其中包含每个组的 ‘quantity_sold’ 列的总和。如果要将所有原始列保留在分组的 DataFrame 中,翻译 2024-10-02 20:12:00 · 480 阅读 · 0 评论 -
PySpark把一列数据上下移动,时序数据
在 PySpark 中,确实存在一个类似于 Pandas 中 shift 函数的功能,它被称为 shiftleft 函数。不过,这与 Pandas 中的 shift 函数有所不同,后者用于将数据在时间序列中上下移动。如果想在 PySpark 中实现类似于 Pandas shift 的功能,即将 DataFrame 中的行或列向上或向下移动,你可以使用 lag 或 lead 函数。例如,如果你有一个整数列,并且你想要将每个值的二进制表示向左移动一位,你可以使用 shiftleft 函数。原创 2024-09-29 17:46:46 · 539 阅读 · 0 评论 -
各种环境,转换字符串为日期时间datetime
在SQL Server中,CONVERT()函数可以用于多种数据类型之间的转换,包括字符串到日期。当转换日期时,通常可以省略格式说明,只要字符串的格式是SQL Server能识别的。在 PySpark 的 SQL 模块中,to_date 是一个用于将字符串或数值类型转换为日期类型的函数。在MySQL中,你可以利用STR_TO_DATE()函数,这个函数需要两个参数:待转换的字符串和该字符串对应的日期格式。Oracle数据库使用TO_DATE()函数来转换字符串为日期,并且也需要你指定字符串的格式。原创 2024-09-29 17:19:11 · 463 阅读 · 0 评论 -
Pandas_构建dataframe的多种方法
使用pd.concat或pd.merge合并多个DataFrame。使用pd.DataFrame.from_records。使用pd.DataFrame.from_dict构建。使用pd.DataFrame.from_items。使用pd.DataFrame的构造函数。• 从Excel文件读取。使用Series对象构建。• 从SQL数据库读取。使用NumPy数组构建。• 从CSV文件读取。• 将字典的值作为列。• 将字典的键作为列。原创 2024-09-29 12:19:26 · 476 阅读 · 0 评论 -
SQL_having_pandas_filter
HAVING子句在SQL中用于对分组后的结果进行过滤,它通常与GROUP BY子句一起使用。HAVING子句允许你指定条件来过滤聚合函数的结果,而WHERE子句则用于在分组之前过滤原始数据。原创 2024-09-25 17:02:37 · 1089 阅读 · 0 评论 -
Groupby_SQL和pandas等效例子
在SQL中使用PARTITION BY与在Pandas中使用groupby().agg()有一定的相似性,因为它们都是用于分组数据并对每组应用某种聚合函数。原创 2024-09-25 16:41:06 · 970 阅读 · 0 评论 -
Pandas重命名列的各种方法
在Pandas中,可以使用多种方法来重命名DataFrame的列。原创 2024-09-25 13:15:51 · 692 阅读 · 0 评论 -
Pandas_ get_dummies独热编码
pd.get_dummies 是 Pandas 库中的一个函数,用于将分类变量转换为“哑变量”或“独热编码”(One-Hot Encoding),这是处理分类数据的一种常用技术。• prefix: 为生成的哑变量列添加前缀。• columns: 指定需要转换的列名。如果不指定,则转换所有对象类型的列。• dummy_na: 是否为缺失值创建一个哑变量,默认为 False。• sparse: 返回稀疏矩阵格式的数据,默认为 False。• prefix_sep: 前缀和值之间的分隔符,默认为空格。原创 2024-09-25 12:21:38 · 553 阅读 · 0 评论 -
Pandas想知道列的datatype
如果你只对DataFrame中某一列的数据类型感兴趣,可以直接访问该列然后使用 dtype 属性。你想要更详细的信息,info() 或 describe() 方法会提供更多的上下文。这个方法会显示DataFrame的概要信息,包括每列的数据类型、非空值的数量等。直接查看DataFrame中所有列的数据类型,然后找到你感兴趣的那一列。这个方法可以统计DataFrame中每种数据类型的列的数量。如果你想根据数据类型筛选出某些列,可以使用这个方法。使用 dtype 属性通常是最直接和快速的方法。原创 2024-09-25 11:56:26 · 394 阅读 · 0 评论 -
Pandas.str
Pandas 的 .str 是字符串操作方法,它是 Pandas 中 Series 对象的一部分,提供了对序列中的每个字符串元素进行操作的能力。原创 2024-08-23 13:35:16 · 466 阅读 · 0 评论 -
ARIMA-temp-humidity
【代码】ARIMA-temp-humidity。原创 2024-08-24 16:47:46 · 176 阅读 · 0 评论 -
Pandas_merge_join
默认情况下,join 函数执行的是左侧连接(left),这意味着它将会保留左侧数据集(left 参数指定的数据集)的所有行,以及右侧数据集(right 参数指定的数据集)中与左侧数据集索引匹配的行。实际上,join 函数的行为更类似于合并具有层次化索引(多级索引,即MultiIndex)的 DataFrame 或 Series 对象。请注意,join 函数通常用于已经具有多级索引的数据集,而 merge 函数提供了更多的灵活性,允许你基于列值进行合并,并且可以指定合并的类型。原创 2024-08-24 19:07:04 · 683 阅读 · 0 评论 -
[:, :5] 在python里返回什么
在 Python 中,使用[:, :5]这种切片语法通常与 NumPy 数组或 pandas 数据框(DataFrame)一起使用。这个特定的切片操作会选择数据结构的所有行(由表示)和前五个列(由5表示)。原创 2024-08-31 12:08:19 · 620 阅读 · 0 评论 -
Pandas_[‘index‘]_is_not_found_in_axis
在 pandas 表格操作中,很容易多出一列 ‘index’ 列,drop 也 drop 不掉。原创 2024-09-06 12:04:42 · 503 阅读 · 0 评论 -
Pandas_iloc_loc_哪个是inclusive哪个是exclusive
iloc 和 loc 包括不包括结尾写的那个行(列)?是前5行,index=0 到 index=4 的行,还是前两列,index=0 到 index=1。居然是前6行,是 index=0。的行,包括 index=5 那行。index=5 那行。原创 2024-09-23 19:00:54 · 335 阅读 · 0 评论 -
Numpy_pandas_axis=1
在 NumPy 和 Pandas 中,axis参数的设定确实有些不同,这可能会让初学者感到困惑。这种差异主要是因为这两个库在设计时对多维数组的处理方式有所不同。原创 2024-09-15 09:56:00 · 478 阅读 · 0 评论 -
Pandas_sqlite
在Pandas中使用SQLite数据库进行数据操作是一个常见的任务,尤其是在数据分析和数据科学领域。以下是一个简单的示例,展示如何在Pandas中使用SQLite数据库进行数据的读取、写入和查询。原创 2024-09-15 10:00:42 · 822 阅读 · 0 评论 -
Pandas语句
df[‘column’].str.replace(‘pattern’, ‘replacement’):替换列中字符串的指定模式。df[‘column’].str.contains(‘pattern’):检查列中的字符串是否包含指定模式。df.to_excel(‘filename.xlsx’):将数据保存为 Excel 文件。df.to_json(‘filename.json’):将数据保存为 JSON 文件。df.to_csv(‘filename.csv’):将数据保存为 CSV 文件。原创 2024-09-19 15:08:59 · 539 阅读 · 0 评论 -
Pandas_groupby_aggregation
• aggregation_functions:一个或多个聚合函数,可以是Pandas内置的函数,如sum、mean、count等,也可以是自定义的函数。在Pandas中,groupby方法经常与agg方法结合使用,以对分组后的数据应用聚合函数。这将计算每个部门的平均工资,和直接使用内置的mean函数效果相同。这将输出每个部门的工资的平均值、总和、计数和最大值。• df:你的DataFrame对象。多个列,多个聚合函数,并重命名。使用多个列和多个聚合函数。使用lambda函数。原创 2024-09-23 17:47:40 · 723 阅读 · 0 评论