一、DataFrame介绍
在 Python 中,DataFrame是 pandas 库中的核心数据结构之一,它是一种二维的表格型数据结构,类似于电子表格或 SQL 表。DataFrame 由行索引(index)和列索引(columns)组成,可以方便地进行数据的选择、过滤、排序、聚合等操作。
df= DataFrame() #创建DataFrame对象
df.info()#查看基本信息
df.head() #查看前几行的数据,默认前5行
df.tail() #查看后几行的数据,默认后5行
df.index #查看索引
df.columns #查看列名
df.values #查看数据值
df.describe() #描述性统计
df.dtypes #查看各行的数据格式
df['列名'].astype(int)#转换某列的数据类型
df.fillna(method='')
df.T #转置
df.sort_values(by=['name','age'])#
df.drop_duplicates(subset=['A'])#删除重复值,默认情况下全部考虑
df.set_index('name')#设置索引
df.reset_index()#重置索引
df.rename(columns={'Name': 'Full_Name'}, inplace=True)
筛选
df['姓名'].isin('张')##查找名含有张的所有数据
df[df['姓名'].isin('张')]##筛选:查找姓名这列含张的名字
df.loc[df['姓名'].isin('张')]##筛选:查找姓名这列含张的名字
模糊筛选数据
df.loc[df['标题'].str.contains(r'.*?语音CDMA.*')] #使用正则表达式进行模糊匹配,*匹配0或无限次,?匹配0或1次
以下是DataFrame 的示例
import pandas as pd
data = {'Name': ['Alice', 'Bob', 'Charlie'],
'Age': [25, 30, 35],
'City': ['New York', 'London', 'Paris']}
df = pd.DataFrame(data)
data.info()
data.head()
data.tail()
data.describe()
#设置索引,重置索引
new_df = df.set_index('Name', drop=True)
another_df = df.set_index('Name', inplace=True)
#列明重命名
df.rename(columns={'Name': 'Full_Name'}, inplace=True)
#排序
df.sort_values('Age', ascending=False) # 按照 'Age' 列降序排列
二、DataFrame中的Series
在 Python 中,DataFrame是pandas库中的一种二维数据结构,Series是DataFrame中的一种一维数据结构。Series的特点是一个带有名称和索引的一维数组,其中包含的数据类型可以是整数、浮点、字符串、列表、元组、ndarray等。Series中包含的数据类型可以是整数、浮点、字符串、列表、元组、ndarray等。
语法:pd.Series(data=None,index=None,dtype=None,name=None)。参数解释如下:
- data:一维数组,用于存储数据,可以是整数、浮点数、字符串、列表、元组等。
- index:索引标签,用于标识数据的位置。
- dtype:数据类型,默认为 None,表示自动推断数据类型。
- name:序列名称,默认为 None。
Series支持ndarray的运算符、广播方法,包括numpy中的各种运算函数、聚合函数等。Series还提供了一些常用的方法,如get()方法,用于获取指定索引位置的值;mask()方法,用于根据条件筛选数据等。
Python基础之pandas:Series和DataFrame定义及使用_python pandas dataframe-CSDN博客 python-pandas中DataFrame类型数据操作函数_pandas dataframe函数-CSDN博客