### pandas函数汇总与详解 #### 一、导入数据 Pandas 是一个强大的 Python 数据分析库,提供了多种方式来导入各种格式的数据。 - **pd.read_csv(filename)**:从 CSV 文件读取数据。 - **pd.read_table(filename)**:从任何分隔符(如制表符)分隔的文本文件读取数据。 - **pd.read_excel(filename)**:从 Excel 文件读取数据。 - **pd.read_sql(query, connection_object)**:从 SQL 数据库或表读取数据。 - **pd.read_json(json_string)**:从 JSON 格式的字符串、URL 或文件读取数据。 - **pd.read_html(url)**:解析 HTML URL、字符串或文件,并将表格提取为 DataFrame 列表。 - **pd.read_clipboard()**:从剪贴板获取内容,并传递给 `read_table()` 函数处理。 - **pd.DataFrame(dict)**:从字典创建 DataFrame,其中键作为列名,值作为数据列表。 #### 二、导出数据 同样地,Pandas 提供了丰富的工具来导出数据到不同格式。 - **df.to_csv(filename)**:将 DataFrame 写入 CSV 文件。 - **df.to_excel(filename)**:将 DataFrame 写入 Excel 文件。 - **df.to_sql(table_name, connection_object)**:将 DataFrame 写入 SQL 表。 - **df.to_json(filename)**:将 DataFrame 写入 JSON 格式文件。 - **df.to_html(filename)**:将 DataFrame 保存为 HTML 表格。 - **df.to_clipboard()**:将 DataFrame 写入剪贴板。 #### 三、创建测试对象 这些方法对于测试非常有用。 - **pd.DataFrame(np.random.rand(20, 5))**:创建包含 5 列和 20 行随机浮点数的 DataFrame。 - **pd.Series(my_list)**:从可迭代对象 `my_list` 创建 Series。 - **df.index = pd.date_range('1900/1/30', periods=df.shape[0])**:为 DataFrame 添加日期索引。 #### 四、查看/检查数据 - **df.head(n)**:显示 DataFrame 的前 n 行。 - **df.tail(n)**:显示 DataFrame 的后 n 行。 - **df.shape()**:返回 DataFrame 的行数和列数。 - **df.info()**:显示 DataFrame 的索引、数据类型和内存使用情况的信息。 - **df.describe()**:对于数值型列提供摘要统计信息。 - **s.value_counts(dropna=False)**:查看唯一值及其计数,不忽略缺失值。 - **df.apply(pd.Series.value_counts)**:对所有列应用 `value_counts` 方法,获取各列的唯一值及其计数。 #### 五、选择数据 - **df[col]**:返回带有标签 col 的列作为 Series。 - **df[[col1, col2]]**:返回指定列作为新的 DataFrame。 - **s.iloc[0]**:基于位置进行选择。 - **s.loc[0]**:基于索引进行选择。 - **df.iloc[0, :]**:选择第一行。 - **df.iloc[0, 0]**:选择第一列的第一元素。 #### 六、数据清洗 - **df.columns = ['a', 'b', 'c']**:重命名列名。 - **pd.isnull()**:检查是否存在空值,返回布尔数组。 - **pd.notnull()**:与 `isnull()` 相反,检查非空值。 - **df.dropna()**:删除所有包含空值的行。 - **df.dropna(axis=1)**:删除所有包含空值的列。 - **df.dropna(axis=1, thresh=n)**:删除具有少于 n 个非空值的所有行。 - **df.fillna(x)**:用 x 替换所有空值。 - **s.fillna(s.mean())**:用均值替换所有空值。 ### 总结 通过上述内容可以看出,Pandas 提供了丰富的函数来帮助用户完成数据导入、导出、创建测试数据集、查看数据、选择数据以及数据清洗等工作。掌握这些函数能够极大地提高数据分析工作的效率。在实际工作中,根据具体需求灵活运用这些函数,可以快速实现数据的预处理、清洗及可视化等操作。

































- 粉丝: 3
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助


最新资源
- 安徽省建设工程计算机辅助评标数据交换标准规定(草案稿).doc
- 基于项目管理模式的高中信息技术课程.docx
- 文化馆搭建微服务大厅的研究思考.docx
- 使用Keras实现YOLO v3目标检测
- 铁路车务系统安全生产标准化建设实施方案.doc
- 2005-2010中国汽车物流发展现状研究-网络下载.doc
- 互联网社交平台运维架构设计.docx
- 大数据背景下高校图书馆学科服务的创新发展.docx
- 计算机网络攻防手段分析与研究.docx
- 中国大数据发展报告大数据大事记.docx
- 电气自动化的现状与发展趋势分析.docx
- 大数据背景下初中物理实验教学策略.docx
- 互联网+高素质农民培育的现实基础、困境及对策.docx
- matlab命令集锦.doc
- 项目管理在现代船舶建造工程中的应用.docx
- 浙江西子重工机械有限公司西子绿色能产业基地油漆喷涂生产线与集箱退火技改项目管理.doc


