机器学习常用包pandas篇(一)pandas·数据读取

最新推荐文章于 2025-08-22 11:20:25 发布

AAA顶置摸鱼

最新推荐文章于 2025-08-22 11:20:25 发布

阅读量957

点赞数 16

CC 4.0 BY-SA版权

分类专栏： python 深度学习文章标签：机器学习 pandas 人工智能

27 篇文章

订阅专栏

Pandas 提供了丰富的输入/输出接口，支持多种数据格式的读写操作。内容来源为Pandas I/O 官方文档章节输入/输出 — pandas 2.2.3 文档 --- Input/output — pandas 2.2.3 documentation

以下是核心功能的分类整理。

CSV/TSV
- 读取:
```
pd.read_csv(filepath, sep=',', header='infer', index_col=None, dtype=None, parse_dates=False)
```
  - 关键参数: sep（分隔符）、header（标题行）、index_col（索引列）、na_values（缺失值标识）、encoding（编码）。
- 写入:
```
df.to_csv(path, index=True, sep=',', header=True)
```

JSON

读取:
```
pd.read_json(path, orient='columns', lines=False)
```
- 支持格式: 列式 (columns)、记录式 (records)、分块式 (split)。

写入:

df.to_json(path, orient='columns', lines=False)

HTML
- 读取表格:
```
pd.read_html(io, match='.+', flavor='lxml')
```
  - 从 HTML 页面提取所有表格（返回 DataFrame 列表）。
Markdown/LaTeX
- 导出:
```
df.to_markdown(), df.to_latex()
```

Excel

读取:

pd.read_excel(io, sheet_name=0, header=0, index_col=None)

写入:

df.to_excel(excel_writer, sheet_name='Sheet1', index=True)

HDF5

读取/写入: pd.HDFStore 类

示例:

with pd.HDFStore('data.h5') as store:  
    store.put('dataset', df)  
    df = store.get('dataset')

Parquet/Feather
- 读取:
```
pd.read_parquet(path), pd.read_feather(path)
```
- 写入:
```
df.to_parquet(path), df.to_feather(path)
```
- 高性能列式存储，适合大数据集（需安装 pyarrow 或 fastparquet）。

Stata/SAS/SPSS

读取:

 pd.read_stata(), pd.read_sas(), pd.read_spss()

SQL
- 读取:
```
pd.read_sql(query, con)
```
- 写入:
```
df.to_sql(name, con, if_exists='fail', index=False)
```
  - 依赖 SQLAlchemy 连接数据库（如 MySQL、PostgreSQL）。

剪贴板
- 读取/写入:
```
pd.read_clipboard(), df.to_clipboard()
```
Pickle
- 序列化:
```
df.to_pickle(path), pd.read_pickle(path)
```
  - 保存 DataFrame 的完整状态（含索引和数据类型）。
Web API
- 读取 JSON API:
```
pd.read_json(url)
```
- 读取 XML:
```
pd.read_xml(url)
```