手把手教你用Pandas读取所有主流数据存储

本文详述如何使用Pandas读取CSV、Excel、JSON、HTML、剪贴板和SQL等多种数据存储格式,包括基础读取方法和高级功能,帮助数据分析师高效处理数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

导读:从常见的Excel和CSV到JSON及各种数据库,Pandas几乎支持市面上所有的主流数据存储形式。

作者:李庆辉

来源:大数据DT(ID:hzdashuju)

f69fa8780c3c417d337dda96a2b8b81d.png

Pandas提供了一组顶层的I/O API,如pandas.read_csv()等方法,这些方法可以将众多格式的数据读取到DataFrame数据结构中,经过分析处理后,再通过类似DataFrame.to_csv()的方法导出数据。

表3-1列出了一些常见的数据格式读取和输出方法。

▼表3-1 Pandas中常见数据的读取和输出函数

df10c776028bb433a83595f6c48b2a0d.png

输入和输出的方法如下:

  • 读取函数一般会赋值给一个变量df,df = pd.read_<xxx>();

  • 输出函数是将变量自身进行操作并输出df.to_<xxx>()。

01 CSV文件

CSV(Comma-Separated Values)是用逗号分隔值的数据形式,有时也称为字符分隔值,因为分隔字符也可以不是逗号。CSV文件的一般文件扩展名为.csv,用制表符号分隔也常用.tsv作为扩展名。CSV不仅可以是一个实体文件,还可以是字符形式,以便于在网络上传输。

CSV文件的读取方法如下(以下代码省略了赋值操作):

# 文件目录
pd.read_csv('data.csv') # 如果文件与代码文件在同一目录下
pd.read_csv('data/my/data.csv') # 指定目录
pd.read_csv('data/my/my.data') # CSV文件的扩展名不一定是.csv
CSV文件可以存储在网络上,通过URL来访问和读取:
# 使用URL
pd.read_csv('https://www.gairuo.com/file/data/dataset/GDP-China.csv')

CSV不带数据样式,标准化较强,是最为常见的数据格式。Pandas为读取CSV数据提供了强大的功能,了解更多详细操作请阅读《史上最全!用Pandas读取CSV,看这篇就够了》。

02 Excel

Excel电子表格是微软公司开发的被广泛使用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值