Python:Pandas把csv中的0去掉了、Pandas读取文件时不去掉前面的0、解决Pandas读取文件丢失数据前的0问题

最新推荐文章于 2025-02-05 20:39:18 发布

五月天的尾巴

最新推荐文章于 2025-02-05 20:39:18 发布

阅读量1.7k

点赞数 7

CC 4.0 BY-SA版权

分类专栏： python 文章标签： pandas读取文件 pandas丢失数据

本文链接：https://blog.csdn.net/weixin_49114503/article/details/143329329

python 专栏收录该内容

44 篇文章

订阅专栏

pandas.read_excel官网地址
https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html#pandas.read_excel

在我们处理数据时，有时会碰到csv或excel中，有时某列数据值会“000+1到9数字”,在用python read_csv读取数据时，往往会将前面“000”给去掉。

本文讲解一下如何不去掉前面的0。以下几种方法都能保证读取后保留为原值，亲测有效！

一、问题场景

问题描述： 使用pandas读取文件时，默认把数据前面的0去除掉了，怎样能保留excel中的原值。

测试文件：
在这里插入图片描述

测试代码：

read_file.py代码如下：

# coding=utf-8

import pandas as pd

data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx')

print(data)

执行结果：

在这里插入图片描述

二、问题原因

问题分析：
pandas.read_excel默认dtype=None, 它将根据数据推断每列的数据类型。若该列全是数字，则默认为数字类型，所以把前面的0都去除了。

代码验证：

打印读取后的数据类型，验证pandas在读取文件时默认把数字当做数字类型了。

# coding=utf-8

import pandas as pd

data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx')

print(data)
print(data.dtypes)

在这里插入图片描述

三、解决方法

3.1、方法一：添加dtype=object

设置excel文件格式为object

# coding=utf-8

import pandas as pd

data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx',dtype=object)

print(data)

在这里插入图片描述

3.2、方法二：添加dtype=str

设置excel格式都为字符串

# coding=utf-8

import pandas as pd

data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx',dtype=str)

print(data)
print(data.dtypes)

在这里插入图片描述

3.3、复杂设置

在某些情况下，我们不能把excel的格式整体设置为字符串类型，可能某列需要设置为数字类型，某列设置为字符串类型。

# coding=utf-8

import pandas as pd

data = pd.read_excel('D:\WorkSpace-Python\Test\demo.xlsx',dtype={'序号ID':int,'标题A':str,'标题B':object})

print(data)
print(data.dtypes)

在这里插入图片描述