Pandas 提高读取和处理大CSV文件方法

小玉狗狗

于 2024-07-06 23:53:03 发布

阅读量1.5k

点赞数 11

CC 4.0 BY-SA版权

文章标签： pandas

本文链接：https://blog.csdn.net/XiaoYuGouGou/article/details/140238024

处理大型CSV文件时，确实可能会遇到性能瓶颈，尤其是当内存不足以一次性加载整个文件时。Pandas 提供了一些方法来更高效地读取和处理大文件，这里有几个建议可以帮助你优化代码：

1. 分块读取文件

使用 pd.read_csv 的 chunksize 参数来分块读取数据。这样可以将文件分割成多个小块，每次只处理其中的一块，从而减少内存消耗。处理完一块后，释放其占用的内存再读取下一块。

chunksize = 10 ** 6  # 每块包含的行数
for chunk in pd.read_csv('large_file.csv', chunksize=chunksize):
    # 对每一块数据执行操作，例如过滤、聚合等
    process_chunk(chunk)
    # 释放内存
    del chunk

2. 只读取需要的列

如果你不需要CSV文件中的所有列，可以使用 usecols 参数仅读取特定的列，这将显著减少读取数据所需的资源。

useful_columns = ['col1', 'col2', 'col3']
df = pd.read_csv('large_file.csv', usecols=useful_columns)

3. 选择合适的Dtypes

使用正确的数据类型可以节省内存。例如，对于整数列，可以使用更小的数据类型（如 int16 而不是 int64）；对于分类数据，可以使用 category 类型。

dtypes = {'col1': 'int16', 'col2': 'float32', 'col3': 'category'}
df = pd.read_csv('large_file.csv', dtype=dtypes)

4. 使用更快的库

考虑使用 Dask 或 Vaex 这样的库，它们专为大规模数据集设计，可以利用多核处理器进行并行计算，同时支持懒加载和分块读取，从而提高效率。

5. 数据预处理

在读取数据之前，先对数据进行一些预处理，比如删除不必要的列，或者在服务器上对数据进行采样或聚合，然后再读取。

6. 利用索引

如果数据集中有时间序列数据，可以考虑将其设置为索引，这样可以更高效地进行时间相关的查询。

7. 优化磁盘I/O

确保磁盘不是瓶颈，使用固态硬盘（SSD）而不是传统硬盘驱动器（HDD）。此外，压缩文件也可以加快读取速度，尽管这可能会稍微增加CPU负担。

通过上述方法，你应该能够更有效地处理大型CSV文件。选择哪种方法取决于你的具体需求和资源限制。