python提高文件读取速度_Python提高了HDF5文件的读取速度

博主在构建存储财务数据的HDF5数据库,每天处理大量数据导致文件大小达到9Gb。使用pandas的HDFStore写入数据速度较慢,而读取整个数据库时,特别是随着代码数量增加,速度指数级下降。博主寻求提高文件读取和写入的效率,特别是针对大量数据的快速检索方法。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

我正在构建一个存储财务数据的数据库(特别是选项链) .

我每天检索每个交易日的数据,即5d /周或250d /年 . 我这样做了300个代码,数据库正在以150Mb /天的速度增长,到目前为止达到了9Gb .

数据以pandas数据帧的形式出现 .

我想使用HDF5格式并在每个交易日使用组构建文件,然后在代码中进一步分支以及进一步“调用”/“放置”(选项行话)

这是编写文件的代码片段,我使用pd.HDFStore和for循环通过代码

db = pd.HDFStore('Database.h5')

group = c_year + '/' + c_month + '/' + c_day + '/'# Create main group from current day

for i in tickers['Symbol']:

db.put(group + i + '/Call', data, format = 'table', append = True, data_columns = True)

每个交易日写文件的速度很慢,但我得出的结论是,这都是关于使用pandas datareader检索数据

随后,我需要检索整个数据库,将其转换为减少的pandas数据帧以进行数据争用 .

这是仅为“调用”读取* .h5文件的代码,另一个用于循环遍历1年回顾期间的所有日期的代码

for i in tickers['Symbol']:

for date in datelist(dt.date.today() - timedelta(days = 365), dt.date.today(), timedelta(days=1)):#set number of lookback days in accordance to last day of database retrieve

g_year = str(date.year) # Get group year

g_month = m

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值