统计数据集句子长度信息

在文本分类任务做科研写论文的时候,我们有时候需要对对数据集的大小进行分析,如果你想统计CSV文件中某一列英语句子的单词个数(不包含标题),可以使用Python的split()函数将句子拆分为单词,并计算单词的个数,具体实现代码和结果分析如下。

目录

一、Python实现 

二、测试结果


一、Python实现 

import csv

# 读取CSV文件
filename = 'your_file.csv'  # 请替换成你的CSV文件路径
with open(filename, 'r', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile)
    next(reader)  # 跳过标题行
    word_counts = [len(row[1].split()) for row in reader]  # 假设你想要获取第二列句子的单词个数

# 统计单词个数
total_sentences = len(word_counts)
average_words = sum(word_counts) / total_sentences

# 打印结果
print("句子总数:", total_sentences)
print("平均单词数:", average_words)

二、测试结果

下面对一个英文句子长度统计,按照上述方法

print(len('watching and loving the Thunderbirds.'.split()))

输出结果:5 ,是正确的

同时我用上述方法统计GLUE等相关数据集的训练集和测试集平均长度结果如下:

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Dr.Petrichor

作者逐个题目分析的噢

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值