datasets笔记：数据处理

原创

于 2024-12-22 00:01:15 发布 · 376 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

0 数据loading

from datasets import load_dataset
dataset = load_dataset("glue", "mrpc", split="train")
dataset[0]
'''
{'sentence1': 'Amrozi accused his brother , whom he called " the witness " , of deliberately distorting his evidence .',
 'sentence2': 'Referring to him as only " the witness " , Amrozi accused his brother of deliberately distorting his evidence .',
 'label': 1,
 'idx': 0}
'''

1排序

sorted_dataset = dataset.sort("label")
sorted_dataset['label'][:10],dataset['label'][:10]
#([0, 0, 0, 0, 0, 0, 0, 0, 0, 0], [1, 0, 1, 0, 1, 1, 0, 1, 0, 0])

2 打乱

shuffled_dataset = dataset.shuffle(seed=42)
shuffled_dataset['idx'][:10]
#[3946, 3683, 3919, 485, 2251, 2173, 3936, 1603, 1351, 736]

打乱会创建索引映射，可能会降低性能。如果需要恢复性能，可以调用 flatten_indices()

`3 选择`

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

UQI-LIUWJ

关注关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

datasets 笔记:加载数据集（基本操作）

qq_40206371的博客

12-21

905

参考了huggingface的教程。

论文笔记：Collaborative Filtering for Implicit Feedback Datasets

qq_35771020的博客

04-20

1037

一、基本信息论文题目：《Collaborative Filtering for Implicit Feedback Datasets》发表时间：ICDM 2008 作者及单位：论文地址：https://dl.acm.org/citation.cfm?id=1510528.1511352 二、摘要推荐系统的一个共同任务是通过基于事先隐含反馈的个性化推荐来改善客户体验。这...

参与评论您还未登录，请先登录后发表或查看评论

datasets库一些基本方法：filter、map、select等

jieshenai的博客

08-21

3130

本文介绍了使用datasets库在Python中高效处理数据集的方法。文中展示了如何安装和导入huggingface数据集，并详细说明了使用filter、map和select方法对数据集进行筛选、转换和采样的具体步骤，同时解决了因网络问题导致的连接难题。还展示了如何通过map方法转换数据集样式，实现数据集的定制化处理。

LLM：huggingface-datasets库

皮皮blog

06-11

3190

datasets是huggingface维护的一个轻量级可扩展的数据加载库，其兼容pandas、numpy、pytorch和tensorflow，使用简便。根据其官方简介：Datasets originated from a fork of the awesome TensorFlow Datasets，datasets是源自于tf.data的，两者之间的主要区别可参考这里。

HuggingFace学习笔记--datasets的使用

牵一只蜗牛去散步

11-27

6004

1--datasets的使用。1--datasets的使用。1-3--打乱和排序数据集。1-4--选择和筛选数据集。1-1--加载数据集。1-2--查看数据集。1-5--划分数据集。1-6--修改数据集。1-7--导出数据集。

huggingface下载并加载本地数据集

lishijie258的博客

04-24

3007

如to_csv、to_pandas、to_dict、to_json等。下载至当前页面的opus100文件夹下。下载后的文件如图所示。

CARLA传感器详细文档介绍+python实例（持续更新ing）

热门推荐

weixin_44169614的博客

08-20

3万+

作为模拟真实驾驶环境的模拟器，CARLA提供了丰富的传感器接口，不同传感器的特点不同，应该针对不同场景选择合适的传感器或将多种传感器结合使用。

谷歌师兄的leetcode刷题笔记-large-qa-datasets:大型问答数据集的集合

06-30

谷歌师兄的leetcode刷题笔记大型问答数据集包含问题及其答案的大型数据集集合，用于自然语言处理任务，例如问答 (QA)。数据集按出版年份排序。问题数据集网络问题贝randint等人。 PDF：数据集：出版年份： ...

QUT IFN645 Python教程笔记：数据与Web分析

- 通过Jupyter Notebook进行实验，可以即时查看代码执行的结果，有助于加深对数据处理和分析技术的理解。 8. 课程合作与支持 - 任何关于教程内容的建议或意见，学习者可以通过电子邮件与课程提供者联系。 - 这种...

Transformers实战——Datasets板块

厚积而薄发

11-17

1553

【代码】Transformers实战——Datasets板块。

HuggingFace学习笔记--利用API实现简单的NLP任务

牵一只蜗牛去散步

11-28

1039

分类用的是一个简单的线性层，其维度为（768, token.vocab_size），其中token.vocab_sized的大小为21128，即预测21128个词的分类分数，再与真实标签进行损失计算；利用预训练 bert 模型最后一个隐层的[cls] token的特征进行中文分类；利用 bert 模型提取特征，对最后一个隐层的第15个token特征进行分类；对训练数据的第15个词进行 mask 掉，预测第15个词；1-2--基于预训练模型实现下游任务。1-1--使用预训练模型推理。3--中文句子关系推断。

Transformers实战——使用本地数据进行AclImdb情感分类

HMT的博客

04-01

4236

使用本地数据进行AclImdb情感分类

python读parquet文件并转csv格式

weixin_50216185的博客

06-06

1472

# 把parque文件转csv。

【Python】科研代码学习：五 Data Collator，Datasets

溢流眼泪的博客

03-09

2321

【代码】【Python】科研代码学习：五 Data Collator，Datasets。

做论文常用中文摘要数据集

daotianweng的博客

03-29

3340

(1)短文本 1）哈工大LCSTS (2)中等长度 1）NLPCC2017的单文档新闻测试集合TTNews 2）NLPCC2021的字节跳动CNew_sum (3)长文本 1）NLPCC2020的CLTS，但该数据集并不好很差，大量摘要为正文摘抄抽取。

理解Parquet文件和Arrow格式：从Hugging Face数据集的角度出发