Submit Search
【DL輪読会】事前学習用データセットについて
Download as PPTX, PDF
•
1 like
•
691 views
Deep Learning JP
2023/8/24 Deep Learning JP http://deeplearning.jp/seminar-2/
Technology
Read more
1 of 20
Download now
Downloaded 10 times
1
2
3
4
5
6
7
8
9
10
Most read
11
12
13
14
15
16
Most read
17
18
19
20
More Related Content
PPTX
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
PPTX
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
PDF
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
PDF
深層生成モデルと世界モデル
Masahiro Suzuki
PPTX
[DL輪読会]逆強化学習とGANs
Deep Learning JP
PPTX
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
PDF
Generative Models(メタサーベイ )
cvpaper. challenge
PDF
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
自己教師学習(Self-Supervised Learning)
cvpaper. challenge
深層生成モデルと世界モデル
Masahiro Suzuki
[DL輪読会]逆強化学習とGANs
Deep Learning JP
[DL輪読会]When Does Label Smoothing Help?
Deep Learning JP
Generative Models(メタサーベイ )
cvpaper. challenge
[DLHacks 実装]Network Dissection: Quantifying Interpretability of Deep Visual R...
Deep Learning JP
What's hot
(20)
PDF
Active Learning 入門
Shuyo Nakatani
PDF
ドメイン適応の原理と応用
Yoshitaka Ushiku
PPTX
backbone としての timm 入門
Takuji Tahara
PDF
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
PPT
Gurobi python
Mikio Kubo
PDF
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
PDF
ConvNetの歴史とResNet亜種、ベストプラクティス
Yusuke Uchida
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
PPTX
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
PDF
モデルではなく、データセットを蒸留する
Takahiro Kubo
PPTX
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
PDF
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
PPTX
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
PPTX
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
PPTX
Triplet Loss 徹底解説
tancoro
PPTX
報酬設計と逆強化学習
Yusuke Nakata
PDF
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
PPTX
猫でも分かるVariational AutoEncoder
Sho Tatsuno
PDF
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Active Learning 入門
Shuyo Nakatani
ドメイン適応の原理と応用
Yoshitaka Ushiku
backbone としての timm 入門
Takuji Tahara
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
Gurobi python
Mikio Kubo
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP
ConvNetの歴史とResNet亜種、ベストプラクティス
Yusuke Uchida
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
モデルではなく、データセットを蒸留する
Takahiro Kubo
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
Layer Normalization@NIPS+読み会・関西
Keigo Nishida
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Triplet Loss 徹底解説
tancoro
報酬設計と逆強化学習
Yusuke Nakata
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase
猫でも分かるVariational AutoEncoder
Sho Tatsuno
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
Ad
More from Deep Learning JP
(20)
PPTX
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
PPTX
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
PPTX
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
PPTX
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
PPTX
【DL輪読会】マルチモーダル LLM
Deep Learning JP
PDF
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
PPTX
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
PPTX
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
PPTX
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
PDF
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
PDF
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
PPTX
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
PPTX
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
PDF
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
PPTX
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
PDF
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
PDF
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
PPTX
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
PPTX
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
PDF
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
【DL輪読会】マルチモーダル LLM
Deep Learning JP
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
【DL輪読会】VIP: Towards Universal Visual Reward and Representation via Value-Impl...
Deep Learning JP
【DL輪読会】Deep Transformers without Shortcuts: Modifying Self-attention for Fait...
Deep Learning JP
Ad
Recently uploaded
(10)
PDF
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
PDF
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
PPTX
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
PDF
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
PDF
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
PDF
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
PDF
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
PPTX
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
PDF
20250729_Devin-for-Enterprise
Masaki Yamakawa
PDF
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
TaketoFujikawa_ComicComputing12th_inKumamoto
Matsushita Laboratory
20250726_Devinで変えるエンプラシステム開発の未来
Masaki Yamakawa
2025_7_25_吉祥寺_設計ナイト_ADR運用におけるデータ利活用の考え方.pptx
ssuserfcafd1
20250730_QiitaBash_LT登壇資料_PDC_Kurashina.pdf
pdckurashina
MahiroYoshida_セリフに着目したキャラクタロール推定に関する基礎検討_sigcc12th2025
Matsushita Laboratory
VMUG Japan book vsan 20250515 CPU/Memory vSAN
Kazuhiro Sota
【学会聴講報告】CVPR2025からみるVision最先端トレンド / CVPR2025 report
Sony - Neural Network Libraries
baserCMS『カスタムコンテンツ』徹底活用術〜あなただけの管理画面を自由自在に〜
Ryuji Egashira
20250729_Devin-for-Enterprise
Masaki Yamakawa
第三世代 ウェザーステーションキット v3 ー WSC3-L 日本語カタログ
CRI Japan, Inc.
【DL輪読会】事前学習用データセットについて
1.
事前学習用データセットについて Keno Harada, D1,
the University of Tokyo
3.
目次 主要なデータセットについて、どのような構成でどのくらいデー タ量があるか C4, mC4, MassiveText,
RefineWeb, Dolma
4.
最大級の公開データセット “Dolma: An Open
Corpus of 3 Trillion Tokens for Language Model Pretraining Research” が現在作成中の言語モデル用の学習データセット 英語に特化したトークン数のデータセット
5.
他データセットとの比較 “Dolma: An Open
Corpus of 3 Trillion Tokens for Language Model Pretraining Research” データセット最大フィルタリングも既存の論文に基づきを実践
6.
“” 年月分のを元に作られたデータセット での前処理を元にを構築、多言語
7.
大規模コーパスの大元データセット 定期的にサイトを巡回し、ページを取得
8.
大規模データセットでの事前学習の始まり “” 年月のをもとに作られた英語データセット 前処理 「」「」「」「のような句読点で終わる行のみを採用 文以下のページを削除、単語以上ある行を残す 禁止単語リストの単語を含むページを削除 「」を含む行を削除 「」を含むページを削除 プログラミングにまつわる記号である「」を含むページを削除 文単位で重複判定し、重複分を削除 を使用し英語以外のページを削除
9.
事前学習用データセットの質・量と下流タスクの性能の関係性 “” ベースモデルでの学習 前処理の効果あまり違いな い? 数多いと性能良い
10.
中の課題が含まれる可能性 “” 中で一番数の多いであるの書類のうちは外から申請されたもの 外では母語での提出の後機械翻訳の使用も許可 をかけて読み込まれた書類もあり
11.
中の課題性能を測るベンチマークのデータセットが含まれる “”
12.
中の課題フィルタリングによって除外されたデータセットが有用な 場合も “” フィルタで除外された文書で大部分がな文書は 残りの中には科学医学法律などにまつわる文書も 特定の性的指向をもつ人の文書も除外されている
13.
のパイプラインを参考に作成したマルチリンガルデータセット “” のから抽出、言語からなるデータセット 英語圏の句読点を元にしたフィルタを外す 新たに文字以上からなる文がつ以上ある場合ページを残すフィルタを追加 という言語判定機を用いて以上の閾値で言語判定
14.
データセットの課題 “” 各言語のデータセットからランダムにサンプルして質を評価 は言語コードと異なるデータが文字として意味がないものが 日本語は良いデータが
15.
超えの巨大データセット非公開 “” によって性能向上を確認 はで学習
16.
のみからのデータセットを構築 “” 同じパイプラインを通せば、のみからの日本語データが手に入りそう
17.
の効果をタスクや判定生成で検証が存在 “” に対して追加のダブり削除、施す どちらのも分類器から出力されるスコアをもとに実施 で検証
18.
時には多様性を確保しつつ、でを調整 “Llama 2: Open
Foundation and Fine-Tuned Chat Models”
19.
最大級の公開データセット “Dolma: An Open
Corpus of 3 Trillion Tokens for Language Model Pretraining Research” の実装も一部公開
20.
本発表のまとめ 事前学習データセットについてどのように集められ、より良い学習のための工夫の概 観を掴んだ 実際に前処理して学習させてみたくなってきましたよね??? そんなあなたへ: LLM講義の演習・課題で思う存分楽しめます
Editor's Notes
#4:
基盤モデルの概要 (20P) 事例集 言語モデルにおける基盤モデル Prompting (20P ~ 25P) In Context Learning Demonstrations Instruction Trigger token td,lr 攻撃的なセンテンスを出させるToken 推論能力 Chain of though prompting Self Consistency Toolの利用,外部知識の参照 Instruction Tuning RLFH Contamination How LLM learn from context? Scaling Law 概要 1例で詳解 冪乗則とは:Scale Free 対数での線形性を満たすようなデータは存在する Discramer:Power Low Region Emergent Ability Grokking 研究から開発へ GPT4の例 モデルの選択 LSTM vs. Transformer 失敗する例もあることに注意 言語モデル以外でのスケール則 Vision Language Model Efficient Net Etc. スケールさせる試み モデルの巨大化 PaLM, MoE:Constrained Routed Language Modelsのスケール則 データを増やす Chinchilla The Pile Dataset, Falcon 40B データの不足 Scaling Law with Dataset Distillation 有効計算量を増やす これって何かある?(目的関数を変える系はあるけど) エポックを増やすとどうなるか?
Download