SlideShare a Scribd company logo
1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
An Iterative Framework for Self-supervised Deep
Speaker Representation Learning
Hiroshi Sekiguchi, Morikawa Lab
書誌情報
• “An Iterative Framework for Self-supervised Deep Speaker
Representation Learning ”
Danwei Cai!, Weiqing Wang!, Ming Li!†
!Department of Electrical and Computer Engineering, Duke University, Durham, USA
†Data Science Research Center, Duke Kunshan University, Kunshan, China
2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713
• 概要
– 話者認識(Speaker Recognition)の分野で、①Contrastive learning+clustering
+purifying+擬似ラベルベースspeaker classficationを用いて、② 上記を繰
り返し学習することで、従来のContrastive learningよりも、よい話者表現が
得られた。
– この表現を、話者認識の一応用である話者照合(Speaker Verification)タス
クで適用したところ、話者認証性能が、単純なContrastive learningよりも向
上した。
• 動機:複数音声分離に話者同定の技術を組み込むことで音声分離
の向上を検討 2
アジェンダ
• 背景
• 提案手法
• 評価
• まとめ
• 感想
3
背景: Speaker Recognitionとは
• Speaker Recognition(話者認識)
– Speaker Recognition(話者認識):人間の声から個人を認識(識別や認証などを含
む)する技術
– 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)が
ある
• Speaker Verification(話者照合): 登録してある本人の話者データと一致するかどうかを判断す
る技術
• Speaker Identification(話者識別): 登録してある他人数のデータの誰の声かを特定する
– いずれも、話者の表現学習(Representation Learning)に帰着
4
本論文の対象技術分野
Speaker Recognition
Speaker verification
Speaker Identification
背景:話者表現学習とは
• 話者の表現力学習の種類
– 話者の平均特徴からの差を話者毎の特徴vectorとする: i-vector
– DNNによる特徴量抽出
• Supervisedな方法: →アノテーションの労力は高い
• Unsupervisedな方法(特にSelf-Supervisedな方法)
– Generativeなアプローチ → 波形レベルの再構成は不要
– Discriminativeなアプローチ→Contrastive Learning
5
現状の課題、達成したい目的と提案方策
• 現状の課題
– 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入
り込んでおり、クラスタリング性能と下流タスク性能を劣化させている
• 達成したい目的
– ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得
• 提案方策
– 提案方策①)擬似ラベルの純粋化(purify):信頼度の低い擬似ラベルを持つデー
タは学習から排除
– 提案方法②)
Contrastive learning → clustering → purify → speaker classification
という、一連の手続きを複数回繰り返すことにより、表現力が増す
– ①と②を併用して、よりよい話者表現を獲得する
6
提案手法-全体1
• ①~⑪を1roundとして、複数
round繰り返す
• Network係数は、次Roundに持ち越
すが、Clusteringの結果は持ち越さ
ない。Clusteringは各Roundでゼロ
から学習する。
7
①
Augmentation
(addition,
reverberation)
②Feature
Extraction
(40-Mel
Spectrogram)
③
Contrastive
Learning
(ResNet/
Pooling/FC)
Speaker
utterance xi
i=1,…N
M<Nで、2M
がContrastive
learningの
batchの大きさ
Background
noise
time
Mel Spec
2-D Feature
map
Contrastive
Loss
LCSL
Xi,2 i=1,..M
⑪
Classifier(
FC?)
⑨Feature
Extraction
(80-Mel
Spectrogram)
⑩
Embedding
( ResNet x2/
Pooling/FC)
Cross entropy
loss
Lspk
Xi ,i=1,…,N’
• 学習 ⑧
Augmentation
(addition,
reverberation)
⑥Clustering
K-Means
⑦
Purify
128次元
Embedding
vector
擬似ラベル
(N個)
純化した
擬似ラベル
(N’個) N’<N
Xi,1 Xi,2
⑤
Embedding
(ResNet/
Pooling/FC)
Frozen係数θ
Xi,1 i=1,..M
Xi ,i=1,…,N ④Feature
Extraction
(40-Mel
Spectrogram)
提案手法-全体2
• 話者照合テスト(下記の図は、発表者の推測)← 下流タスク?
8
⑩
Embedding
(ResNetx2/
Pooling/FC)
話者X の
テスト音声
話者A
Clusterラベ
ル照会
距離 真 or 偽
(例)「話者XはAか?」@ A氏の銀行口座アクセス
話者Aの
centroid
話者Xの
embedding
Frozen係数θ
⑨Feature
Extraction
(80-Mel
Spectrogram) 真偽
判断
提案手法-要素1
① Augmentation: aug(・)
– 背景ノイズを加算:
環境ノイズ、音楽、テレビ音、
バブルノイズ(複数話者の背景会話)
– 部屋の残響を施す
② ③Mel Spectrogram + Contrastive Learning
– Training Set D = { x1,….,xN } , N:発声総数
– Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング
– xiの2つの異なるsegment(2~4秒):xi,1, xi,2
– 𝑓Θ:Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC
– xi,1, xi,2のembedding:zi,1, zi,2,feature mapの統計量,
– Loss:
9
提案手法-要素2
⑥ Clustering
– K-Means
• 𝑧𝑖 = 𝑓Θ(𝑥𝑖)
• 𝐶 ∈ 𝑅𝑑𝑥𝑘
:centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数
• 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖に対するクラスタ割り当て(擬似ラベル)
• 𝐶𝑦𝑖
: centroid 行列𝐶の𝑦𝑖番目の列ベクトル
• 𝐶を右記の最小化問題から求める
• 最適割り当て: {𝑦1, … , 𝑦𝑁}, 𝑁: 総サンプル数、を求める
⑦ purify
– 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2
2
– 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨
⑩⑪で構成されるclassificationの学習対象から除く
– さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、
次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く
– 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10
𝑓Θ(・)
提案手法-要素3
• ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習
– 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑁′
𝑁′: 信頼度の高いサンプル数
– 𝑓Θ(・):Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC
– Embedding: 𝑧𝑖 = 𝑓Θ(𝑎𝑢𝑔(𝑥𝑖))
– Classify: 𝑔𝑤(・): 𝑊 はclassifyのNetwork係数
– Loss:
𝑔𝑤𝑗(𝑧𝑖) : クラススコアベクトル𝑔𝑤(𝑧𝑖)
のj番目の要素
– Θと𝑊を同時に学習
11
𝑓Θ(・) 𝑔𝑤(・)
評価方法
• 話者照合タスクの性能で評価
• データーセット
① 話者表現学習
◼ Voxceleb2データセット
◼ 話者数:5,994人、発声数:1,092,009
◼ セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない
② 話者照合テスト
◼ 3種類のデータセット
◼ Voxcelb1
◼ 話者数:40人、発声数:37,720
◼ Voxcelb 1-E
◼ 話者数:1251人、発声数:581,480
◼ Voxcelb 1-H
◼ 話者数:1190人、発声数:552,536
③ Augmentation用ノイズデータ
◼ MUSAN データセット
◼ 背景ノイズを加算:環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話)
◼ 部屋の残響を加える
◼ 話者音声とのSNR:0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12
評価尺度
• クラスタリング性能の尺度
– Normal mutual information(NMI): 0 ≤ 𝑁𝑀𝐼 ≤ 1
– 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル
– 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量
– 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦
– 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い
• 話者照合の尺度
– Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False
positive)が同率になるように調整した時の率 → 小さい方が良い
– minDCF(Detection Cost Function): cost x 本人拒否率+costx他人受け入れ率
→ 小さい方が良い
13
実験設定
• ①②③ Contrastive learning
– Mel spectrogram特徴量: 40次元/フレーム
– 1フレーム:25msec Hamming Window, 10msecシフト
– 発声セグメント xi,j : 2~4秒の音声
– 学習:
• Batch size: 256
• 最適化:Adam, 初期学習レート:0.001, 温度係数τ:0.1
• ⑥ clustering
– Cluster数( ハイパーパラメータ):6000
• ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習
– 擬似ラベルをG.T.とした教師あり学習
– Mel spectrogram特徴量80次元/フレーム
– Embedding NNに、dropoutあり:過学習防止のため
– 学習:
• 最適化:SDG, 学習率:0.1→学習停滞時に1/10に減少 14
評価結果1
15
• Purifyの効果
– Roundを進める際に、初期の数round
は、厳しめに高信頼度のサンプルのみ
に絞って、Classifyの学習を行う。
Roundが増えるにつれて、信頼度の値
が少々低いサンプルも入れて、
Classifyの学習に使う発声数を増やす
(p↓、S↓)
– NMIが各roundのpurify前と後で、改善
される⇒roundの進行と伴に、クラス
タリング性能が向上している
– Purifyは、クラスタリングの性能向上
に寄与している
Purify
前
Purify
後
向上
増加
減少
減少
評価結果2
• 話者照合テスト性能
– minDCF、ERRともに、3つの
datasetで、roundが進むにつれ
て性能向上する
– Round1では、classify学習に使
うサンプル数が全サンプル数の
32%にも関わらず、高信頼性の
サンプルのみを使っているので、
minCDF, ERR(21.4%改善)とも
に大幅に向上している
– Roundを複数回実行することは、
クラスタリング性能の向上、ひ
いては、話者照合システムの性
能の向上になる
– Fully supervised手法には劣る 16
minDCF EER
増
加 減少(=向上)
増
加
(=
向
上
)
真
の
ク
ラ
ス
タ
数
に
近
づ
く
評価結果3
• クラスタリング進捗の可視化(t-SNE):
6話者の場合
– Roundの進行とともに、クラスタリング、ク
ラスタリングの密度が濃くなる
17
まとめと感想
• まとめ
– Contrastive learning+clustering+purifying+擬似ラベルベースのspeaker Classificationを複数回繰
り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及
び話者照合性能を向上させることができた
– Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラ
スタリング及び話者照合性能を両方を、向上させることができた
– 今後の研究としては、
• 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究:カリキュラム学習、ラベル平滑化
• 各roundのClustering結果を、次のclustering結果に生かす方策
• 感想
– 学習の計算コスト・時間の記述がなかったのが気になる
– Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメ
キはどこから? 18
END
19

More Related Content

What's hot (20)

深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi
 
Iclr2016 vaeまとめ
Iclr2016 vaeまとめIclr2016 vaeまとめ
Iclr2016 vaeまとめ
Deep Learning JP
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
Deep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 
深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎深層学習によるHuman Pose Estimationの基礎
深層学習によるHuman Pose Estimationの基礎
Takumi Ohkuma
 
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
harmonylab
 
[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs[DL輪読会]逆強化学習とGANs
[DL輪読会]逆強化学習とGANs
Deep Learning JP
 
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing[DLHacks]StyleGANとBigGANのStyle mixing, morphing
[DLHacks]StyleGANとBigGANのStyle mixing, morphing
Deep Learning JP
 
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
Takuma Yagi
 
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
【DL輪読会】SDEdit: Guided Image Synthesis and Editing with Stochastic Differentia...
Deep Learning JP
 
【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models【DL輪読会】Transformers are Sample Efficient World Models
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
 
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
[DL輪読会]Deep High-Resolution Representation Learning for Human Pose Estimation
Deep Learning JP
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
 
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
[DL輪読会]The Neural Process Family−Neural Processes関連の実装を読んで動かしてみる−
Deep Learning JP
 
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels[DL輪読会]Learning Latent Dynamics for Planning from Pixels
[DL輪読会]Learning Latent Dynamics for Planning from Pixels
Deep Learning JP
 
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
【DL輪読会】Representational Continuity for Unsupervised Continual Learning ( ICLR...
Deep Learning JP
 
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
【DL輪読会】The Forward-Forward Algorithm: Some Preliminary
Deep Learning JP
 
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP
 
変分推論と Normalizing Flow
変分推論と Normalizing Flow変分推論と Normalizing Flow
変分推論と Normalizing Flow
Akihiro Nitta
 

Similar to [DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning (20)

[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
 
音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用
音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用
音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用
Sayaka Shiota
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
 
音声認識と深層学習
音声認識と深層学習音声認識と深層学習
音声認識と深層学習
Preferred Networks
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
Saito19asj_s
Saito19asj_sSaito19asj_s
Saito19asj_s
Yuki Saito
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
 
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdf
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdfAWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdf
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdf
Ken IshiKen
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Deep Learning JP
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
深層学習入門
深層学習入門深層学習入門
深層学習入門
Danushka Bollegala
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
[DL輪読会]VOICEFILTER: Targeted Voice Separation by Speaker-Conditioned Spectrog...
Deep Learning JP
 
音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用
音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用
音学シンポジウム 2024 招待講演 初学者のための話者認識入門:基礎技術と応用
Sayaka Shiota
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
[DL輪読会]Discriminative Learning for Monaural Speech Separation Using Deep Embe...
Deep Learning JP
 
Nakai22sp03 presentation
Nakai22sp03 presentationNakai22sp03 presentation
Nakai22sp03 presentation
Yuki Saito
 
国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告国際会議 interspeech 2020 報告
国際会議 interspeech 2020 報告
Shinnosuke Takamichi
 
Saito20asj_autumn
Saito20asj_autumnSaito20asj_autumn
Saito20asj_autumn
Yuki Saito
 
Deep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generationDeep learning for acoustic modeling in parametric speech generation
Deep learning for acoustic modeling in parametric speech generation
Yuki Saito
 
NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告NLP若手の回 ACL2012参加報告
NLP若手の回 ACL2012参加報告
Hiroyuki TOKUNAGA
 
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
禎晃 山崎
 
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdf
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdfAWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdf
AWS 音声基盤モデル トーク解析AI MiiTelの音声処理について.pdf
Ken IshiKen
 
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
Interspeech2020 paper reading workshop "Similarity-and-Independence-Aware-Bea...
ssuserf54db1
 
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
[DL輪読会]Monaural Audio Source Separationusing Variational Autoencoders
Deep Learning JP
 
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズムDNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
DNN音声合成のための Anti-spoofing を考慮した学習アルゴリズム
Yuki Saito
 
ICASSP読み会2020
ICASSP読み会2020ICASSP読み会2020
ICASSP読み会2020
Yuki Saito
 
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
DeBERTaV3: Improving DeBERTa using ELECTRA-Style Pre-Training with Gradient-D...
harmonylab
 
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
差分スペクトル法に基づくDNN声質変換のためのリフタ学習およびサブバンド処理
Takaaki Saeki
 
Ad

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
Deep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
Deep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
Deep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
Deep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
Deep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
Deep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
Deep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
Deep Learning JP
 
Ad

[DL輪読会]An Iterative Framework for Self-supervised Deep Speaker Representation Learning

  • 1. 1 DEEP LEARNING JP [DL Papers] http://deeplearning.jp/ An Iterative Framework for Self-supervised Deep Speaker Representation Learning Hiroshi Sekiguchi, Morikawa Lab
  • 2. 書誌情報 • “An Iterative Framework for Self-supervised Deep Speaker Representation Learning ” Danwei Cai!, Weiqing Wang!, Ming Li!† !Department of Electrical and Computer Engineering, Duke University, Durham, USA †Data Science Research Center, Duke Kunshan University, Kunshan, China 2021 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING (ICASSP 2021) , pp.6728-6732 https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9414713 • 概要 – 話者認識(Speaker Recognition)の分野で、①Contrastive learning+clustering +purifying+擬似ラベルベースspeaker classficationを用いて、② 上記を繰 り返し学習することで、従来のContrastive learningよりも、よい話者表現が 得られた。 – この表現を、話者認識の一応用である話者照合(Speaker Verification)タス クで適用したところ、話者認証性能が、単純なContrastive learningよりも向 上した。 • 動機:複数音声分離に話者同定の技術を組み込むことで音声分離 の向上を検討 2
  • 3. アジェンダ • 背景 • 提案手法 • 評価 • まとめ • 感想 3
  • 4. 背景: Speaker Recognitionとは • Speaker Recognition(話者認識) – Speaker Recognition(話者認識):人間の声から個人を認識(識別や認証などを含 む)する技術 – 種類として、Speaker Verification(話者照合)、Speaker Identification(話者識別)が ある • Speaker Verification(話者照合): 登録してある本人の話者データと一致するかどうかを判断す る技術 • Speaker Identification(話者識別): 登録してある他人数のデータの誰の声かを特定する – いずれも、話者の表現学習(Representation Learning)に帰着 4 本論文の対象技術分野 Speaker Recognition Speaker verification Speaker Identification
  • 5. 背景:話者表現学習とは • 話者の表現力学習の種類 – 話者の平均特徴からの差を話者毎の特徴vectorとする: i-vector – DNNによる特徴量抽出 • Supervisedな方法: →アノテーションの労力は高い • Unsupervisedな方法(特にSelf-Supervisedな方法) – Generativeなアプローチ → 波形レベルの再構成は不要 – Discriminativeなアプローチ→Contrastive Learning 5
  • 6. 現状の課題、達成したい目的と提案方策 • 現状の課題 – 従来のContrastive Learningのみの学習で得た表現力には、ラベルにノイズが入 り込んでおり、クラスタリング性能と下流タスク性能を劣化させている • 達成したい目的 – ラベルノイズを低減し、話者照合タスクの性能を向上させる話者表現の獲得 • 提案方策 – 提案方策①)擬似ラベルの純粋化(purify):信頼度の低い擬似ラベルを持つデー タは学習から排除 – 提案方法②) Contrastive learning → clustering → purify → speaker classification という、一連の手続きを複数回繰り返すことにより、表現力が増す – ①と②を併用して、よりよい話者表現を獲得する 6
  • 7. 提案手法-全体1 • ①~⑪を1roundとして、複数 round繰り返す • Network係数は、次Roundに持ち越 すが、Clusteringの結果は持ち越さ ない。Clusteringは各Roundでゼロ から学習する。 7 ① Augmentation (addition, reverberation) ②Feature Extraction (40-Mel Spectrogram) ③ Contrastive Learning (ResNet/ Pooling/FC) Speaker utterance xi i=1,…N M<Nで、2M がContrastive learningの batchの大きさ Background noise time Mel Spec 2-D Feature map Contrastive Loss LCSL Xi,2 i=1,..M ⑪ Classifier( FC?) ⑨Feature Extraction (80-Mel Spectrogram) ⑩ Embedding ( ResNet x2/ Pooling/FC) Cross entropy loss Lspk Xi ,i=1,…,N’ • 学習 ⑧ Augmentation (addition, reverberation) ⑥Clustering K-Means ⑦ Purify 128次元 Embedding vector 擬似ラベル (N個) 純化した 擬似ラベル (N’個) N’<N Xi,1 Xi,2 ⑤ Embedding (ResNet/ Pooling/FC) Frozen係数θ Xi,1 i=1,..M Xi ,i=1,…,N ④Feature Extraction (40-Mel Spectrogram)
  • 8. 提案手法-全体2 • 話者照合テスト(下記の図は、発表者の推測)← 下流タスク? 8 ⑩ Embedding (ResNetx2/ Pooling/FC) 話者X の テスト音声 話者A Clusterラベ ル照会 距離 真 or 偽 (例)「話者XはAか?」@ A氏の銀行口座アクセス 話者Aの centroid 話者Xの embedding Frozen係数θ ⑨Feature Extraction (80-Mel Spectrogram) 真偽 判断
  • 9. 提案手法-要素1 ① Augmentation: aug(・) – 背景ノイズを加算: 環境ノイズ、音楽、テレビ音、 バブルノイズ(複数話者の背景会話) – 部屋の残響を施す ② ③Mel Spectrogram + Contrastive Learning – Training Set D = { x1,….,xN } , N:発声総数 – Batch B = { x1,….,xM}, DからM個 (M<N)の発声をrandomにサンプリング – xiの2つの異なるsegment(2~4秒):xi,1, xi,2 – 𝑓Θ:Mel Spectrogram extraction + 34-layer ResNet + Pooling + FC – xi,1, xi,2のembedding:zi,1, zi,2,feature mapの統計量, – Loss: 9
  • 10. 提案手法-要素2 ⑥ Clustering – K-Means • 𝑧𝑖 = 𝑓Θ(𝑥𝑖) • 𝐶 ∈ 𝑅𝑑𝑥𝑘 :centroid 行列, 𝑑: embedding次元数, 𝑘: クラスタ数 • 𝑦𝑖 ∈ 1, … , 𝑘 : 𝑧𝑖に対するクラスタ割り当て(擬似ラベル) • 𝐶𝑦𝑖 : centroid 行列𝐶の𝑦𝑖番目の列ベクトル • 𝐶を右記の最小化問題から求める • 最適割り当て: {𝑦1, … , 𝑦𝑁}, 𝑁: 総サンプル数、を求める ⑦ purify – 擬似ラベルの信頼度: − 𝑧𝑖 − 𝐶𝑦𝑖 2 2 – 信頼度の低いサンプル順に、総サンプルN個の割合𝑝 0 ≤ 𝑝 ≤ 1 分のサンプル数を、次の⑧⑨ ⑩⑪で構成されるclassificationの学習対象から除く – さらに、結果としてクラスタ内に残るサンプル数が 𝑆 より小さいクラスタに属するサンプルも、 次の⑧⑨⑩⑪で構成されるclassificationの学習対象から除く – 最初の数roundはpもSも大き目で、信頼度の高いサンプルのみを次の学習に残す 10 𝑓Θ(・)
  • 11. 提案手法-要素3 • ⑧⑨⑩⑪ 信頼度の高い擬似ラベルでのspeaker classification学習 – 信頼度の高い擬似ラベルを持つ学習データ 𝑥𝑖, 𝑦𝑖 , 𝑖 = 1, … , 𝑁′ 𝑁′: 信頼度の高いサンプル数 – 𝑓Θ(・):Mel Spectrogram extraction + 2x (34-layer ResNet) + Pooling + FC – Embedding: 𝑧𝑖 = 𝑓Θ(𝑎𝑢𝑔(𝑥𝑖)) – Classify: 𝑔𝑤(・): 𝑊 はclassifyのNetwork係数 – Loss: 𝑔𝑤𝑗(𝑧𝑖) : クラススコアベクトル𝑔𝑤(𝑧𝑖) のj番目の要素 – Θと𝑊を同時に学習 11 𝑓Θ(・) 𝑔𝑤(・)
  • 12. 評価方法 • 話者照合タスクの性能で評価 • データーセット ① 話者表現学習 ◼ Voxceleb2データセット ◼ 話者数:5,994人、発声数:1,092,009 ◼ セラブのインタビューvideoの音声部を使用。Videoとラベルは使用しない ② 話者照合テスト ◼ 3種類のデータセット ◼ Voxcelb1 ◼ 話者数:40人、発声数:37,720 ◼ Voxcelb 1-E ◼ 話者数:1251人、発声数:581,480 ◼ Voxcelb 1-H ◼ 話者数:1190人、発声数:552,536 ③ Augmentation用ノイズデータ ◼ MUSAN データセット ◼ 背景ノイズを加算:環境ノイズ、音楽、テレビ音、バブルノイズ(複数話者の背景会話) ◼ 部屋の残響を加える ◼ 話者音声とのSNR:0~20dBをランダムに設定、加える時間的頻度は0.6の割合 12
  • 13. 評価尺度 • クラスタリング性能の尺度 – Normal mutual information(NMI): 0 ≤ 𝑁𝑀𝐼 ≤ 1 – 𝑈: ラベルのG.T., 𝑉: 予測した擬似ラベル – 𝐼(𝑈, 𝑉): 𝑈と𝑉間の相互情報量 – 𝐻 ・ : 𝑒𝑛𝑡𝑟𝑜𝑝𝑦 – 𝑈と𝑉の分布が近い: 1に近い, 𝑈と𝑉の分布が独立:0に近い • 話者照合の尺度 – Equal Error Rate (EER): 本人拒否率(False negative)と他人受け入れ率(False positive)が同率になるように調整した時の率 → 小さい方が良い – minDCF(Detection Cost Function): cost x 本人拒否率+costx他人受け入れ率 → 小さい方が良い 13
  • 14. 実験設定 • ①②③ Contrastive learning – Mel spectrogram特徴量: 40次元/フレーム – 1フレーム:25msec Hamming Window, 10msecシフト – 発声セグメント xi,j : 2~4秒の音声 – 学習: • Batch size: 256 • 最適化:Adam, 初期学習レート:0.001, 温度係数τ:0.1 • ⑥ clustering – Cluster数( ハイパーパラメータ):6000 • ⑧⑨⑩⑪信頼度の高い擬似ラベルでのspeaker classification学習 – 擬似ラベルをG.T.とした教師あり学習 – Mel spectrogram特徴量80次元/フレーム – Embedding NNに、dropoutあり:過学習防止のため – 学習: • 最適化:SDG, 学習率:0.1→学習停滞時に1/10に減少 14
  • 15. 評価結果1 15 • Purifyの効果 – Roundを進める際に、初期の数round は、厳しめに高信頼度のサンプルのみ に絞って、Classifyの学習を行う。 Roundが増えるにつれて、信頼度の値 が少々低いサンプルも入れて、 Classifyの学習に使う発声数を増やす (p↓、S↓) – NMIが各roundのpurify前と後で、改善 される⇒roundの進行と伴に、クラス タリング性能が向上している – Purifyは、クラスタリングの性能向上 に寄与している Purify 前 Purify 後 向上 増加 減少 減少
  • 16. 評価結果2 • 話者照合テスト性能 – minDCF、ERRともに、3つの datasetで、roundが進むにつれ て性能向上する – Round1では、classify学習に使 うサンプル数が全サンプル数の 32%にも関わらず、高信頼性の サンプルのみを使っているので、 minCDF, ERR(21.4%改善)とも に大幅に向上している – Roundを複数回実行することは、 クラスタリング性能の向上、ひ いては、話者照合システムの性 能の向上になる – Fully supervised手法には劣る 16 minDCF EER 増 加 減少(=向上) 増 加 (= 向 上 ) 真 の ク ラ ス タ 数 に 近 づ く
  • 18. まとめと感想 • まとめ – Contrastive learning+clustering+purifying+擬似ラベルベースのspeaker Classificationを複数回繰 り返すことで、Contrastive learning単体よりも、話者表現能力が増加し、クラスタリング性能及 び話者照合性能を向上させることができた – Purifyの効果が、擬似ラベルのノイズによる性能劣化を回避し、round回数の進行と伴に、クラ スタリング及び話者照合性能を両方を、向上させることができた – 今後の研究としては、 • 除外すべき信頼度の低いサンプルを選択する洗練された手法の研究:カリキュラム学習、ラベル平滑化 • 各roundのClustering結果を、次のclustering結果に生かす方策 • 感想 – 学習の計算コスト・時間の記述がなかったのが気になる – Roundを複数回繰り返すと良くなる理論的な根拠はあるのか。その公算があると思えたヒラメ キはどこから? 18