SlideShare a Scribd company logo
2014/02/06 PFI

Statistical Semantic
~
word2vec
Preferred Infrastructure
(@unnonouno)

~
(@unnonouno)

! 
! 
! 
! 

! 

IBM

PFI
Statistical Semantic入門 ~分布仮説からword2vecまで~
Semantics
[Bird+10]
10
10.1
10.2
10.3
10.4
10.5
10.6
10.7
10.8
[

+96]
5.
5.1
5.2
5.3
5.4
Wikipedia

! 
! 
! 
! 
! 
! 
! 

! 

! 

Statistical Semantics

Statistical Semantics
Statistical Semantics Distributional Semantics

! 
! 
! 
[Evert10]

NAACL2010 Stefan Evert
Semantic Models

Distributional
???

[Evert10]
???
2 cat

pig

knife

[Evert10]
dog

[Evert10]
(Distributional Hypothesis)
The Distributional Hypothesis is that words
that occur in the same contexts tend to have
similar meanings (Harris, 1954). (ACL wiki
)

! 
! 
(Statistical Semantics)
Statistical Semantics is the study of "how the
statistical patterns of human word usage can be
used to figure out what people mean, at least to
a level sufficient for information access” (ACL
wiki
)

! 
! 
Statistical Semantic入門 ~分布仮説からword2vecまで~
[

13]
! 
! 

! 
! 
! 

! 
! 

! 
! 

! 
! 
! 

! 

PFI
! 
! 
! 

! 

1
3
! 
! 

ex:

! 

etc…

ex:

! 

-

etc…

! 
! 
! 

ex:

NN
NN

etc…
: Latent Semantic Indexing (LSI),
Latent Semantic Analysis (LSA) [Deerwester+90]
! 
! 

! 

! 
LSI

k:

(SVD)
U

=

x

∑

x

i
i k

V
LSI
! 
! 
! 

! 

SVD
! 

-

-

etc.
etc.

! 

-

! 

etc.
Statistical Semantic入門 ~分布仮説からword2vecまで~
LSI

NMF

PLSI

LDA

NNLM

RNNLM

NTF

Skipgram

NN
! 

LSI

! 

Good
! 
! 

Bad
! 
! 

! 

! 
Probabilistic Latent Semantic
Indexing (PLSI) [Hofmann99]
! 

LSI

! 
! 

! 

ex:

LSI
PLSI
! 
! 

! 
! 
! 

! 

ex:
Latent Dirichlet Allocation (LDA) [Blei03]

PLSI
!  PLSI
LDA
! 
LDA
! 

NLP

! 

! 

1
! 
! 
! 

ex:

etc.

! 
! 

! 

1.0
! 
! 

Good
! 

Bad
! 
! 

LSI

SVD
Non-negative Matrix Factorization (NMF) [Lee
+99]
! 

SVD

! 
! 

[Lee+99]
NMF = PLSI [Dinga+08]
! 

NMF

PLSI

! 

NMF

PLSI
Non-negative Tensor Factorization (NTF)
[Cruys10]

3

! 
! 

2

3
! 
! 

SVD
! 
! 

Good
! 

Bad
! 
! 

word2vec
Neural Network Language Model (NNLM) [Bengio
+03]
! 
! 

N
NN
N-1
Recurrent Neural Network Language Model
(RNNLM) [Mikolov+10]
! 

t-1
t
! 

NNLM

N

! 

! 

http://rnnlm.org
RNNLM
! 

[Mikolov+13a]
RNNLM

! 

Transition-based parser

RNNLM
! 

! 
! 

Stack recurrent

Transition-based parser
Skip-gram

(word2vec) [Mikolov+13b]
! 
! 

CBOW
! 

Analogical reasoning

! 

Parser
Skip-gram

[Mikolov+13b]
: w1, w2, …, wT

! 

wi

c

vw

w

5
! 
[Mikolov+13c]
! 
word2vec
! 
! 
! 

! 

! 

NMF
[Kim+13]
! 

“good”

”best”

”better”
[Mikolov+13d]
! 
! 
NN
! 
! 

! 

2013

! 
! 
! 

Mikolov

15
! 

N

! 
! 
! 

NN

! 
! 
! 
! 

NN

N
! 

NN
! 

! 
! 

! 
! 
! 
! 

Statistical Semantics
! 

3

! 
! 

! 

NN
! 
! 

NN
1
! 

! 

! 
! 

! 

[Bird+10] Steven Bird, Ewan Klein, Edward Loper,
,
,
.
.
, 2010.
[
+96]
.
.
, 1996.
[Evert10] Stefan Evert.
Distributional Semantic Models. NAACL 2010 Tutorial.
[
13]
.
.
, 2013.
[Deerwester+90] Scott Deerwester, Susan T. Dumais, George W.
Furnas, Thomas K. Landauer, Richard Harshman.
Indexing by Latent Semantic Analysis. JASIS, 1990.
2
! 
! 

! 

! 

! 

[Hofmann99] Thomas Hofmann.
Probabilistic Latent Semantic Indexing. SIGIR, 1999.
[Blei+03] David M. Blei, Andrew Y. Ng, Michael I. Jordan.
Latent Dirichlet Allocation. JMLR, 2003.
[Lee+99] Daniel D. Lee, H. Sebastian Seung.
Learning the parts of objects by non-negative matrix factorization.
Nature, vol 401, 1999.
[Ding+08] Chris Ding, Tao Li, Wei Peng.
On the equivalence between Non-negative Matrix Factorization and
Probabilistic Latent Semantic Indexing. Computational Statistics &
Data Analysis, 52(8), 2008.
[Cruys10] Tim Van de Cruys.
A Non-negative Tensor Factorization Model for Selectional Preference
Induction. Natural Language Engineering, 16(4), 2010.
3
! 

! 

! 

! 

NN 1

[Bengio+03] Yoshua Bengio, Réjean Ducharme, Pascal Vincent,
Christian Jauvin.
A Neural Probabilistic Language Model. JMLR, 2003.
[Mikolov+10] Tomas Mikolov, Martin Karafiat, Lukas Burget, Jan
"Honza" Cernocky, Sanjeev Khudanpur.
Recurrent neural network based language model.
Interspeech, 2010.
[Mikolov+13a] Tomas Mikolov, Wen-tau Yih, Geoffrey Zweig.
Linguistic Regularities in Continuous Space Word
Representations. HLT-NAACL, 2013.
[Mikolov+13b] Tomas Mikolov, Kai Chen, Greg Corrado, Jeffrey
Dean.
Efficient Estimation of Word Representations in Vector Space.
CoRR, 2013.
4
! 

! 

! 

NN 2

[Mikolov+13c] Tomas Mikolov, Ilya Sutskever, Kai Chen, Gregory
S. Corrado, Jeffrey Dean.
Distributed Representations of Words and Phrases and their
Compositionality. NIPS, 2013.
[Kim+13] Joo-Kyung Kim, Marie-Catherine de Marneffe.
Deriving adjectival scales from continuous space word
representations. EMNLP 2013.
,
[Mikolov+13d] Tomas Mikolov, Quoc V. Le, Ilya Sutskever.
Exploiting Similarities among Languages for Machine
Translation. CoRR, 2013.

More Related Content

PDF
BERT入門
PDF
[DL輪読会]Understanding Black-box Predictions via Influence Functions
PDF
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
PDF
グラフィカル Lasso を用いた異常検知
PDF
最近のDeep Learning (NLP) 界隈におけるAttention事情
PDF
Bayesian Neural Networks : Survey
PPTX
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
PPTX
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...
BERT入門
[DL輪読会]Understanding Black-box Predictions via Influence Functions
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
グラフィカル Lasso を用いた異常検知
最近のDeep Learning (NLP) 界隈におけるAttention事情
Bayesian Neural Networks : Survey
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
[DL輪読会]Set Transformer: A Framework for Attention-based Permutation-Invariant...

What's hot (20)

PPTX
【DL輪読会】Flow Matching for Generative Modeling
PPTX
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
PDF
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
PDF
Optimizer入門&最新動向
PDF
深層生成モデルと世界モデル(2020/11/20版)
PPTX
[DL輪読会]相互情報量最大化による表現学習
PDF
Recent Advances on Transfer Learning and Related Topics Ver.2
PDF
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
PDF
最適輸送入門
PPTX
Curriculum Learning (関東CV勉強会)
PPTX
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PPTX
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PDF
PRML学習者から入る深層生成モデル入門
PDF
SSII2022 [OS3-02] Federated Learningの基礎と応用
PPTX
[DL輪読会]Focal Loss for Dense Object Detection
PPTX
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PDF
PCAの最終形態GPLVMの解説
PDF
よくわかるフリストンの自由エネルギー原理
PDF
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
PPTX
モデル高速化百選
【DL輪読会】Flow Matching for Generative Modeling
[DL輪読会]Vision Transformer with Deformable Attention (Deformable Attention Tra...
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Optimizer入門&最新動向
深層生成モデルと世界モデル(2020/11/20版)
[DL輪読会]相互情報量最大化による表現学習
Recent Advances on Transfer Learning and Related Topics Ver.2
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
最適輸送入門
Curriculum Learning (関東CV勉強会)
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PRML学習者から入る深層生成モデル入門
SSII2022 [OS3-02] Federated Learningの基礎と応用
[DL輪読会]Focal Loss for Dense Object Detection
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
PCAの最終形態GPLVMの解説
よくわかるフリストンの自由エネルギー原理
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
モデル高速化百選
Ad

Viewers also liked (8)

PDF
表現学習時代の生成語彙論ことはじめ
PPTX
ニューラル・ネットワークと技術革新の展望
PDF
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
PPTX
距離が付加された要素集合をコンパクトに表現できるDistance Bloom Filterの提案とP2Pネットワークにおける最短経路探索への応用
PDF
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
KEY
次数制限モデルにおける全てのCSPに対する最適な定数時間近似アルゴリズムと近似困難性
PDF
Layer Normalization@NIPS+読み会・関西
PDF
パターン認識と機械学習入門
表現学習時代の生成語彙論ことはじめ
ニューラル・ネットワークと技術革新の展望
行動計量シンポジウム20140321 http://lab.synergy-marketing.co.jp/activity/bsj_98th
距離が付加された要素集合をコンパクトに表現できるDistance Bloom Filterの提案とP2Pネットワークにおける最短経路探索への応用
ベイジアンネット技術とサービス工学におけるビッグデータ活用技術
次数制限モデルにおける全てのCSPに対する最適な定数時間近似アルゴリズムと近似困難性
Layer Normalization@NIPS+読み会・関西
パターン認識と機械学習入門
Ad

Similar to Statistical Semantic入門 ~分布仮説からword2vecまで~ (20)

PDF
Latent Semantic Word Sense Disambiguation Using Global Co-Occurrence Information
PDF
CS571: Distributional semantics
PPTX
Distributional semantics
PDF
Lecture14 xing fei-fei
PPTX
What is word2vec?
PPTX
Introduction to Distributional Semantics
PPTX
Neural Text Embeddings for Information Retrieval (WSDM 2017)
PPTX
L6.pptxsdv dfbdfjftj hgjythgfvfhjyggunghb fghtffn
PDF
Exploiting Distributional Semantic Models in Question Answering
PPTX
A Simple Introduction to Word Embeddings
PDF
AMBIGUITY-AWARE DOCUMENT SIMILARITY
PDF
IJNLC 2013 - Ambiguity-Aware Document Similarity
PPTX
A Simple Introduction to Neural Information Retrieval
PDF
StarSpace: Embed All The Things!
PPTX
Designing, Visualizing and Understanding Deep Neural Networks
PDF
Statistics-based Approaches to Lexical Semantics
PPTX
Word representations in vector space
PPTX
DL-CO2 -Session 3 Learning Vectorial Representations of Words.pptx
PPTX
Using Text Embeddings for Information Retrieval
PDF
Categorical Evaluation for Advanced Distributional Semantic Models
Latent Semantic Word Sense Disambiguation Using Global Co-Occurrence Information
CS571: Distributional semantics
Distributional semantics
Lecture14 xing fei-fei
What is word2vec?
Introduction to Distributional Semantics
Neural Text Embeddings for Information Retrieval (WSDM 2017)
L6.pptxsdv dfbdfjftj hgjythgfvfhjyggunghb fghtffn
Exploiting Distributional Semantic Models in Question Answering
A Simple Introduction to Word Embeddings
AMBIGUITY-AWARE DOCUMENT SIMILARITY
IJNLC 2013 - Ambiguity-Aware Document Similarity
A Simple Introduction to Neural Information Retrieval
StarSpace: Embed All The Things!
Designing, Visualizing and Understanding Deep Neural Networks
Statistics-based Approaches to Lexical Semantics
Word representations in vector space
DL-CO2 -Session 3 Learning Vectorial Representations of Words.pptx
Using Text Embeddings for Information Retrieval
Categorical Evaluation for Advanced Distributional Semantic Models

More from Yuya Unno (20)

PDF
深層学習で切り拓くパーソナルロボットの未来
PDF
深層学習時代の 自然言語処理ビジネス
PDF
ベンチャー企業で言葉を扱うロボットの研究開発をする
PDF
PFNにおける セミナー活動
PDF
深層学習フレームワーク Chainerとその進化
PDF
進化するChainer
PDF
予測型戦略を知るための機械学習チュートリアル
PDF
深層学習による機械とのコミュニケーション
PDF
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
PDF
Chainer, Cupy入門
PDF
Chainerのテスト環境とDockerでのCUDAの利用
PDF
深層学習フレームワークChainerの特徴
PDF
子供の言語獲得と機械の言語獲得
PDF
NIP2015読み会「End-To-End Memory Networks」
PDF
Chainer入門と最近の機能
PDF
Chainerの使い方と 自然言語処理への応用
PDF
GPU上でのNLP向け深層学習の実装について
PDF
言語と知識の深層学習@認知科学会サマースクール
PDF
企業における自然言語処理技術利用の最先端
PDF
「知識」のDeep Learning
深層学習で切り拓くパーソナルロボットの未来
深層学習時代の 自然言語処理ビジネス
ベンチャー企業で言葉を扱うロボットの研究開発をする
PFNにおける セミナー活動
深層学習フレームワーク Chainerとその進化
進化するChainer
予測型戦略を知るための機械学習チュートリアル
深層学習による機械とのコミュニケーション
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
Chainer, Cupy入門
Chainerのテスト環境とDockerでのCUDAの利用
深層学習フレームワークChainerの特徴
子供の言語獲得と機械の言語獲得
NIP2015読み会「End-To-End Memory Networks」
Chainer入門と最近の機能
Chainerの使い方と 自然言語処理への応用
GPU上でのNLP向け深層学習の実装について
言語と知識の深層学習@認知科学会サマースクール
企業における自然言語処理技術利用の最先端
「知識」のDeep Learning

Recently uploaded (20)

PDF
Chapter 2 Digital Image Fundamentals.pdf
PDF
HCSP-Presales-Campus Network Planning and Design V1.0 Training Material-Witho...
PPTX
Understanding_Digital_Forensics_Presentation.pptx
PPTX
20250228 LYD VKU AI Blended-Learning.pptx
PDF
TokAI - TikTok AI Agent : The First AI Application That Analyzes 10,000+ Vira...
PDF
Peak of Data & AI Encore- AI for Metadata and Smarter Workflows
PDF
Spectral efficient network and resource selection model in 5G networks
PDF
NewMind AI Weekly Chronicles - August'25 Week I
PDF
GDG Cloud Iasi [PUBLIC] Florian Blaga - Unveiling the Evolution of Cybersecur...
PDF
CIFDAQ's Market Wrap: Ethereum Leads, Bitcoin Lags, Institutions Shift
PDF
How Onsite IT Support Drives Business Efficiency, Security, and Growth.pdf
PPTX
Telecom Fraud Prevention Guide | Hyperlink InfoSystem
PPTX
Effective Security Operations Center (SOC) A Modern, Strategic, and Threat-In...
PPTX
Comunidade Salesforce São Paulo - Desmistificando o Omnistudio (Vlocity)
PDF
Diabetes mellitus diagnosis method based random forest with bat algorithm
PDF
Advanced methodologies resolving dimensionality complications for autism neur...
PDF
NewMind AI Monthly Chronicles - July 2025
PDF
GamePlan Trading System Review: Professional Trader's Honest Take
PDF
solutions_manual_-_materials___processing_in_manufacturing__demargo_.pdf
PDF
Shreyas Phanse Resume: Experienced Backend Engineer | Java • Spring Boot • Ka...
Chapter 2 Digital Image Fundamentals.pdf
HCSP-Presales-Campus Network Planning and Design V1.0 Training Material-Witho...
Understanding_Digital_Forensics_Presentation.pptx
20250228 LYD VKU AI Blended-Learning.pptx
TokAI - TikTok AI Agent : The First AI Application That Analyzes 10,000+ Vira...
Peak of Data & AI Encore- AI for Metadata and Smarter Workflows
Spectral efficient network and resource selection model in 5G networks
NewMind AI Weekly Chronicles - August'25 Week I
GDG Cloud Iasi [PUBLIC] Florian Blaga - Unveiling the Evolution of Cybersecur...
CIFDAQ's Market Wrap: Ethereum Leads, Bitcoin Lags, Institutions Shift
How Onsite IT Support Drives Business Efficiency, Security, and Growth.pdf
Telecom Fraud Prevention Guide | Hyperlink InfoSystem
Effective Security Operations Center (SOC) A Modern, Strategic, and Threat-In...
Comunidade Salesforce São Paulo - Desmistificando o Omnistudio (Vlocity)
Diabetes mellitus diagnosis method based random forest with bat algorithm
Advanced methodologies resolving dimensionality complications for autism neur...
NewMind AI Monthly Chronicles - July 2025
GamePlan Trading System Review: Professional Trader's Honest Take
solutions_manual_-_materials___processing_in_manufacturing__demargo_.pdf
Shreyas Phanse Resume: Experienced Backend Engineer | Java • Spring Boot • Ka...

Statistical Semantic入門 ~分布仮説からword2vecまで~