Data-Intensive Text Processing with MapReduce ch6.1Sho Shimauchi
This document is written about "Data-Intensive Text Processing with MapReduce" Chapter 6.1.
Chapter 6 describes how to design Expectation Maximization with MapReduce algorithm.
Section 6.1 focus to Expectation Maximization algorithm itself, and so there are no description about MapReduce.
Data-Intensive Text Processing with MapReduce ch6.1Sho Shimauchi
This document is written about "Data-Intensive Text Processing with MapReduce" Chapter 6.1.
Chapter 6 describes how to design Expectation Maximization with MapReduce algorithm.
Section 6.1 focus to Expectation Maximization algorithm itself, and so there are no description about MapReduce.
CRF(Conditional Random Fields)を使って html から本文を抽出する実装プロトタイプの紹介です。
http://www.slideshare.net/shuyo/web-using-crf の改訂版です。
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介Koji Matsuda
My presentation of the paper that "Entity Linking meets Word Sense Disambiguation: a Unified Approach" (TACL 2014), Andrea Moro, Alessandro Raganato, Roberto Navigli (University of Roma)
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...Koji Matsuda
The document presents a unified approach for measuring semantic similarity between texts at multiple levels (sense, word, text) using semantic signatures. It generates semantic signatures through multi-seeded random walks over the WordNet graph. It then aligns and disambiguates words and senses to extract sense "seeds" for the signatures. Finally, it calculates signature similarity using measures like cosine similarity, weighted overlap, and top-k Jaccard. The approach provides a unified framework for semantic similarity that can be applied to various NLP tasks.
4. 何が難しいか
• 一般に,トレーニングデータは非常に少ない
– もしかしたら,
1
事例しか与えられないかもしれない
• f(x)
=
y
を満たすような
f(プログラム)
は一般に無限に存在
– ものすごく長い
f
,汎用性のない
f
,,,,
– brute-‐forceにやっても恐らくは見つかるが,たいへん時間がか
かる
• 複数の事例から同時に学習を行う
– 書き換えプログラムの「一般的な性質」を学習!
• ランキング問題として定式化し,もっともらしい
f
を「探索」
する問題に落とす
– 探索の高速化!
4
5. システムのおおまかな構造
書き換え元の学習
データ
:
x
書き換え元の学習
データ
:
y
書き換え元の学習
データ
:
x
書き換え元の学習
データ
:
y
書き換え元の学習
データ
:
x
書き換え元の学習
データ
:
y
書き換え元の学習
データ
:
x
書き換え後の学習
データ
:
y
ルールの集合
R
てがかり(clue)の集合
C
PCFGパラメータ
:
θ
書き換えの導出
抽出
書き換えを行いた
いデータ
:
x
書き換え後の
データ
:
y
5
xからyが復元できるように学習
適用