理系大学院留学日記: ACL 2011 で公開された自然言語処理（言い換え系）データ

先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを５つを紹介します。（他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。）

【1】

Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation
David Chen¹ and William Dolan²
¹The University of Texas at Austin, ²Microsoft Research

複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。（動画だと画像より解釈のブレが減るとか。）言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと見たところ、質を量でカバーしているようなデータという印象を受けた。かすかに英語以外も混じっている。どの発表者だったか忘れたが、研究者はMSRのパラフレーズコーパスやペンツリーバンクなどから新しいデータに移行していくべきだと提唱していた。これは新MSパラフレーズコーパスとなるか・・・？

データダウンロード：
http://research.microsoft.com/en-us/downloads/38cf15fd-b8df-477e-a4e4-a4680caa75af/

データスナップショット：
8D_oQnBPfNo,43,50,615204,clean,152,English,A soft cuddly cat is licking itself.
8D_oQnBPfNo,43,50,309959,clean,21,English,The cat gave himself a bath.
8D_oQnBPfNo,43,50,553931,clean,18,English,The cat is cleaning its fur.
8D_oQnBPfNo,43,50,762891,clean,29,English,The cat is cleaning it's fur.
8D_oQnBPfNo,43,50,411294,unverified,17,English,The cat is licking his fur.
8D_oQnBPfNo,43,50,651813,unverified,15,English,A cat is cleaning itself.

【2】

Session 2-E - Lexical Normalisation of Short Text Messages: Makn Sens a \#twitter
Bo Han and Timothy Baldwin
The University of Melbourne

dontとdon't、 niteとnightのように、ツイートの集合から辞書に載っていないようなOut of Vocabulary (OOV) のリストを自動的に作り、OOVに対してはその本来の単語を見つけてヒモ付けてあげたデータ。全体で1万以上の項目数だが重複・ノイズ多数あり。使われたOOVをツイートgeocodingにより地図上に表示すると、スラングの地域性のようなものが見えて面白かった（この発表ではなかったかもしれないが）。ノイズの多いソーシャルメディアテキストに対して自然言語処理をするにはこういう辞書が大切。

データダウンロード：
http://www.csse.unimelb.edu.au/research/lt/resources/lexnorm/

データスナップショット：
pix OOV pictures
comming OOV coming
tomoroe OOV tomorrow

wiz OOV with
kool OOV cool
phat OOV fat

【3】

Session 9-C - Extracting Paraphrases from Definition Sentences on the Web
Chikara Hashimoto¹, Kentaro Torisawa¹, Stijn De Saeger¹, Jun'ichi Kazama¹, Sadao Kurohashi²
¹National Institute of Information and Communications Technology, ²Kyoto University

ウェブ上から定義文を集め、同じ概念に対する違う定義を自動的に見つけて言い換え資源としたもの。30Mの定義文から300K の言い換えを精度 94%で集めた素晴らしい大規模データ。パラフレーズとなる部分だけでなく、文レベルでコンテキストの類似度を考慮しているのが成功の秘訣・・・？

データダウンロード（将来的に公開予定）：

http://alaginrc.nict.go.jp/

データスナップショット（ペーパーより）：

【4】

S-40 An Empirical Evaluation of Data-Driven Paraphrase Generation Techniques
Donald Metzler, Eduard Hovy, Chunliang Zhang
University of Southern California

100の動詞を対象に10個前後の言い換えを生成。メカニカルターク判定者の評価ラベルつき。（再）実装された言い換えルール学習アルゴリズムは、Pasca and Dienes (2005) , Bhagat and Ravichandran (2008), Bannard and Callison-Burch (2005), Callison-Burch (2008), Metzler and Hovy 2011)など幅広い。ちなみに私がEMNLP TextInfer2011ワークショップで発表予定のペーパーはこのデータを使った。

データダウンロード：

http://www.isi.edu/~metzler/paraphrase-eval

データスナップショット：
ic-14 killed murdered 0.07020154
ic-14 killed dead 0.04722153
ic-14 killed death 0.03865272
ic-14 killed deaths 0.0286546
ic-14 killed died 0.02703817
ic-14 killed victims 0.01446235
ic-14 killed killing 0.01187029
ic-14 killed been killed 0.01143288

【5】

S-61 Simple English Wikipedia: A New Text Simplification Task
William Coster and David Kauchak
Pomona College

Wikipedia にはいろいろな言語があるが、その中でも英語版と「シンプル英語」版から同じ意味と思われる137,362 ペアを自動的に集めたセンテンスアラインドコーパス。

データダウンロード：

http://www.cs.pomona.edu/~dkauchak/simplification/

データスナップショット：

English: These professional ninja were actively hired by daimyos between 1485 and 1581 , until Oda Nobunaga invaded Iga province and wiped out the organized clans .
Simple: But in 1581 , one of the three daimyo who united Japan - Oda Nobunaga attacked ninja from Iga province .

English: Yuhei Tokunaga is a Japanese football player who currently plays for FC Tokyo of the J-League .
Simple: Yuhei Tokunaga is a Japanese football player . He plays for Tokyo and Japan national team .

【おまけ】
Text-to-text Generation ワークショップでのCMUの若手ファカルティ、 Noah Smith の招待講演でも言い換え系の研究が紹介されており、そのスライドがこちらにアップロードされていたので、聞き逃した方はぜひどうぞ。（スライドの最後のページに紹介されている5人の学生うち2人が2008年、2011年と自然言語処理の最高峰の学会ACLで最優秀論文賞を取ったりしていて、この研究グループは優秀な人が多いので一見の価値ありです。）

7/4追記
Text-to-text Generation のメーリングリストが開設したそうです。
http://groups.google.com/group/text2text

【あわせて読みたい】
小町さん ( @mamoruk )の生駒日記ACL編もぜひ。
http://d.hatena.ne.jp/mamoruk/20110620/p1
http://d.hatena.ne.jp/mamoruk/20110621/p1
http://d.hatena.ne.jp/mamoruk/20110622/p1
http://d.hatena.ne.jp/mamoruk/20110623/p1
http://d.hatena.ne.jp/mamoruk/20110624/p1

理系大学院留学日記

2011/07/02

ACL 2011 で公開された自然言語処理（言い換え系）データ

2 件のコメント: