2011/07/02

ACL 2011 で公開された自然言語処理(言い換え系)データ

先週オレゴン州ポートランドで行われたACL2011という国際会議で発表されたデータのうち、すぐにダウンロードして面白い実験ができそうな言い換え系のデータを5つを紹介します。(他にもいろいろ面白い発表はあったのですが、テーマを絞ってみました。このブログの読者にどれだけ需要あるかわかりませんが・・・。)

【1】
Session 1-E - Collecting Highly Parallel Data for Paraphrase Evaluation 
David Chen1 and William Dolan2
1The University of Texas at Austin, 2Microsoft Research

複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。(動画だと画像より解釈のブレが減るとか。)言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと見たところ、質を量でカバーしているようなデータという印象を受けた。かすかに英語以外も混じっている。どの発表者だったか忘れたが、研究者はMSRのパラフレーズコーパスやペンツリーバンクなどから新しいデータに移行していくべきだと提唱していた。これは新MSパラフレーズコーパスとなるか・・・?

データダウンロード:
http://research.microsoft.com/en-us/downloads/38cf15fd-b8df-477e-a4e4-a4680caa75af/

データスナップショット:
8D_oQnBPfNo,43,50,615204,clean,152,English,A soft cuddly cat is licking itself.
8D_oQnBPfNo,43,50,309959,clean,21,English,The cat gave himself a bath.
8D_oQnBPfNo,43,50,553931,clean,18,English,The cat is cleaning its fur.
8D_oQnBPfNo,43,50,762891,clean,29,English,The cat is cleaning it's fur.
8D_oQnBPfNo,43,50,411294,unverified,17,English,The cat is licking his fur.
8D_oQnBPfNo,43,50,651813,unverified,15,English,A cat is cleaning itself.


【2】
Session 2-E - Lexical Normalisation of Short Text Messages: Makn Sens a \#twitter 
Bo Han and Timothy Baldwin
The University of Melbourne

dontとdon't、 niteとnightのように、ツイートの集合から辞書に載っていないようなOut of Vocabulary (OOV) のリストを自動的に作り、OOVに対してはその本来の単語を見つけてヒモ付けてあげたデータ。全体で1万以上の項目数だが重複・ノイズ多数あり。使われたOOVをツイートgeocodingにより地図上に表示すると、スラングの地域性のようなものが見えて面白かった(この発表ではなかったかもしれないが)。ノイズの多いソーシャルメディアテキストに対して自然言語処理をするにはこういう辞書が大切。

データダウンロード:
http://www.csse.unimelb.edu.au/research/lt/resources/lexnorm/

データスナップショット:
pix OOV pictures
comming OOV coming
tomoroe OOV tomorrow
wiz OOV with
kool OOV cool
phat OOV fat

【3】
Session 9-C - Extracting Paraphrases from Definition Sentences on the Web 
Chikara Hashimoto1,  Kentaro Torisawa1,  Stijn De Saeger1,  Jun'ichi Kazama1,  Sadao Kurohashi2
1National Institute of Information and Communications Technology, 2Kyoto University

ウェブ上から定義文を集め、同じ概念に対する違う定義を自動的に見つけて言い換え資源としたもの。30Mの定義文から300K の言い換えを精度 94%で集めた素晴らしい大規模データ。パラフレーズとなる部分だけでなく、文レベルでコンテキストの類似度を考慮しているのが成功の秘訣・・・?

データダウンロード(将来的に公開予定):

データスナップショット(ペーパーより):

【4】
S-40    An Empirical Evaluation of Data-Driven Paraphrase Generation Techniques 
Donald Metzler,  Eduard Hovy,  Chunliang Zhang
University of Southern California

100の動詞を対象に10個前後の言い換えを生成。メカニカルターク判定者の評価ラベルつき。(再)実装された言い換えルール学習アルゴリズムは、Pasca and Dienes (2005) , Bhagat and Ravichandran (2008), Bannard and Callison-Burch (2005), Callison-Burch (2008), Metzler and Hovy 2011)など幅広い。ちなみに私がEMNLP TextInfer2011ワークショップで発表予定のペーパーはこのデータを使った。

データダウンロード:

データスナップショット:
ic-14 killed murdered 0.07020154
ic-14 killed dead 0.04722153
ic-14 killed death 0.03865272
ic-14 killed deaths 0.0286546
ic-14 killed died 0.02703817
ic-14 killed victims 0.01446235
ic-14 killed killing 0.01187029
ic-14 killed been killed 0.01143288


【5】
S-61    Simple English Wikipedia: A New Text Simplification Task 
William Coster and David Kauchak
Pomona College

Wikipedia にはいろいろな言語があるが、その中でも英語版と「シンプル英語」版から同じ意味と思われる137,362 ペアを自動的に集めたセンテンスアラインドコーパス。

データダウンロード:
http://www.cs.pomona.edu/~dkauchak/simplification/

データスナップショット:

English: These professional ninja were actively hired by daimyos between 1485 and 1581 , until Oda Nobunaga invaded Iga province and wiped out the organized clans .
Simple: But in 1581 , one of the three daimyo who united Japan - Oda Nobunaga attacked ninja from Iga province .

English: Yuhei Tokunaga is a Japanese football player who currently plays for FC Tokyo of the J-League .
Simple: Yuhei Tokunaga is a Japanese football player . He plays for Tokyo and Japan national team .


【おまけ】
Text-to-text Generation ワークショップでのCMUの若手ファカルティ、 Noah Smith の招待講演でも言い換え系の研究が紹介されており、そのスライドがこちらにアップロードされていたので、聞き逃した方はぜひどうぞ。(スライドの最後のページに紹介されている5人の学生うち2人が2008年、2011年と自然言語処理の最高峰の学会ACLで最優秀論文賞を取ったりしていて、この研究グループは優秀な人が多いので一見の価値ありです。)

7/4追記
Text-to-text Generation のメーリングリストが開設したそうです。
http://groups.google.com/group/text2text


【あわせて読みたい】
小町さん ( @mamoruk )の生駒日記ACL編もぜひ。
http://d.hatena.ne.jp/mamoruk/20110620/p1
http://d.hatena.ne.jp/mamoruk/20110621/p1
http://d.hatena.ne.jp/mamoruk/20110622/p1
http://d.hatena.ne.jp/mamoruk/20110623/p1
http://d.hatena.ne.jp/mamoruk/20110624/p1

2011/03/24

ASCII.Technologies5月号に寄稿しました

震災の影響がまだある中書くのも少し気が引けますが、ブログ引っ越し後、初エントリーです。以前のブログは書いていたおかげでいろいろな人との出会いがありました。加藤さん、サーバ提供ありがとうございました。

さて、今年の2月にアメリカのJeopardy!というクイズ番組にWatsonという質問応答システムが参加し、歴代チャンピオン2人を相手に勝利を収めるという画期的な出来事がありました。思い起こせば、IBMのDeep Blueがチェスのグランドマスターを破ったとき、私は高校生でした。マックでHyperCardプログラミングをしつつ、いつかこんなシステムに携われたらいいなと頭の片隅で思ったのが思い出されます。それから10数年が経ち、気づいたら大学でコンピュータサイエンスを専攻し、アメリカの大学院に留学して、IBM T.J. Watson 研究所でインターンし、最終的にWatsonに採用されることになったコードを書いていました。なんとも感慨深いです…。

そんなWatsonについて、本日3/24発売のASCII.Technologies5月号にて、12ページからなる特集記事を書かせていただきましたので、よろしければぜひご覧ください。


2011/03/01

ブログ引越しました

http://w-it.jp/shima からブログを引っ越しました。

今までサーバを提供してくださった加藤さん、ありがとうございました。