【1】
|
複数のメカニカルターカーが同じ動画に付けた注釈をパラレルコーパスにしたもの。(動画だと画像より解釈のブレが減るとか。)言い換えのみならず同じ事柄の違う解釈を含むため、ぱっと見たところ、質を量でカバーしているようなデータという印象を受けた。かすかに英語以外も混じっている。どの発表者だったか忘れたが、研究者はMSRのパラフレーズコーパスやペンツリーバンクなどから新しいデータに移行していくべきだと提唱していた。これは新MSパラフレーズコーパスとなるか・・・?
http://research.microsoft.com/en-us/downloads/38cf15fd-b8df-477e-a4e4-a4680caa75af/
データスナップショット:
8D_oQnBPfNo,43,50,615204,clean,152,English,A soft cuddly cat is licking itself.
8D_oQnBPfNo,43,50,309959,clean,21,English,The cat gave himself a bath.
8D_oQnBPfNo,43,50,553931,clean,18,English,The cat is cleaning its fur.
8D_oQnBPfNo,43,50,762891,clean,29,English,The cat is cleaning it's fur.
8D_oQnBPfNo,43,50,411294,unverified,17,English,The cat is licking his fur.
8D_oQnBPfNo,43,50,651813,unverified,15,English,A cat is cleaning itself.
【2】
|
dontとdon't、 niteとnightのように、ツイートの集合から辞書に載っていないようなOut of Vocabulary (OOV) のリストを自動的に作り、OOVに対してはその本来の単語を見つけてヒモ付けてあげたデータ。全体で1万以上の項目数だが重複・ノイズ多数あり。使われたOOVをツイートgeocodingにより地図上に表示すると、スラングの地域性のようなものが見えて面白かった(この発表ではなかったかもしれないが)。ノイズの多いソーシャルメディアテキストに対して自然言語処理をするにはこういう辞書が大切。
データダウンロード:
http://www.csse.unimelb.edu.au/research/lt/resources/lexnorm/
データスナップショット:
pix OOV pictures
comming OOV coming
tomoroe OOV tomorrow
wiz OOV with
kool OOV cool
phat OOV fat
【3】kool OOV cool
phat OOV fat
|
ウェブ上から定義文を集め、同じ概念に対する違う定義を自動的に見つけて言い換え資源としたもの。30Mの定義文から300K の言い換えを精度 94%で集めた素晴らしい大規模データ。パラフレーズとなる部分だけでなく、文レベルでコンテキストの類似度を考慮しているのが成功の秘訣・・・?
データダウンロード(将来的に公開予定):
データスナップショット(ペーパーより):
|
100の動詞を対象に10個前後の言い換えを生成。メカニカルターク判定者の評価ラベルつき。(再)実装された言い換えルール学習アルゴリズムは、Pasca and Dienes (2005) , Bhagat and Ravichandran (2008), Bannard and Callison-Burch (2005), Callison-Burch (2008), Metzler and Hovy 2011)など幅広い。ちなみに私がEMNLP TextInfer2011ワークショップで発表予定のペーパーはこのデータを使った。
データダウンロード:
データスナップショット:
ic-14 killed murdered 0.07020154
ic-14 killed dead 0.04722153
ic-14 killed death 0.03865272
ic-14 killed deaths 0.0286546
ic-14 killed died 0.02703817
ic-14 killed victims 0.01446235
ic-14 killed killing 0.01187029
ic-14 killed been killed 0.01143288
ic-14 killed murdered 0.07020154
ic-14 killed dead 0.04722153
ic-14 killed death 0.03865272
ic-14 killed deaths 0.0286546
ic-14 killed died 0.02703817
ic-14 killed victims 0.01446235
ic-14 killed killing 0.01187029
ic-14 killed been killed 0.01143288
【5】
|
Wikipedia にはいろいろな言語があるが、その中でも英語版と「シンプル英語」版から同じ意味と思われる137,362 ペアを自動的に集めたセンテンスアラインドコーパス。
データダウンロード:
http://www.cs.pomona.edu/~dkauchak/simplification/データスナップショット:
English: These professional ninja were actively hired by daimyos between 1485 and 1581 , until Oda Nobunaga invaded Iga province and wiped out the organized clans .
Simple: But in 1581 , one of the three daimyo who united Japan - Oda Nobunaga attacked ninja from Iga province .
English: Yuhei Tokunaga is a Japanese football player who currently plays for FC Tokyo of the J-League .
Simple: Yuhei Tokunaga is a Japanese football player . He plays for Tokyo and Japan national team .
【おまけ】
Text-to-text Generation ワークショップでのCMUの若手ファカルティ、 Noah Smith の招待講演でも言い換え系の研究が紹介されており、そのスライドがこちらにアップロードされていたので、聞き逃した方はぜひどうぞ。(スライドの最後のページに紹介されている5人の学生うち2人が2008年、2011年と自然言語処理の最高峰の学会ACLで最優秀論文賞を取ったりしていて、この研究グループは優秀な人が多いので一見の価値ありです。)
7/4追記
Text-to-text Generation のメーリングリストが開設したそうです。
http://groups.google.com/
【あわせて読みたい】
小町さん ( @mamoruk )の生駒日記ACL編もぜひ。
http://d.hatena.ne.jp/mamoruk/20110620/p1
http://d.hatena.ne.jp/mamoruk/20110621/p1
http://d.hatena.ne.jp/mamoruk/20110622/p1
http://d.hatena.ne.jp/mamoruk/20110623/p1
http://d.hatena.ne.jp/mamoruk/20110624/p1
やっぱりこの手の話は面白いなー
返信削除自然言語処理が一般化して、それがマーケットに浸透し始める時に、いろいろな技術(ロボットとかサーチとかボーカロイドとか)がさらに進化するんだろうなぁ。。
その時期を見通しておきたい。
>よしむさん
返信削除自然言語処理研究者はいろいろなジャンルの企業から採用されているので、その時期は近いと思いますよ!(アメリカの話)