【IT】富士通、固有名詞の高精度抽出技術を開発 「川崎市」と「川崎さん」の区別が容易に [09/11/24]

このエントリーをはてなブックマークに追加
1依頼@おっおっおっφ ★
 富士通研究所は11月24日、文章中の人名や組織名、地名などの固有名詞を高精度に抽出する
技術を開発したと発表した。これにより、新聞記事から約97%の精度で人名を正しく抽出する。
従来の抽出手法と比較して抽出ミスを60%近く減少できるという。

 新聞の編集やウェブサイトの更新など大量の文書データを扱う業務では、キーワード検索や
それを用いた文書作成が業務の中で大きな割合を占める。しかし「川崎さん」や「川崎市」の
「川崎」のような単語は、「人名」か「地名」かの区別がつきづらく、目的のキーワードとは無関係な
結果が数多く表示されてしまっていた。

 そのため必要な情報を見つけるのに手間がかかっていたほか、人名や地名などの辞書データを
人手で作成しなければならず、辞書の自動生成が大きな課題となっていた。

 今回開発された技術は、精度の高い固有名詞を抽出するため、固有名詞辞書の自動生成手法と
生成した辞書を用いる抽出を実現したとのこと。

 固有名詞の抽出には、正解事例をもとに固有名詞を抽出する規則を生成する「学習フェーズ」と、
作成した固有名詞抽出規則を用いて文章から固有名詞を抽出する「抽出フェーズ」の2フェーズで
処理する。新聞記事1件あたり平均0.1秒で固有名詞が抽出でき、多数の文書データへの適用も可能という。

 この技術を用いることで、検索対象の文書から固有名詞を抽出し、「地名」にも「人名」にも
なりうる単語の意味の違いを区別した検索が実現するとのこと。また、抽出結果から辞書データを
自動生成し、固有名詞辞書に追加することも可能だ。さらに、抽出結果を視覚的に見せることによって、
固有名詞の表記チェックや文書中の個人情報を匿名化する作業を支援する。

 富士通研究所は今後、この技術を適用した新聞記事作成支援ソリューションを、2010年度後半に
提供する予定としている。

ソース:CNET Japan [09/11/24]
http://japan.cnet.com/news/tech/story/0,2000056025,20404111,00.htm

富士通 プレスリリース
http://pr.fujitsu.com/jp/news/2009/11/24.html
2名刺は切らしておりまして:2009/11/25(水) 01:18:33 ID:gOJrxpj4
富士通といえばnkf
3名刺は切らしておりまして:2009/11/25(水) 01:22:14 ID:xs5GpGxY
こんなの…

前の認識エンジンが糞だったっつーことだろ
4携帯厨(樺太) ◆.XXnKEITAI :2009/11/25(水) 01:23:02 ID:Wlku9A4q BE:596024238-2BP(4497)
キーワードの前後から人名か地名かを区別するのか?
そりゃすげえ
5名刺は切らしておりまして:2009/11/25(水) 01:32:32 ID:3gO9eWC5
富士通と言えばOAK
6名刺は切らしておりまして:2009/11/25(水) 01:33:17 ID:0Dlj+afY
これはすごいなぁ

AIの開発にも使えそう
7名刺は切らしておりまして:2009/11/25(水) 01:33:48 ID:P0d5dAeQ
富士通と言えば高倉健
8名刺は切らしておりまして:2009/11/25(水) 01:48:30 ID:OU4c73p/
中田氏
9名刺は切らしておりまして:2009/11/25(水) 01:55:45 ID:sZFaEoFp
すごいな富士通の下請けは
10名刺は切らしておりまして:2009/11/25(水) 01:58:21 ID:qpYS8Rqb
日本の文明あるいは精神は、
日本列島以外の地域で興亡した国家、民族とは本質的に異なるものである。
11名刺は切らしておりまして:2009/11/25(水) 01:59:14 ID:nFbAwaHi
「そうなんですよ、川崎さん」
12名刺は切らしておりまして:2009/11/25(水) 02:02:52 ID:y5vmQctE
何で「川崎氏」ではなく「川崎さん」なのか
13名刺は切らしておりまして:2009/11/25(水) 02:15:17 ID:hOenDCNd
OASYSのみ使用可能です(^^)
14名刺は切らしておりまして:2009/11/25(水) 02:19:28 ID:mZgsIZZH
OASYSってまだ売ってんの?
IMEよりはマシなのかな
15名刺は切らしておりまして:2009/11/25(水) 02:25:50 ID:PmK0YDd/
「川崎のおじさん」はどっちに判定されるんだろう。
16名刺は切らしておりまして:2009/11/25(水) 03:10:48 ID:7Xl6Zimf
本名と通名が(ry
17名刺は切らしておりまして:2009/11/25(水) 03:26:53 ID:sG0V2A+5
>> 新聞記事から約97%の精度で人名を正しく抽出する。
>> 従来の抽出手法と比較して抽出ミスを60%近く減少できるという。

つまり認識率95%->97%ってことか。
素人ながらそれほどスゴイとは思えんのだが...チューニングレベル?
18名刺は切らしておりまして:2009/11/25(水) 03:58:37 ID:Yb723Dn1
>>12
あほ?ばか?
19名刺は切らしておりまして:2009/11/25(水) 07:34:18 ID:1sk+SuO0
ウンコターレ(笑)への出資を中止せよ
20名刺は切らしておりまして:2009/11/25(水) 08:38:32 ID:5xvb2Li5
中出しの意味で使われている中田氏を
きちんと読み取れるようになったらすごい
マジで
21名刺は切らしておりまして:2009/11/25(水) 10:45:53 ID:/PtGoUzM
でもお高いんでしょう
22名刺は切らしておりまして:2009/11/25(水) 13:13:21 ID:y88HsxLA
川崎の川崎高校教諭川崎次郎さんの川崎をそれぞれ指定できると言うことか。
23名刺は切らしておりまして:2009/11/25(水) 14:51:32 ID:gOJrxpj4
>>17
すごいと思えんのは素人だからだと思うよ。
24名刺は切らしておりまして:2009/11/25(水) 17:43:12 ID:MfYZrQiD
富士通の孫受けもスキルアップしたもんだな。
25名刺は切らしておりまして
記者さんが汽車で帰社した