【案】サッカー辞書登録ファイル作成プロジェクト

このエントリーをはてなブックマークに追加
1U-名無しさん
パソコンの日本語変換辞書にない単語は一発で変換されないので各自登録
することになるわけですが、この板に来てる日本中の人が一斉に同じ作業
をしてる様子を想像するとなんだかおかしいですね。

ってわけで、一括登録用のファイルを作ってみようか、という発想です。
元々は地元では普通に使われている高校サッカーの難読校名や略称を、
この時期、普段縁がない人たちが適当な当て字で書き込むので
登録用のファイルを配ればどうかと思ったのが元です。

せっかくならば、国内サッカー全般→日本代表あたりまで範囲拡大
して作業すれば有益だろうと考えた次第です。

やり方と分業の方法、誰でも登録できるような成果のパッケージング
を決めなきゃならないでしょうけど、すでにノウハウをお持ちの方に
名乗り出てもらった方が早いと思ってスレを立てる事にしました。
 フォーマットですが、MS-IMEとATOKがほとんどでしょうから、
このスレに登録したい単語を書き込み、順次テキストのCSVにマージ
して適当なロダにうpしていくやり方でどうでしょうか。

全く需要がないならレスをつけずにdat落ちさせましょう。
そうでないなら意見をくださいませ。
2U-名無しさん:2007/12/02(日) 21:42:41 ID:YcG82g8l0
日本 1−3 ブラジル

○日 25-23 ブ●
●日 21-25 ブ○
●日 19-25 ブ○
●日 18-25 ブ○
3U-名無しさん:2007/12/02(日) 21:42:49 ID:+H30GPyE0
スイーツ(笑) → 茶野隆行
4U-名無しさん:2007/12/02(日) 23:40:52 ID:gqL7eMq80
ニックネームとか愛称のファイルは別がいいかな。
釣男:つりお:固有名詞
みたいな。

単語収集はスレに書き込み。
単語はジャンル別してファイル化してうp。
すべてマージしたものを登録用にうp。
ジャンルを選んで登録したい人は、自分でジャンル別ファイルを落して
各自マージして一括登録(もしくはファイルごとに登録)。

こんな感じ?
5U-名無しさん:2007/12/02(日) 23:43:31 ID:gqL7eMq80
>>2
実況向けにこういうフォーマットを登録してもいいけど、
登録名はどうすればいい?

ポテトチップス:ぽてち:固有名詞
○日 x-x ブ●:すこあ:固有名詞
6U-名無しさん:2007/12/03(月) 13:03:25 ID:jChXRLcU0
フォーマットをちょっと調べたら、MS-IMEとATOKでは全く違う。
読み:単語:品詞(全角ひらがな : 単語 : 品詞(取りあえず全部名詞でスタート)
で見切り発車すべきかな?
ATOK使ってらっしゃる方はどのくらいいるんだろ?

登録しておきたい単語を以下書込んでください。

はなくそ:ハナクソ:名詞
7U-名無しさん:2007/12/03(月) 22:50:45 ID:/WFB2zfd0
tab切だから辛いやね
纏めは一人じゃないと出来ないし
あとはIME98にするのか2000なのか2002か
8U-名無しさん:2007/12/03(月) 23:02:21 ID:9afltyuW0
てか、一人で出来る作業をプロジェクト化するという発想が意味不明

一人じゃ出来ないことをやるのがプロジェクトだろ
9U-名無しさん:2007/12/04(火) 00:12:35 ID:Wzwv08TJ0
>7
セパレータは半角の,にすべきかなぁ。
要素の並び順や、読みの全角か半角カタカナかは、あとから
変換スクリプト書いてくれる人が出るかもしんない。

>8
単語集めは大勢のほうが効率良くできる。
確かに必要ない人には全然必要ないかもね。

叩かれてもなんでもいいや。とりあえずしばらくやってみる。

愛称などのファイルは、収集段階ではチーム別にすべきかな?
管理はチーム別で、登録時には好きなものをマージすればいいから。
(その先、Accessあたりでツール作ってくれる人が出るかな?)
(IMEって、商売にならないってだけで、10年この方進歩が止まってる世界だから
板ごとにユーザ辞書が作られていてもおかしくはないと思う)
10U-名無しさん:2007/12/04(火) 21:06:35 ID:I3hUNdTt0
よく分からんが、とりあえず、有名外国人選手を登録してくれ
11U-名無しさん:2007/12/04(火) 21:10:29 ID:h5xZpnUb0
みどり:ブ(笑):固有名詞
12U-名無しさん:2007/12/05(水) 00:15:52 ID:Y8ODu5tg0
>>10
辞書いじりは非常にマイナーなものになってしまったけど
(主に商売にならないという理由)、効率の良い入力
のツボが辞書の整備。

外人選手などのカタカナ名詞ですね、了解。

>>11
2ちゃん語として別に収集する事にします。

2ちゃん語(サッカー板編)
チーム別単語
カタカナ語(サッカー板編)

こちらでATOKを導入してみます。ATOK-MS-IME-MS-IME2002の3つで
自在にコンバートできる環境が得られたら作業に取り掛かる予定。
13U-名無しさん:2007/12/05(水) 00:18:23 ID:Y8ODu5tg0
専用のうpろだも用意します。
14U-名無しさん:2007/12/05(水) 00:20:11 ID:CUCow9Rn0
>>9
その前に汎用のIME98仕様にするかIME2000・2002仕様にするか決めないと駄目
15U-名無しさん:2007/12/05(水) 00:38:46 ID:Y8ODu5tg0
>>14
品詞を全部名詞にして登録しても劇的な効果が
あると思うので、IME98形式でもIME2000/2002仕様と言う方が
取り込んでくれるなら(ヘッダ部分だけ変えればいいの?)、
汎用がいいかなと・・・。なにかいいアイデアがあれば欲しいです。

ATOKがユーザ辞書のエクスポートまで面倒見てくれるものなら
ATOKで作業して、大勢多数のms-imeへコンバートしたファイルを
うpしとこうかと妄想。
スレでの単語収集はプレーンなテキストで書き込んでもらう予定。
16U-名無しさん:2007/12/05(水) 22:43:00 ID:Y8ODu5tg0
とりあえずうpロダ兼用の掲示板を用意。
使いまわしだけど・・・。

http://oidon.s48.xrea.com/x/dictionary/joyful2ch-03/index.html

使い方は、追加したいユーザー単語を、小分けされたテキストファイル
に追記していきます。
小分けされたファイル一つが一つのスレを使います。
チーム別のファイルは有志がどんどん追加してくれたら嬉しいです。

手探りでやってますので、アイデアあったらよろしくお願いします。
17U-名無しさん:2007/12/05(水) 22:50:36 ID:Y8ODu5tg0
簡略入力などをやってる人はいらっしゃいます?
れすか:レモンスカッシュ:名詞
といったようなもの。
効率上がるけど弊害もあるので、これも小分けにする予定。
&サカ板の住人さん的にはどんな単語ものがあるのか知りたいです。
18U-名無しさん:2007/12/05(水) 23:04:50 ID:Y8ODu5tg0
>>17
ばくすた:バクスタ:名詞
みたいな、略語として通用しているものは簡略入力じゃなくて
追加辞書に取り入れたいと思います。
 めんどくさい判断はこちらでやりますので、とにかくどんどん
スレに書き込んで下さい。
 直接テキストファイルに追記してくださるパワーユーザー? も
大歓迎です。
 
19U-名無しさん:2007/12/05(水) 23:08:07 ID:Y8ODu5tg0
>>18
「バクスタ」は、「バクスタ席」という風におきまりの接尾語が
つく形でよく使われるようなら
ばくすたせき:バクスタ席:名詞
の形で登録しちゃいます。(単語がポストされたら、連想的に
このような膨らませ方をしたいと思います。こちらでやりますが、
ボランティア歓迎)
 理屈は省略しますけど、効果があります。
20U-名無しさん:2007/12/06(木) 02:12:00 ID:qjHtH0500
>>15
ヘッダだけなら良いけど98と2000・2002の大きな違いはコメントの有無

よみtab単語tab品詞tabコメント

ATOKもこれで読み込ませ可能(但しコメントの文字数制限が違う)

MS-IME>よみ・単語・コメント全て全半角併せて60文字
ATOK>よみ32文字・単語64文字・コメント64文字
21U-名無しさん:2007/12/06(木) 02:18:58 ID:qjHtH0500
ついでに
MS-IME よみtab単語tab品詞tabコメント
ATOK  よみtab単語tab品詞tabコメントtab置換1tab置換2tab置換3tab置換4tab置換5

最小は双方同じ よみtab単語tab品詞

textで作れば変換不要
そのまま読み込みorヘッダ書き換えでおk(ATOK基準で置換情報入れなければ)
22U-名無しさん:2007/12/06(木) 08:44:15 ID:mdIWJrOZ0
>>20
>>21
ありがとうございます。なるほどよくわかりました。

それと、どなたか詳しい方に注文なんですが、二つのテキストファイルの
差分の表示、差分の別ファイルへの書き出し、行頭から検索して3つめの
セパレータとそれ以降の削除を行うツールが必要になるのですが、
サクラエディタとかEmとかフリーのエディタのマクロかなんかで実現
出来ないでしょうか。

サクラは行のソートは出来るんでしたっけ?
23U-名無しさん:2007/12/06(木) 23:28:04 ID:mdIWJrOZ0
>>22
時間がなくて説明できませんでした。
コメントが入れられるのは便利に使えそうです。
出ない単語を出す、ということだけじゃなく、快適に使う
という事を考えてIMEの文法解析を無視した登録もしてみたい
ので、コメントを入れられた方がいい感じです。チャットみたい
にも使えそうです。
 作業する人が、最新と一つ前のファイルを落せば、差分を見て
新規追加分の点検やファイルの振り分けが出来ます。
 実際にMS-IMEに登録する場合用に、作業ファイルとは別に
コメントを削除してセパレータをタブに変換してうpしておく
というような流れでどうかなと考えています。
24U-名無しさん:2007/12/08(土) 00:11:22 ID:6UY9j/Fz0
奇跡的にスレが生きてるので保守
25U-名無しさん:2007/12/09(日) 01:35:24 ID:E8NbV2tW0
今日ATOKを買って来ました。明日インスコ。

本屋を回ってIME関連を探したけど、まるでない。辞書を提供するサイト
を検索したら、専門語を公開しているところがいくつか。あとはハイパーな
辞書。Vecterに数十辞書が公開されてるらしいので見たら、ハイパーなもの
と専門語。

必要最小限+サッカー専門辞書で行きたいので、次は「基本語辞書の
単語を全部削除して0語辞書にする方法」を知りたい。

着地点の見通し。
基本語辞書の単語数はズバリ1万2千語。サッカー専門語は6〜8千位
を目標にする予定。
26U-名無しさん:2007/12/09(日) 21:37:07 ID:E8NbV2tW0
今日もスレが生きてた。
WXGにツールが揃ってたので、基本語を含めてそちらで作業することに。
MS-IMEにも移せるよう汎用形式にするには、余計な項目を入れられない。
公開されてる辞書はなぜかかなり少ない(見つかりにくい?)
http://homepage2.nifty.com/baba_hajime/free-dic/
という古いページに、Jリーガーの名前辞書を発見。
27U-名無しさん:2007/12/10(月) 05:35:46 ID:A0CtO71V0
28U-名無しさん:2007/12/11(火) 00:10:36 ID:BKjOX/rQ0
最小限辞書の作成も平行して行うことにして、作業を始めました。
これは先を急ぐ作業でもないのでぼちぼちやります。

浦和が勝ったのでもう一波くるだろうからそのときスレが落ちるかも。

それでは。
29U-名無しさん:2007/12/11(火) 01:10:13 ID:F35Qh/5w0
じゃぁ、age
30U-名無しさん:2007/12/12(水) 00:06:05 ID:Q85tFBTM0
うーむ。名前辞書作成は苗字と名前は別々に登録。
一気に登録出来るサイトはオフィシャルかな? 選手のwikiとかあるんだろうか。
読み方がわからないと困る。
31U-名無しさん:2007/12/13(木) 00:49:23 ID:4MQHclAu0
とりあえず
KING OF TOKYO
アマラオ
を登録しておいて
32U-名無しさん:2007/12/13(木) 01:01:33 ID:IGJky5pl0
>>31
読み(キーの打ち方)を、お願いします。

基本語辞書の作成もやることにしました。
目処は6〜8千までを第一水準基本辞書にして、そこから1万2千ちょいまで
を第二水準にします。きわめて基本的な語彙、という内容。
それにサッカー辞書を追加し、
サッカー固有名詞、人名、カタカナ語の辞書をさらに追加
という形を目指すことにします。
作業は基本辞書を優先して進めます。
33U-名無しさん:2007/12/13(木) 01:54:37 ID:lZBQdGXL0
>>30
おれは、毎年春にJ全選手&監督・コーチ&審判の名前を辞書に登録しているが
(姓読み→フルネーム漢字)、基本はJ公式の選手リストでやってるよ。
ただ、ローマ字だから、フルオート変換とはいかないんだよね。

新聞サイトのなかにカナ表記でデータ整形しやすいフォーマットのところが見つ
かったときは、そっち使う。
34U-名無しさん:2007/12/13(木) 22:34:31 ID:IGJky5pl0
>>33
ありがとうございます。
地道に拾っていくのが堅実みたいですね。

ちょっと風呂敷が広がっているので、下準備をやってるところです。
http://academy6.2ch.net/test/read.cgi/gengo/1197277498/
35U-名無しさん:2007/12/14(金) 11:44:21 ID:lKXf/zuSO
ミカンの大器ってやっちゃったオヒがあるみたいね。
誤変換、誤入力パターン辞書もやりたいな。
スターティングマンベーて入力されたら、
コメント欄に、もしかしてスターティングメンバーでは? と出すやつ。
カルフォルニアとかシュミレーションとか
有りがちなやつを募集しますw
36U-名無しさん:2007/12/14(金) 11:45:42 ID:YkQChPMO0
ミカンの大器はただのシャレだろ
37U-名無しさん:2007/12/14(金) 12:01:36 ID:lKXf/zuSO
洒落なのかー。
ま、とりあえず正解は連語を一語で登録。
あと、ンガハタで曽我端では? というのはうざいかな。
こういう符丁もなんかの形で収集しておきたいな。
38U-名無しさん:2007/12/15(土) 23:59:23 ID:smO97tU80
hosyu
39U-名無しさん:2007/12/16(日) 18:51:56 ID:igVZEwAs0
三位保守
40U-名無しさん:2007/12/18(火) 09:08:39 ID:5OOokwyIO
かぜひいた
41U-名無しさん:2007/12/20(木) 07:26:08 ID:0TgfR2PS0
ho
42U-名無しさん:2007/12/23(日) 05:55:18 ID:JXkla9hv0
このスレ面白そうですね

保守
43U-名無しさん:2007/12/23(日) 10:33:07 ID:T0NCORVh0
>>42
いろいろアイデアはあるんだけど、仕事が年末進行で動きがとれない。
保守サンクス。
44U-名無しさん:2007/12/24(月) 11:29:44 ID:4upiWfcM0
hosyu
45U-名無しさん:2007/12/27(木) 00:16:20 ID:hOoj7GdV0
hosyu
46U-名無しさん:2007/12/27(木) 05:27:46 ID:OlPqhSS60
hosyu
47♯青ちゃん:2007/12/27(木) 19:03:14 ID:o4rOK6sjO
48U-名無しさん:2007/12/29(土) 07:47:06 ID:JK6lTzxk0
AT
49U-名無しさん:2007/12/31(月) 12:49:19 ID:aAtnkhDr0
OK
50 【凶】 【222円】 :2008/01/01(火) 19:25:13 ID:8a31Tzcc0
あけ
51U-名無しさん:2008/01/03(木) 02:23:35 ID:0CTsB93G0
gug
52U-名無しさん:2008/01/03(木) 04:30:22 ID:pAZCb+XxO
面白そうだから完成させて下さい
53U-名無しさん
>>52
1です。やってる本人もおもしろがってるので、是非形にしたいと思っています。
基本辞書はたぶん私一人が地味にやらないといけないのでぼちぼちやります。

人名辞書とか名前単漢字とか各スレの符牒辞書とかを加速させるためには、
とりあえず辞書作成に関心ない人でも使えるWikiを作って、どんどん項目を
入力してもらうというアイデアがあります。
ttp://www.kanpyo.net/xoopscube+index.htm
ttp://homepage3.nifty.com/t-weekly/
Xoops上で使うXwordというものがあるみたいです。
自分は自鯖はあるんだけどXoopsは動かしたことがないし、ハードル高い^^;
これはカテゴリー別に分類しつつ単語群を一元管理できそうで良さそう。

やれればいいこととしては、
単語 茸
読み きのこ
品詞 固有名詞
コメント スレ単語
メモ 某マスコミに人気の某選手・・・
みたいなものをWikiみたいにWeb上に作り、データはデータベースに格納。
別画面から辞書登録用のデータをダウンロード(データベースの4つのフィールドを
辞書形式やCSV形式で取り出す)出来るようになっていればいいので、
あまり難しい気もしないけど・・・。ジャンル別に分ければ簡単みたいだけど、
辞書ごとに単語が重複しそうな気がするから、ジャンルのフィールドを作って一元管理
した方がいいのか・・・・あれこれ考え中です。
でも暮れに「PHPの絵本 アンク著 翔泳社刊」を買ってきたというレベルなので
10年計画w。
誰か入れ物を作ってくれないかなぁと少しだけ他力本願な考えが頭をもたげている
今日この頃です。