【TeXくるか?】国会図書館で出版物テキストデータの実験

このエントリーをはてなブックマークに追加
1 シナリオライター(福島県)

国会図書館で出版物テキストデータの実験
2010/7/21 15:34
国立国会図書館は、出版物のテキストデータの作成および検索に関する技術面での実証実験を実施する。2010年7月20日、
実験に参加する出版社や印刷会社の募集を開始した。
データの作成実験では、参加企業からデジタル出版データを提供してもらい、そこからテキストデータを抽出して汎用
フォーマット化するのが目的。国会図書館総務部企画課に聞くと、従来決まったフォーマットがないため、実験を通して
どのような形で汎用化できるか、調査を含めて検証するという。
検索の実験では、これまで本のタイトルや著者名といった限定的な検索方法しかなかったが、全文データから検索できる
ようになった場合にどのような検索の可能性が広がるかを調べるとのことだ。
協力企業の応募の締め切りは8月31日。10月から11年1月にかけて実証実験のシステムを構築して、3月までに実験を実施、
結果を取りまとめる予定。
http://www.j-cast.com/2010/07/21071535.html
2 運営大好き(大阪府):2010/07/21(水) 23:28:03.79 ID:vrJSRukN
仏教哲学大辞典を読破した。
3 芸術家(新潟県):2010/07/21(水) 23:28:11.60 ID:J5kIRU8Q
4 官僚(群馬県):2010/07/21(水) 23:28:13.66 ID:iKyrY0s2
てふてふ
5 きゅう師(大阪府):2010/07/21(水) 23:29:17.26 ID:+hlGxxAo BE:1222415137-2BP(124)

書誌データ扱うなら
XMLのがいいんじゃないの
TeXみたいな、ただの文書構造もどきをもつ整形データよりw
6 工芸家(愛知県):2010/07/21(水) 23:30:15.53 ID:jmLGmWP6
電子書籍は、変な統一規格じゃなくて、txtで欲しい
7 AV男優(長屋):2010/07/21(水) 23:32:42.45 ID:PLYoO35y
>>5
検索タグとしてならまだしも、
XMLでどうやって文章読めってんだ
8 探検家(catv?):2010/07/21(水) 23:32:42.09 ID:IRIU/kLj
今バージョン何になってんの? まさかπになっちゃった?
9 社会保険労務士(福島県):2010/07/21(水) 23:33:04.78 ID:hti9pJPq
テフって読む奴とは友達になれない
10 警察官(アラバマ州):2010/07/21(水) 23:33:12.03 ID:bDcG5E4a
ひとりぐらい、テックスって呼ぶ奴が出てくる。
11 パイロット(東京都):2010/07/21(水) 23:33:55.35 ID:8/bRTpdP
pdfで
12 通りすがり(神奈川県):2010/07/21(水) 23:35:02.94 ID:ntJpWoMe
xdwでくれ
13 宗教家(不明なsoftbank):2010/07/21(水) 23:35:04.36 ID:e443rYey
zipでくれ
14 H&K MSG-90(埼玉県):2010/07/21(水) 23:35:22.87 ID:s4GsQy6F


 テ ッ ク ス

15 ダックワーズ(千葉県):2010/07/21(水) 23:35:42.08 ID:ZDcbakIF
docxでくれ
16 ゲームクリエイター(アラバマ州):2010/07/21(水) 23:35:59.35 ID:vXBC2HWg
LaTeXとかKinputとか時代錯誤じゃね?
今は、もうGoogleIME一択。
17 イラストレーター(北海道):2010/07/21(水) 23:36:12.27 ID:SDPtHXhI
何故texをてふと呼ぶのか未だに分からん
18 外交官(ネブラスカ州):2010/07/21(水) 23:36:14.26 ID:05kO3MYv
昔latexのことをラテックスって読んでたわ
当時はコンドームメーカーの名前だとは知らなくてドン引きされた覚えがある
19 弁護士(アラバマ州):2010/07/21(水) 23:36:50.55 ID:y9cGn5jM
てふてくてっくてっくす

20 スクリプト荒らし(福岡県):2010/07/21(水) 23:37:26.84 ID:6zMdUkZw
テフテックス
21 きゅう師(大阪府):2010/07/21(水) 23:37:30.82 ID:+hlGxxAo BE:2095568249-2BP(124)

>>7
epubなんてXHTMLをzipで固めてるだけだよw
表現はアプリケーションに任せればいいと思うけど

書誌データを含めて
dbに掘り込むときとか便利だろ、やっぱりw
22 フランキ・スパス12(千葉県):2010/07/21(水) 23:37:56.63 ID:0TCOLd51
テック
23 職人(東京都):2010/07/21(水) 23:38:10.42 ID:X9YFBh9r
>>1
真面目に読んでるのに全然意味が取れない
24 ニュースキャスター(東京都):2010/07/21(水) 23:39:07.05 ID:FNn2potN
てふてふ
25 シナリオライター(福島県):2010/07/21(水) 23:39:37.76 ID:pOhpA2F+
>>21
テキストが基本なのは分かるけど、出来ればレイアウトも扱って欲しい
26 チンカス(関東・甲信越):2010/07/21(水) 23:42:44.98 ID:wngFNeMI
その辺のフリーテキストエディタでも読める規格が残る

手軽じゃない日本のガチガチ著作権規格は糞して寝ろ
27 編集者(神奈川県):2010/07/21(水) 23:43:05.95 ID:I2Ul+Ouq
全文検索ってリレーショナルデーターベースに向かないんだろ、
フリーのデータベースは使えなくなったわけで、そいじゃどこの企業の製品が採用されんだろな
28 トラベルライター(宮崎県):2010/07/21(水) 23:47:33.88 ID:fAWa2979
現代日本語以外に古語もあれば英語もあれば支那語もあるしアラビア文字も書いてあるかもしれない
ノンパラ解析してインデックス作るんだろう。HDDが山積みになるな。胸厚
29 きゅう師(大阪府):2010/07/21(水) 23:48:26.99 ID:+hlGxxAo BE:873153735-2BP(124)

>>25
XMLのdtdにレイアウト用のタグの定義を入れてあげればいいんでないの
基本的にXHTMLもどきで十分こと足りると思うけど
そういう問題でなくて?
30 運輸業(長屋):2010/07/21(水) 23:51:08.06 ID:gYeZfOia
Texスレとか少なくとも大卒、できれば理系のやつしかわからないスレw
31 たこ焼き(埼玉県):2010/07/21(水) 23:52:38.87 ID:ye5DsCVq
情報系はテフ出来なきゃやってけねぇ
あーめんどい
32 職人(長屋):2010/07/21(水) 23:54:18.34 ID:rKGK1lSa
最近の奥村先生のTwitterフォローしてると、ν速チェックしてんじゃないかと思えて仕方ない
33 スタイリスト(東京都):2010/07/22(木) 00:05:15.88 ID:HSBKV3j+
wordの数式エディタで充分だろw
34 海上保安官(東京都):2010/07/22(木) 00:27:52.06 ID:Bdd5XucY
>>7
svg
35 教員(大阪府):2010/07/22(木) 00:32:01.45 ID:IVsSKgzz BE:1164204645-2BP(124)

>>34
svgはepsようなただのベクトルデータのフォーマットだよ
36 スポーツ選手(東京都):2010/07/22(木) 00:32:50.71 ID:qpzjCdj7
てっくす(笑)とか意味わからんもの使って通ぶるクズ死ね
37 韓国人(長屋):2010/07/22(木) 00:36:29.78 ID:ex5rBABi
お前ら低学歴には分からんかもしれんが、世にある論文という物はすべてTeXで書かれているんだぞ。
38 コピーライター(京都府):2010/07/22(木) 00:36:35.87 ID:Okr6ZzH/
テフは潔癖症が使えばいい
今時どこの学術誌でもdoc形式での投稿ぐらい対応くらいしてるぞ
docxは知らんがな
39 リセットボタン(大阪府):2010/07/22(木) 00:37:48.85 ID:zKv65z89
pptTeXってのが便利
40 H&K PSG-1(茨城県):2010/07/22(木) 00:38:15.79 ID:beBvxyr1
どんなフォーマットで作成しても
日本は絶対有効に使える形で公開しないからどうでもいい
41 幼稚園の先生(埼玉県):2010/07/22(木) 00:38:55.65 ID:FhPseAzq
ぴーらてふ
42 フランキ・スパス12(愛知県):2010/07/22(木) 00:42:16.14 ID:SSLvMZq0
おれのドク論は役に立たないから電子化しなくて結構
43 パティシエ(catv?):2010/07/22(木) 00:43:09.61 ID:GhJDprIP
論文TeXで書いてると
綺麗にできた時の達成感がハンパない
44 都道府県議会議員(関西):2010/07/22(木) 00:44:44.88 ID:O7/Ry7Wl
TeXはフリーな故にみんな使ってる環境がちょっとずつ違うよね
共同で論文書くときたまにめんどい
45 教員(大阪府):2010/07/22(木) 00:45:36.23 ID:IVsSKgzz BE:931364328-2BP(124)

みんな、同じスタイルファイルを使えばういいのに
46 海上保安官(東京都):2010/07/22(木) 00:49:20.42 ID:11RQg3hY
>>38
やめろゴミを出させるな
47 オウム真理教信者(不明なsoftbank):2010/07/22(木) 00:51:16.00 ID:SJuElhyS
表を作ってる時死にそうになる
48 レミントンM700(東京都):2010/07/22(木) 00:51:37.84 ID:Owm1uTRa
て・・・テックス
49 韓国人(長屋):2010/07/22(木) 00:51:58.07 ID:ex5rBABi
でもTeXで論文書くの面倒くさいよね。
50 H&K PSG-1(dion軍):2010/07/22(木) 00:52:13.31 ID:fLqxJE/E
tabularの綴りを毎度間違える。
51 キリスト教信者(神奈川県):2010/07/22(木) 00:52:53.04 ID:79XPDxZn
*.magで
52 経済評論家(USA):2010/07/22(木) 00:53:24.64 ID:bewHuLoc
図の位置調整で軽く半日潰れる
次のページに吹っ飛んだり、マジ勘弁
53 和菓子製造技能士(四国):2010/07/22(木) 00:54:23.29 ID:Fe5VZdDr
ラテフの存在意義が分からない
もう今はワードでも一太郎でも数式くらい丁寧に書けるだろ
pdf出力簡単だし
54 通関士(福島県):2010/07/22(木) 00:55:42.59 ID:9mptlfev
論文形式にしたときの体裁がいいからでしょ
フォントなりの問題もあるし
55 H&K PSG-1(茨城県):2010/07/22(木) 00:57:50.81 ID:beBvxyr1
XP厨なんかと同じでこういう層はどの分野でも
決していなくならないのを学んだ
56 経済評論家(USA):2010/07/22(木) 00:58:05.50 ID:bewHuLoc
簡単なレポートならWordで書くけど、
クソ重い画像付きの百ページ近い文書なんかだと
重すぎて仕事になんなくね?

最近のメモリ積みまくったPCだと
大丈夫なんかな
57 コピーライター(京都府):2010/07/22(木) 00:59:05.90 ID:Okr6ZzH/
>>46
マークアップ言語のクセにコンパイルとか笑わせんな
58 ファイナンシャル・プランナー(大阪府):2010/07/22(木) 01:02:13.31 ID:KhjF6Iz1
ちなみに研究者にMacユーザーが多いのはMacがTeX環境に適しているから
TeXshopとLaTeXiTが便利すぎる

もちろんLinuxでもいいんだけどね

59 映画評論家(埼玉県):2010/07/22(木) 01:03:12.15 ID:UufFhFpL
>>53
綺麗にってより
慣れるとTeXのほうが便利だし楽
60 芸術家(神奈川県):2010/07/22(木) 01:07:53.90 ID:XQToIo9w
>>53
自分はWordに移行したけど
数式番号と参考文献の管理がTeX良かったわ
61 作詞家(茨城県):2010/07/22(木) 01:13:35.71 ID:GvcV+wpy
TeX知ってる人には「てっく」、知らない人には「てふ」
って言い分けてるけど、我ながら何でだろう。変な習慣だな。
62 鵜飼い(北海道):2010/07/22(木) 01:19:30.81 ID:Wez+AHGs
数式エディタの数式は汚くて駄目
とくにfracが最悪よ
63 トリマー(宮崎県):2010/07/22(木) 01:21:11.26 ID:oosjCNpn
アド辺のなんとかを買えない貧乏人の代替品だろopenofficeと同レベル
64 書家(長屋):2010/07/22(木) 01:22:16.24 ID:scxQuu0X
論文投降して、フォーマットとちがうと言われたら、
フォーマットのほうが間違ってると主張できるのがTeX
65 H&K PSG-1(京都府):2010/07/22(木) 01:23:04.11 ID:ldSN7G5a BE:1929350584-PLT(12001)

数式なんてWolframAlphaで出力された式で十分っすわ
66 書家(長屋):2010/07/22(木) 01:25:22.26 ID:scxQuu0X
メールで、πって書けばいいのにわざわざ\piって書くやつ死ね
1/2を\frac{1}{2}って書くやつはもっと死ね
67 海上保安官(神奈川県):2010/07/22(木) 01:26:33.20 ID:NO1ykFzM
イヴの時間の続編出してくれ
68 海上保安官(アラバマ州):2010/07/22(木) 01:31:07.81 ID:gDtXcy8z
昔Tex試そうとしたら環境作るところがよく分かんなくて挫折した思い出
今は簡単に使えるの?
69 SV-98(東京都):2010/07/22(木) 01:32:48.69 ID:GpnRwywp
>>68
大学で教えて貰わなかったの?
70 書家(長屋):2010/07/22(木) 01:35:26.49 ID:scxQuu0X
71 漫画原作者(東京都):2010/07/22(木) 01:39:26.67 ID:anG32mNP
4ページを超える書類を作る場合は、これじゃないとイライラする
時間を無駄にしないために使うツール
72 講談師(アラバマ州):2010/07/22(木) 01:39:34.56 ID:kcHmygbr
go32とdjgppを入れて、TeX入れて
METAFONTを一晩走らせて180dpiのフォント作って
73 中国人(アラバマ州):2010/07/22(木) 01:41:01.10 ID:AkB3rp3P
数式はテフの方が圧倒的に楽だよね
74 棋士(鹿児島県):2010/07/22(木) 01:44:11.32 ID:PgAwxnSN
>>16
多分お前はTeXについて何もわかってないらしいことだけはわかる
75 運輸業(京都府):2010/07/22(木) 01:55:51.10 ID:htvRoryM
プレビューとかすぐ見れる?
全然手軽じゃないイメージがあるんだが
76 映画評論家(埼玉県):2010/07/22(木) 01:56:49.75 ID:UufFhFpL
>>75
dviで見ればいい
手軽ではない
77 H&K PSG-1(dion軍):2010/07/22(木) 01:58:00.03 ID:fLqxJE/E
C-c t j
C-c t p
yatexでこのコマンドしか使ってない気がする。
78 ディーラー(東京都):2010/07/22(木) 02:07:36.02 ID:p2+xJL4p
論文の体裁なんて、出版社の人が考えてくれるだろ
まともな紀要とか雑誌なら。
79 ジャーナリスト(dion軍):2010/07/22(木) 02:08:53.24 ID:eWAuBWxM
マイクロソフトが論文はLaTeXでって要求したんだっけ
80 海上保安官(アラバマ州):2010/07/22(木) 02:21:47.82 ID:gDtXcy8z
>>69
大学卒業したの20年ぐらい前なんだ・・・
81 海上保安官(京都府)

目的が全文検索なんだから、TeXはあまり関係ないような気がする。日本語特有の問
題である表記と文字コードのあいまいさを吸収するために、マークアップ言語を使う
ことになるかもしれないが。