日本語処理

このエントリーをはてなブックマークに追加
1デフォルトの名無しさん
おもにJIS/EUC/SJISについてのスレ
2デフォルトの名無しさん:02/05/08 11:00
区点コードの話題も歓迎。
また糞スレか……、と思いつつも、とりあえず様子見。
import java.io.*;
import java.util.*;

public class BakaRef {

public static void main(String args[]) {
Baka 内部クラスインスタンス = Baka.getBaka( 2 );

内部クラスインスタンス.set漢字変数("ほげ");
System.out.println( "内部クラス:"+ 内部クラスインスタンス.get漢字変数());
}

}

かえって読みにくいからやめようね
5デフォルトの名無しさん:02/05/08 12:13
えっと、EUCの漢字判定ってどうやるんですか?
(SJISのiskanjiみたいなやつ)
>(SJISのiskanjiみたいなやつ)

何これ?
7デフォルトの名無しさん:02/05/08 12:25
int iseuckanji(char ch){
return (ch & 0x80) != 0;
}
85:02/05/08 12:29
>>7ありがd
telnetアプリ作ってて必要になったので
>>6iskanji、知らない?
106:02/05/08 13:13
>>9
えーと、知らないから聞いているんです。
有名なモジュールのメソッドか何か?
>>10
聞く前にとりあえず検索してみてください。
http://google.yahoo.co.jp/bin/query?p=iskanji&n=25&hc=0&hs=0
126:02/05/08 13:56
うーん、正直、iskanji が何だろうがどうでも良いんだけどね。
検索先まで追って調べる気はないよ。
質問する方が偉そう…アフォカ
漏れの日本語処理が変です。
なんとかしてください。
おながいします。
15デフォルトの名無しさん:02/05/10 22:49
6はVB厨さんかな?
166 ◆9NT64xD6 :02/05/11 01:17
残念ながら、

仕事は VC++/Perl が多いです。たまに VB もやるけど。
趣味では サーバサイドの Java で遊んでます。

なんでだろ?
iskanji って聞けば、みんながみんな、「あれのことか」と
思い浮かべるほど、有名なものなんだろうか。

調べろ?いや、やっぱりどうでも良い。

ということでした。
17結論。:02/06/09 11:32
iskanji は C言語のライブラリ。
なので C++ で仕事出来てるとは推測しがたい。
iskanjiはいろいろな環境にある。
本当に漢字かどうかを調べるなら正規表現を使うだろうが。


そういえばTclってユニコード対応になったんだっけ?
とりあえず日本語処理はRubyで十分過ぎるけど。
nkfを使え
20デフォルトの名無しさん:02/06/30 23:18
hogehogehoge
21デフォルトの名無しさん:02/07/15 03:06
いまさらなんだけど、

>>18
>本当に漢字かどうかを調べるなら正規表現を使うだろうが。

漢字判定と正規表現って、関係あるの?
関係ないの?
全く関係無い。
>>18はアフォ。
以上。
24おそらく、:02/07/15 03:10
18=6=アフォ
>>21
漢字と仮名を区別する場合、って意味じゃねーの。

それにiskanjiなんてのは環境依存。>>17のほうがアフォ。
結局クソスレになってしまったか… 黙祷
27デフォルトの名無しさん:02/07/15 09:14
>>4ってあほだな。
28デフォルトの名無しさん:02/07/15 09:15
>>21
関係あるよ。 正規表現で拾えるだろ
>>28
果てしなく薄い関係だな。
漢字判定とオブジェクト指向って、関係あるの?
漢字判定と.NETって、関係あるの?
漢字判定とマイクロソフトって、関係あるの?
Windows でプログラムする際、
MBCSかUNICODEかどっちがよいでしょう?
どっちでもよいでしょう?
#define UNICODE
しとけば「このアプリは国際化対応です」といえますか?
いえますでしょう?
いえますです?
UNICODEにする長所、短所ってなにがあるでしょう?
MBCSも。
WindowsでいうUNICODEってUTF-16だからなー。
>>37
だから なんだよ
39デフォルトの名無しさん:02/07/15 16:52
まさきひょうげん
どっちかっつーと、まさのり、かなと。
41デフォルトの名無しさん:02/07/16 03:10
>>25
>それにiskanjiなんてのは環境依存。>>17のほうがアフォ。

環境依存ってどういうこと?
SJISなら判定方法どの環境でも同じだよね?
>>41
iskanjiは標準ライブラリの定義の中には無いってことでは?
処理系毎に用意されてるものを使うか、昔の雑誌から引っ張ってくるか、
自分で書くか。
まあ、超有名マクロには違いないなわけで、Cで文字列処理したこと
あるやつは誰でも1つぐらいストックは持ってるだろうし、
使い方もみんな同じだと思う。

環境依存という程の問題ではなさそうだが。
43デフォルトの名無しさん:02/07/16 03:32
6=18=25=アフォ
#define issjis1(c) ((unsigned char)(((c)^0x20)-0xa1)<0x3c)
テーブル引いた方が速いかもね。
45デフォルトの名無しさん:02/07/16 06:29
>>42, >>44
まともなスレに軌道修正してくれ
おい、お前らUNICODEを絶滅させて下ちい。
>>37 >>46
初心者にもわかりやすく説明してください。


つねに2バイトつかうから?
正確にはWindowsのはUCS2だったかもしれんが。

UNICODEには根本的に包接とかunificationの問題点があるし、
結果的に非互換な実装が乱立している。Yen problemとかもいろいろ。
UTF16にいたってはmulti wide-char stringという、訳の分からんキメラ状態だし。

UTF8はSJISとかよりも扱いが楽な部分もあるが。
だから、サロゲートペアがあったりして、なんか腹立つ。
質問ですが、 URL に使われる漢字コード って、なにを使うんですか?特に日本語ドメインをどう処理するか気になります。

調べろって?
漢字ファイル/フォルダについてはutf-8こそが王道である、とMS
あたりならいうかもしれないけれど、実際には決まっていなくて、
現存するファイル名は、たいがいShift_JISだったりする。
 日本語(というより多言語)ドメインは、「UNICODEのRACEエンコード」、と
決まってはいる。使われてはいないが。
>>51
多言語ドメインは使われてはいないけど、対応処理は考慮して作成して置かないと、そこから突っつかれる
可能性もある。あっちがうや、英数字だけでなく(使われていなくても)多言語を入力される恐れを考えておく
ってこと。

当たり前のことか。
53デフォルトの名無しさん:02/07/17 00:02
>当たり前のことか。
んなことねーよ。
こういう助言は非常に助かる。
またやってくれ。
>>52
RACEは考慮してないクライアントでもそれなりに動くように作ってあんじゃないのか?
55デフォルトの名無しさん:02/07/18 02:06
SJIS漢字や半角文字を1文字とみなして(つまり1文字のサイズがshort)処理を
しようと思ってますが、なにか落とし穴ありませんか?
正規表現とか、こういう風に1文字として処理しないと非常に面倒そうなので。
>>55
そうですね。MIMEみたいなものですか。
>>56
おっさんおっさん、それ2ヶ月前のレスだよ。
しかも会話になってねえよ。
ハンカクサイ
59デフォルトの名無しさん:02/09/23 02:37
フーリエ変換Masterしたよ!
>>57
つっこみワロタ!
61デフォルトの名無しさん:02/09/23 05:22
漢字判定めんどくさい
62デフォルトの名無しさん:02/09/24 22:13
ISO2022の変換コードって載ってないかな。
Javaだと嬉しい。

ISO2022JP ではなくて ISO2022。
>>62
変換コードってなんのことだ?
構造とエスケープシーケンスならECMA-35を読め。
64デフォルトの名無しさん:02/09/29 18:00
半角カタカナを全角カタカナに変換するライブラリを作ってみたいのですが、
参考になるようなサイトはありますか?
そんなん文字コード調べればすぐじゃん
sage
67デフォルトの名無しさん:02/10/28 17:30
参考図書はi18n bookとcjkv bookで確定?
なんで文字コード如きに参考書買わなければならないんだよ!
コンピュータは何をやるにも金がかかるじゃないかヽ(`Д´)ノ
マジカョ!?
ケチケチスンナョ
>>69
君が文字コード解説のページを作って公開すれば、
今から勉強する人は、君と同じ思いをせずに済むよ。
だから、サロゲートペアがあったりして、なんか腹立つ。
ぱいそんぱいそんぱいそん!
↑mailto:xxxli
ムダ毛処理もこのスレで質問していいのでしょうか? (♀ :26才: OL)
>>76
サンプル画像を貼り付けておきました。
アドバイスお願いします。
81名無しさん:03/01/03 00:13
           / ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄\
Λ_Λ  | 君さぁ こんなスレッド立てるから          |
( ´∀`)< 厨房って言われちゃうんだよ             |
( ΛΛ つ >―――――――――――――――――――‐<
 ( ゚Д゚) < おまえのことを必要としてる奴なんて         |
 /つつ  | いないんだからさっさと回線切って首吊れ     |
       \____________________/

(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)

(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)

(-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ… (-_-) ハヤクシンデネ…
(∩∩) (∩∩) (∩∩)
82IP記録実験:03/01/08 22:11
IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/

1 名前:ひろゆき ◆3SHRUNYAXA @どうやら管理人 ★ 投稿日:03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。

27 名前:心得をよく読みましょう 投稿日:03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か?

38 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。

73 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/08 17:27 ID:rLfxQ17l
>ところで、IPが抜かれて何か今までと変わることってあるのでしょうか?
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。
IPって”イップ”とは読まないよね。
おなまえをいちいち考えなくていいからfusianasanっていいよね♪
最初ね、かぶっちゃったこともあったしでもあいぴーっていうのはかぶらないんだね♪
>>179
君大好き!!
さぁ、地下に潜るか。

ふたば☆ちゃんねる
http://img.2chan.net/
 
>>239
鏡月飲んでます。焼酎だけど。
梅入れて飲むと(゚Д゚)ウマー
======2==C==H======================================================

         2ちゃんねるのお勧めな話題と
     ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数: 138720人 発行日:2003/1/9

年末年始ボケがそろそろ収まり始めた今日このごろのひろゆきです。

そんなわけで、年末に予告したIP記録ですが実験を開始しています。

「2ちゃんねる20030107」
こんな感じで各掲示板の最下部に日付が入ってるんですが、
20030107以降になってるところはログ記録実験中ですー。

んじゃ!

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────
>>8 この判決の要旨は、
現状の2ちゃんねるにあっては、
「レスの真実性・相当性」をひろゆきが立証出来ないレスについては、
内容証明による削除要請があり次第、片っ端から消しなさい。
そうしないなら、ひろゆきが賠償するってことですよ。

ということです。なんともデムパな判決ですが、ひろゆきの控訴も棄却されてしまいました。

で、まぁ、なんとか、内容証明→速削除 の義務を軽減しようとひろゆきが考えた策が、
んじゃ、当事者同士で解決してね!ってことで、IPを教えてみよう! ということになったわけです。
352 名前:ひろゆき ◆3SHRUNYAXA [] 投稿日:03/01/08 18:01 ID:rLfxQ17l
   悲しいときー。悲しいときー。
   正月に友人からエロゲーを借りて喜んで帰ってきたら、
   パソコンが壊れてたー。

   昨日ヨドバシカメラで部品買ってきて直しました。
>>625
ほんとにもったいないね、、、
箸の持ち方を決めるのに法律に頼るのはどうかと(素)
すんげーくさいウンコ出た。
この匂いを共有したい。
IPとはなんですか?
復帰スクリプトで何か不具合があったような。。。
今、手直し中ですので、「ここも直して」というのがあったら、
よろしくお願いしますー。

公然猥褻でタイーホされます
>ひろゆき
全鯖投入を決断したのはいつ?
あれ?ニュー速もip記録してるの?
2chでIP記録実験が始まる

 ネット掲示板「2ちゃんねる」管理人のひろゆき氏は1月9日、掲示板に書き込んだユーザーのIPを記録する実験を始めたことを明らかにした。

 ひろゆき氏が発行するメールマガジンで明らかにした。各掲示板の最下部の日付が「2ちゃんねる20030107」以降のものはアクセスログの記録を実験しているという。

 ひろゆき氏は2002年末、都内の動物病院が同掲示板への発言の削除を求めた裁判の控訴審で敗訴したのを受け、IP記録の開始を示唆していた。(ZDNet)

 yahooでもひろゆき氏なんですね。ビンラディン氏・オマル氏を思い出す。
P2P掲示板をまともにつくった方が遙かに楽だと思うよ。がんがって。
言われてみれば、前より思いような
======2==C==H======================================================

         2ちゃんねるのお勧めな話題と
     ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数: 139038人 発行日:2003/1/10

なにやら、連日メルマガだしてるひろゆきです。

そんなわけで、ログ記録実験ですが、いちいちサーバ指定するのが面倒なので、
全部のサーバに入れてみました。

重くなって落ちたりしてもご愛嬌ってことで。。。

んじゃ!

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────



あれ、今までCGIやSSIを使用してなかったの?




通報しますた
1000 :心得をよく読みましょう :03/01/10 21:52 ID:Z+vNhdSO
>>1スレ立て乙!
 IP記録告知以後、2chのどの板も、どのスレも、だいぶ静かになった
ような気がする。

 今まで如何に無責任な書き込みが多かったかを示しているような
気もするけど、閑散として活気もなくなったような気もする。
逆に立てて欲しくなかったんだが(w
保狂参
nkfを使え
びびった…
Plate6はわかんないようになってるんだよね?
わかんなかったんだけど…
勇者はマンコが大好きです!!『まんこ』
学校休みたいときに有効な手段だ
んじゃファーストとセカンドの立場がない
まぁ潰れる板と生き残る板があるってことだ
横浜地方裁判所第4民事部でも12/13掲示板訴訟判決。
そっか、俺の認識が甘かった。
ドリキャスをネットにつないでる人って全ブラウザの数%を占めていたのか。
117山崎渉:03/01/13 18:36
(^^)
訴えられたら捕まる?(^_^;)なんか勘違いしてるでしょ
119山崎渉:03/01/15 17:57
(^^)
120山崎渉:03/01/23 22:19
(^^)
名スレの予感
122名無しさん@Emacs:03/02/03 12:29
すみません、良く分かっていないのですが、
C++の wstring(cの wchar_t)ってどういう文字コードを扱えるので
しょうか?
なんかマルチバイト?ワイド文字?良く分からないのですが・・・
unicode?
124122:03/02/03 16:12
>>123
でもなんか unicode にも色々ありますよね?
しかも wchar_t のサイズは環境依存とかいう話も見掛け、
何にどう使うのが正しいのかサパーリ分からないんですが・・・
# なんかとりあえず日本語使うんなら wstring みたいな話だけしか分からず。
125デフォルトの名無しさん:03/02/03 16:44
wchat_t は具体的な文字コードは決まってないです。
ただ「2^8 種類以上の文字を 1文字として扱える枠組み」ってだけ。

文字コードは char* から wchar_t* への変換ルーチン mbstowcs の実装による。
くわしくは man みれ。glibc なら環境変数 LC_CTYPE を変えることによって
ライブラリ iconv が対応してるあらゆる文字コードに対応できる。
126122:03/02/03 18:07
>>125
なるほど!なんとなく分かってきました!

まず、設定されているロケールのマルチバイト文字があったとして、
そいつを mbstowcs 関数に噛ませると wchar_tに変換してくれる、と。
で、glibc の場合はその変換された wchar_t が UCS-4 である(らしい)が、
これはライブラリによって違う場合もある、と。
そんでもって wchar_t に変換するととりあえず「一文字が一単位」という概念が
確立されるから扱いやすくなるから、何かしらの操作をして、
今度はwcstombs でロケールで指定された文字コードに戻ってメデタシメデタシ。

と、こんな感じなわけですね。
もし違ったら突っ込みいれていただけるとありがたいです。
>>126
・ソースコードに書かれたワイド文字リテラル(Lで書くやつね)を
解釈するのはコンパイラ
・mbstowcsやらfgetwsやらの動作は実行環境のlibc/locale依存
・ワイド文字のエンコーディング方式は未定義
という事実から、どういう問題が起こり得るか、それに対処するには
どうしたらいいか考えて見なされ。
128122:03/02/03 19:12
>>127
・コンパイラが解釈できる文字コードでソースは書かないとダメ。
・あるwchar_tの文字コードをある特定の文字コードと決め付けて実装
しちゃうと環境によっては(・A・)イクナイ!!
という矛盾する二つの結論が導かれる気がするんですが・・・
どーしたらよいのでしょう・・・
だから std::wstring とかがあんまはやってないという事なんでしょうか。
129デフォルトの名無しさん:03/02/04 05:39
CJKV日中韓越情報処理って1200ページの半分がコード表なんだね・・・。
130デフォルトの名無しさん:03/02/04 06:34
>>126
今となってはwchar_tで扱えるのって一部の固定長16bit-unicode
ぐらいだよね?
Webブラウザとかで使われる可変長のUTF8とかの存在もあるし、
本末転倒な気がするんだけど。>unicode
どうやって切り分けすりゃいいんだよー。

つーかみなさん、日本語処理の時、プログラムの内部では多分、
1つの文字コードについての処理を書いてると思うんですが、どの
文字コード前提でプログラム書いてます?

ちなみに自分は内部SJIS、あとは外向けに変換フィルター作って
おしまいです。SJISを使う理由は昔から慣れてるからなんだけど。
131ぱいそなー:03/02/04 14:17
Python にしてから文字列はぜんぶ Unicode にしちまいました。
ただし入出力はあいかわらず euc-jp。Unix なもので。
132デフォルトの名無しさん:03/02/04 20:01
>>131
無難な良い選択
133デフォルトの名無しさん:03/02/16 01:07
喪主
そういえばBeOSで遊んでた頃は完全UTF-8だったな
ナツカスィ
日本語処理でエンコードなどの実装が
いちばん楽な言語ってなんですかね?
俺、まだCしかやったことないんですが
Cだとむちゃつらいです
136デフォルトの名無しさん:03/02/16 02:18
JavaとC#だな
137デフォルトの名無しさん:03/02/16 02:22
MS932は対象外?

Windows使ってるやつはSJIS使ってないでしょ?
保守保守
139デフォルトの名無しさん:03/03/21 22:22
保守あげ失敗。
140デフォルトの名無しさん:03/03/23 14:27
モジモジしないで
141山崎渉:03/04/17 15:51
(^^)
142山崎渉:03/04/20 04:15
   ∧_∧
  (  ^^ )< ぬるぽ(^^)
143山崎渉:03/05/28 13:22
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉
通報しますた
145山崎 渉:03/07/15 10:42

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄
146山崎 渉:03/07/15 14:05

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄
147山崎 渉:03/08/02 02:50
(^^)
148山崎 渉:03/08/15 17:51
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン
149ハッカ飴:03/10/11 13:57
>>135
Rubyに決まってる。
150デフォルトの名無しさん:03/10/11 14:26
文字コードの処理の国際化で一番進んでるのはTclだと思う
へぇー >>150
詳細が知りたいんだけど、ポインタない?

僕はmuleがあるってところでelispもいいんじゃないかと思う
(m17nの話だけど)
>>149
rubyは日本語向けのl10nはされてるけど、
ちゃんとしたi18nの枠組みはまだ用意されてないと思うよ。
残念だねえ。
>>152
CVS に m18n が突っ込まれてるよ。API がまだ調節中だけど。
s/m18n/17n/
155153-154:03/10/19 21:25
ああ、もうだめぽ。
オライリーのCJKV日中韓越情報処理の角に頭をぶつけて氏んできます。
>>155
金持ちメ。