日本語処理

1 ：デフォルトの名無しさん：02/05/08 10:54

おもにJIS/EUC/SJISについてのスレ

2 ：デフォルトの名無しさん：02/05/08 11:00

区点コードの話題も歓迎。

また糞スレか……、と思いつつも、とりあえず様子見。

import java.io.*;
import java.util.*;

public class BakaRef {

public static void main(String args[]) {
Baka 内部クラスインスタンス = Baka.getBaka( 2 );

内部クラスインスタンス.set漢字変数("ほげ");
System.out.println( "内部クラス:"+ 内部クラスインスタンス.get漢字変数());
}

}

かえって読みにくいからやめようね

5 ：デフォルトの名無しさん：02/05/08 12:13

えっと、EUCの漢字判定ってどうやるんですか？
(SJISのiskanjiみたいなやつ)

6 ：デフォルトの名無しさん：02/05/08 12:16

>(SJISのiskanjiみたいなやつ)

何これ？

7 ：デフォルトの名無しさん：02/05/08 12:25

int iseuckanji(char ch){
return (ch & 0x80) != 0;
}

8 ：5：02/05/08 12:29

>>7ありが㌧

9 ：デフォルトの名無しさん：02/05/08 12:31

telnetｱﾌﾟﾘ作ってて必要になったので
>>6iskanji、知らない?

10 ：6：02/05/08 13:13

>>9
えーと、知らないから聞いているんです。
有名なモジュールのメソッドか何か？

11 ：デフォルトの名無しさん：02/05/08 13:28

>>10
聞く前にとりあえず検索してみてください。
http://google.yahoo.co.jp/bin/query?p=iskanji&n=25&hc=0&hs=0

12 ：6：02/05/08 13:56

うーん、正直、iskanji が何だろうがどうでも良いんだけどね。
検索先まで追って調べる気はないよ。

13 ：デフォルトの名無しさん：02/05/08 15:58

質問する方が偉そう…ｱﾌｫｶ

14 ：デフォルトの名無しさん：02/05/10 08:45

漏れの日本語処理が変です。
なんとかしてください。
おながいします。

15 ：デフォルトの名無しさん：02/05/10 22:49

6はVB厨さんかな？

16 ：6 ◆9NT64xD6 ：02/05/11 01:17

残念ながら、

仕事は VC++/Perl が多いです。たまに VB もやるけど。
趣味ではサーバサイドの Java で遊んでます。

なんでだろ？
iskanji って聞けば、みんながみんな、「あれのことか」と
思い浮かべるほど、有名なものなんだろうか。

調べろ？いや、やっぱりどうでも良い。

ということでした。

17 ：結論。：02/06/09 11:32

iskanji は C言語のライブラリ。
なので C++ で仕事出来てるとは推測しがたい。

18 ：デフォルトの名無しさん：02/06/09 12:23

iskanjiはいろいろな環境にある。
本当に漢字かどうかを調べるなら正規表現を使うだろうが。

そういえばTclってユニコード対応になったんだっけ？
とりあえず日本語処理はRubyで十分過ぎるけど。

19 ：デフォルトの名無しさん：02/06/30 23:16

nkfを使え

20 ：デフォルトの名無しさん：02/06/30 23:18

hogehogehoge

21 ：デフォルトの名無しさん：02/07/15 03:06

いまさらなんだけど、

>>18
>本当に漢字かどうかを調べるなら正規表現を使うだろうが。

漢字判定と正規表現って、関係あるの？

22 ：デフォルトの名無しさん：02/07/15 03:07

関係ないの？

23 ：デフォルトの名無しさん：02/07/15 03:09

全く関係無い。
>>18はアフォ。
以上。

24 ：おそらく、：02/07/15 03:10

18=6=ｱﾌｫ

25 ：名無しさん＠カラアゲうまうま：02/07/15 05:23

>>21
漢字と仮名を区別する場合、って意味じゃねーの。

それにiskanjiなんてのは環境依存。>>17のほうがｱﾌｫ。

26 ：デフォルトの名無しさん：02/07/15 06:09

結局クソスレになってしまったか… 黙祷

27 ：デフォルトの名無しさん：02/07/15 09:14

>>4ってあほだな。

28 ：デフォルトの名無しさん：02/07/15 09:15

>>21
関係あるよ。　正規表現で拾えるだろ

29 ：デフォルトの名無しさん：02/07/15 09:30

>>28
果てしなく薄い関係だな。

30 ：デフォルトの名無しさん：02/07/15 09:57

漢字判定とオブジェクト指向って、関係あるの？
漢字判定と.NETって、関係あるの？
漢字判定とマイクロソフトって、関係あるの？

31 ：デフォルトの名無しさん：02/07/15 12:43

Windows でプログラムする際、
MBCSかUNICODEかどっちがよいでしょう？

32 ：デフォルトの名無しさん：02/07/15 12:45

どっちでもよいでしょう？

33 ：デフォルトの名無しさん：02/07/15 12:58

#define UNICODE
しとけば「このアプリは国際化対応です」といえますか？

34 ：デフォルトの名無しさん：02/07/15 13:02

いえますでしょう？

35 ：デフォルトの名無しさん：02/07/15 13:08

いえますです？

36 ：デフォルトの名無しさん：02/07/15 13:11

UNICODEにする長所、短所ってなにがあるでしょう？
MBCSも。

37 ：名無しさん＠カラアゲうまうま：02/07/15 15:06

WindowsでいうUNICODEってUTF-16だからなー。

38 ：デフォルトの名無しさん：02/07/15 15:31

>>37
だから　なんだよ

39 ：デフォルトの名無しさん：02/07/15 16:52

まさきひょうげん

40 ：デフォルトの名無しさん：02/07/15 19:43

どっちかっつーと、まさのり、かなと。

41 ：デフォルトの名無しさん：02/07/16 03:10

>>25
>それにiskanjiなんてのは環境依存。>>17のほうがｱﾌｫ。

環境依存ってどういうこと？
SJISなら判定方法どの環境でも同じだよね？

42 ：デフォルトの名無しさん：02/07/16 03:21

>>41
iskanjiは標準ライブラリの定義の中には無いってことでは？
処理系毎に用意されてるものを使うか、昔の雑誌から引っ張ってくるか、
自分で書くか。
まあ、超有名マクロには違いないなわけで、Cで文字列処理したこと
あるやつは誰でも1つぐらいストックは持ってるだろうし、
使い方もみんな同じだと思う。

環境依存という程の問題ではなさそうだが。

43 ：デフォルトの名無しさん：02/07/16 03:32

6=18=25=ｱﾌｫ

44 ：名無しさん＠カラアゲうまうま：02/07/16 06:00

#define issjis1(c) ((unsigned char)(((c)^0x20)-0xa1)<0x3c)
テーブル引いた方が速いかもね。

45 ：デフォルトの名無しさん：02/07/16 06:29

>>42, >>44よ
まともなスレに軌道修正してくれ

46 ：名無しさん＠Ｅｍａｃｓ：02/07/16 08:15

おい、お前らUNICODEを絶滅させて下ちい。

47 ：デフォルトの名無しさん：02/07/16 08:44

>>37　>>46
初心者にもわかりやすく説明してください。

つねに2バイトつかうから？

48 ：名無しさん＠カラアゲうまうま：02/07/16 09:13

正確にはWindowsのはUCS2だったかもしれんが。

UNICODEには根本的に包接とかunificationの問題点があるし、
結果的に非互換な実装が乱立している。Yen problemとかもいろいろ。
UTF16にいたってはmulti wide-char stringという、訳の分からんキメラ状態だし。

UTF8はSJISとかよりも扱いが楽な部分もあるが。

49 ：デフォルトの名無しさん：02/07/16 09:56

だから、サロゲートペアがあったりして、なんか腹立つ。

50 ：デフォルトの名無しさん：02/07/16 11:11

質問ですが、 URL に使われる漢字コードって、なにを使うんですか？特に日本語ドメインをどう処理するか気になります。

調べろって？

51 ：デフォルトの名無しさん：02/07/16 11:16

漢字ファイル/フォルダについてはutf-8こそが王道である、とMS
あたりならいうかもしれないけれど、実際には決まっていなくて、
現存するファイル名は、たいがいShift_JISだったりする。
　日本語(というより多言語)ドメインは、「UNICODEのRACEエンコード」、と
決まってはいる。使われてはいないが。

52 ：デフォルトの名無しさん：02/07/16 11:58

>>51
多言語ドメインは使われてはいないけど、対応処理は考慮して作成して置かないと、そこから突っつかれる
可能性もある。あっちがうや、英数字だけでなく(使われていなくても)多言語を入力される恐れを考えておく
ってこと。

当たり前のことか。

53 ：デフォルトの名無しさん：02/07/17 00:02

>当たり前のことか。
んなことねーよ。
こういう助言は非常に助かる。
またやってくれ。

54 ：デフォルトの名無しさん：02/07/17 05:31

>>52
RACEは考慮してないクライアントでもそれなりに動くように作ってあんじゃないのか?

55 ：デフォルトの名無しさん：02/07/18 02:06

SJIS漢字や半角文字を1文字とみなして(つまり1文字のサイズがshort)処理を
しようと思ってますが、なにか落とし穴ありませんか？
正規表現とか、こういう風に１文字として処理しないと非常に面倒そうなので。

56 ：デフォルトの名無しさん：02/09/23 00:20

>>55
そうですね。MIMEみたいなものですか。

57 ：デフォルトの名無しさん：02/09/23 01:04

>>56
おっさんおっさん、それ２ヶ月前のレスだよ。
しかも会話になってねえよ。

58 ：デフォルトの名無しさん：02/09/23 01:34

ﾊﾝｶｸｻｲ

59 ：デフォルトの名無しさん：02/09/23 02:37

フーリエ変換Masterしたよ！

60 ：デフォルトの名無しさん：02/09/23 02:45

>>57
つっこみﾜﾛﾀ!

61 ：デフォルトの名無しさん：02/09/23 05:22

漢字判定めんどくさい

62 ：デフォルトの名無しさん：02/09/24 22:13

ISO2022の変換コードって載ってないかな。
Javaだと嬉しい。

ISO2022JP ではなくて ISO2022。

63 ：デフォルトの名無しさん：02/09/25 00:12

>>62
変換コードってなんのことだ？
構造とエスケープシーケンスならECMA-35を読め。

64 ：デフォルトの名無しさん：02/09/29 18:00

半角カタカナを全角カタカナに変換するライブラリを作ってみたいのですが、
参考になるようなサイトはありますか？

65 ：デフォルトの名無しさん：02/09/29 18:19

そんなん文字コード調べればすぐじゃん

66 ：デフォルトの名無しさん：02/10/28 16:33

sage

67 ：デフォルトの名無しさん：02/10/28 17:30

>>64
http://www.unixuser.org/~euske/doc/kanjicode/
とかは

68 ：デフォルトの名無しさん：02/10/28 17:35

参考図書はi18n bookとcjkv bookで確定？

69 ：デフォルトの名無しさん：02/10/28 17:38

なんで文字コード如きに参考書買わなければならないんだよ!
ｺﾝﾋﾟｭｰﾀは何をやるにも金がかかるじゃないかヽ(`Д´)ﾉ

70 ：デフォルトの名無しさん：02/10/28 17:48

ﾏｼﾞｶｮ!?
ｹﾁｹﾁｽﾝﾅｮ

71 ：デフォルトの名無しさん：02/10/28 17:55

>>69
君が文字コード解説のページを作って公開すれば、
今から勉強する人は、君と同じ思いをせずに済むよ。

72 ：デフォルトの名無しさん：02/11/09 20:04

だから、サロゲートペアがあったりして、なんか腹立つ。

73 ：デフォルトの名無しさん：02/11/23 01:31

ぱいそんぱいそんぱいそん!

74 ：デフォルトの名無しさん：02/11/23 01:32

↑mailto:xxxli

75 ：デフォルトの名無しさん：02/11/23 03:10

ムダ毛処理もこのスレで質問していいのでしょうか？ (♀ :26才: OL)

76 ：デフォルトの名無しさん：02/11/23 03:13

>>75
こちらでお願いします
http://pc3.2ch.net/test/read.cgi/tech/992671330/l50

77 ：デフォルトの名無しさん：02/11/23 04:10

>>76
サンプル画像を貼り付けておきました。
アドバイスお願いします。

78 ：デフォルトの名無しさん：02/12/08 02:41

79 ：デフォルトの名無しさん：02/12/08 02:41

80 ：デフォルトの名無しさん：02/12/08 02:41

81 ：名無しさん：03/01/03 00:13

　　　　　　　　　　／￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣￣＼
Λ＿Λ　　|　君さぁ　こんなスレッド立てるから　　　　　　　　　|
（　´∀｀）＜　厨房って言われちゃうんだよ　　　　　　　　　　　|
（ ΛΛ つ＞―――――――――――――――――――‐＜
　( ﾟДﾟ) ＜　おまえのことを必要としてる奴なんて　　　　　　　 |
　/つつ　　|　いないんだからさっさと回線切って首吊れ　　　　|
　　　　　　＼＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿＿_／

(-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ… (-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ… (-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ…
(∩∩) (∩∩) (∩∩)

(-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ… (-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ… (-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ…
(∩∩) (∩∩) (∩∩)

(-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ… (-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ… (-＿-)　ﾊﾔｸｼﾝﾃﾞﾈ…
(∩∩) (∩∩) (∩∩)

82 ：IP記録実験：03/01/08 22:11

IP記録実験
http://qb.2ch.net/test/read.cgi/accuse/1042013605/

1 名前：ひろゆき ◆3SHRUNYAXA ＠どうやら管理人 ★ 投稿日：03/01/08 17:13 ID:???
そんなわけで、qbサーバでIPの記録実験をはじめましたー。

27 名前：心得をよく読みましょう投稿日：03/01/08 17:20 ID:yL/kYdMc
SETTING.TXT管轄でないということは全鯖導入を視野に、か？

38 名前：ひろゆき ◆3SHRUNYAXA 投稿日：03/01/08 17:22 ID:rLfxQ17l
>>27
鋭いです。

73 名前：ひろゆき ◆3SHRUNYAXA 投稿日：03/01/08 17:27 ID:rLfxQ17l
＞ところで、IPが抜かれて何か今までと変わることってあるのでしょうか？
・今までより、サーバが重くなる。
・裁判所や警察からの照会があった場合にはIPを提出することがある。

83 ：デフォルトの名無しさん：03/01/09 01:27

IPって”イップ”とは読まないよね。

84 ：デフォルトの名無しさん：03/01/09 02:14

おなまえをいちいち考えなくていいからfusianasanっていいよね♪
最初ね、かぶっちゃったこともあったしでもあいぴーっていうのはかぶらないんだね♪

85 ：デフォルトの名無しさん：03/01/09 03:04

>>179
君大好き！！

86 ：デフォルトの名無しさん：03/01/09 03:51

さぁ、地下に潜るか。

ふたば☆ちゃんねる
http://img.2chan.net/
　

87 ：デフォルトの名無しさん：03/01/09 12:57

>>239
鏡月飲んでます。焼酎だけど。
梅入れて飲むと（ﾟДﾟ）ｳﾏｰ

88 ：デフォルトの名無しさん：03/01/09 17:55

======2==C==H======================================================

　　　　　　　　　２ちゃんねるのお勧めな話題と
　　　　　ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数： 138720人　発行日：2003/1/9

年末年始ボケがそろそろ収まり始めた今日このごろのひろゆきです。

そんなわけで、年末に予告したIP記録ですが実験を開始しています。

「２ちゃんねる20030107」
こんな感じで各掲示板の最下部に日付が入ってるんですが、
20030107以降になってるところはログ記録実験中ですー。

んじゃ！

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────

89 ：デフォルトの名無しさん：03/01/10 10:02

>>8 この判決の要旨は、
現状の２ちゃんねるにあっては、
「レスの真実性・相当性」をひろゆきが立証出来ないレスについては、
内容証明による削除要請があり次第、片っ端から消しなさい。
そうしないなら、ひろゆきが賠償するってことですよ。

ということです。なんともデムパな判決ですが、ひろゆきの控訴も棄却されてしまいました。

で、まぁ、なんとか、内容証明→速削除の義務を軽減しようとひろゆきが考えた策が、
んじゃ、当事者同士で解決してね！ってことで、IPを教えてみよう！ということになったわけです。

90 ：デフォルトの名無しさん：03/01/10 10:42

352 名前：ひろゆき ◆3SHRUNYAXA [] 投稿日：03/01/08 18:01 ID:rLfxQ17l
　　　悲しいときー。悲しいときー。
　　　正月に友人からエロゲーを借りて喜んで帰ってきたら、
　　　パソコンが壊れてたー。

　　　昨日ヨドバシカメラで部品買ってきて直しました。

91 ：デフォルトの名無しさん：03/01/10 11:11

>>625
ほんとにもったいないね、、、

92 ：デフォルトの名無しさん：03/01/10 11:58

箸の持ち方を決めるのに法律に頼るのはどうかと（素）

93 ：デフォルトの名無しさん：03/01/10 12:27

すんげーくさいウンコ出た。
この匂いを共有したい。

94 ：デフォルトの名無しさん：03/01/10 13:20

IPとはなんですか？

95 ：デフォルトの名無しさん：03/01/10 15:40

復帰スクリプトで何か不具合があったような。。。
今、手直し中ですので、「ここも直して」というのがあったら、
よろしくお願いしますー。

96 ：デフォルトの名無しさん：03/01/10 17:09

公然猥褻でﾀｲｰﾎされます

97 ：デフォルトの名無しさん：03/01/10 23:29

＞ひろゆき
全鯖投入を決断したのはいつ？

98 ：デフォルトの名無しさん：03/01/10 23:37

あれ？ニュー速もip記録してるの？

99 ：デフォルトの名無しさん：03/01/11 00:53

2chでIP記録実験が始まる

　ネット掲示板「2ちゃんねる」管理人のひろゆき氏は1月9日、掲示板に書き込んだユーザーのIPを記録する実験を始めたことを明らかにした。

　ひろゆき氏が発行するメールマガジンで明らかにした。各掲示板の最下部の日付が「2ちゃんねる20030107」以降のものはアクセスログの記録を実験しているという。

　ひろゆき氏は2002年末、都内の動物病院が同掲示板への発言の削除を求めた裁判の控訴審で敗訴したのを受け、IP記録の開始を示唆していた。（ZDNet）

　yahooでもひろゆき氏なんですね。ビンラディン氏・オマル氏を思い出す。

100 ：デフォルトの名無しさん：03/01/11 01:00

Ｐ２Ｐ掲示板をまともにつくった方が遙かに楽だと思うよ。がんがって。

101 ：デフォルトの名無しさん：03/01/11 10:25

言われてみれば、前より思いような

102 ：デフォルトの名無しさん：03/01/11 10:58

======2==C==H======================================================

　　　　　　　　　２ちゃんねるのお勧めな話題と
　　　　　ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数： 139038人　発行日：2003/1/10

なにやら、連日メルマガだしてるひろゆきです。

そんなわけで、ログ記録実験ですが、いちいちサーバ指定するのが面倒なので、
全部のサーバに入れてみました。

重くなって落ちたりしてもご愛嬌ってことで。。。

んじゃ！

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────

103 ：デフォルトの名無しさん：03/01/11 11:51

あれ、今までCGIやSSIを使用してなかったの？

104 ：デフォルトの名無しさん：03/01/11 12:27

通報しますた

105 ：デフォルトの名無しさん：03/01/11 13:26

1000 ：心得をよく読みましょう：03/01/10 21:52 ID:Z+vNhdSO
>＞1スレ立て乙！

106 ：デフォルトの名無しさん：03/01/11 16:37

　IP記録告知以後、2chのどの板も、どのスレも、だいぶ静かになった
ような気がする。

　今まで如何に無責任な書き込みが多かったかを示しているような
気もするけど、閑散として活気もなくなったような気もする。

107 ：デフォルトの名無しさん：03/01/11 16:45

逆に立てて欲しくなかったんだが（ｗ

108 ：デフォルトの名無しさん：03/01/12 01:38

保狂参

109 ：デフォルトの名無しさん：03/01/12 01:38

nkfを使え

110 ：デフォルトの名無しさん：03/01/12 02:16

びびった…
Plate6はわかんないようになってるんだよね？
わかんなかったんだけど…

111 ：デフォルトの名無しさん：03/01/12 02:20

勇者はマンコが大好きです！！『まんこ』

112 ：デフォルトの名無しさん：03/01/12 09:50

学校休みたいときに有効な手段だ

113 ：デフォルトの名無しさん：03/01/12 09:53

んじゃファーストとセカンドの立場がない

114 ：デフォルトの名無しさん：03/01/12 20:41

まぁ潰れる板と生き残る板があるってことだ

115 ：デフォルトの名無しさん：03/01/12 20:45

横浜地方裁判所第４民事部でも12/13掲示板訴訟判決。

116 ：デフォルトの名無しさん：03/01/12 20:53

そっか、俺の認識が甘かった。
ドリキャスをネットにつないでる人って全ブラウザの数％を占めていたのか。

117 ：山崎渉：03/01/13 18:36

（＾＾）

118 ：デフォルトの名無しさん：03/01/13 22:28

訴えられたら捕まる？(^_^;)なんか勘違いしてるでしょ

119 ：山崎渉：03/01/15 17:57

（＾＾）

120 ：山崎渉：03/01/23 22:19

（＾＾）

121 ：デフォルトの名無しさん：03/02/02 16:08

名スレの予感

122 ：名無しさん＠Ｅｍａｃｓ：03/02/03 12:29

すみません、良く分かっていないのですが、
C++の wstring(cの wchar_t)ってどういう文字コードを扱えるので
しょうか?
なんかマルチバイト?ワイド文字?良く分からないのですが・・・

123 ：デフォルトの名無しさん：03/02/03 15:45

unicode?

124 ：122：03/02/03 16:12

>>123
でもなんか unicode にも色々ありますよね?
しかも wchar_t のサイズは環境依存とかいう話も見掛け、
何にどう使うのが正しいのかｻﾊﾟｰﾘ分からないんですが・・・
# なんかとりあえず日本語使うんなら wstring みたいな話だけしか分からず。

125 ：デフォルトの名無しさん：03/02/03 16:44

wchat_t は具体的な文字コードは決まってないです。
ただ「2^8 種類以上の文字を 1文字として扱える枠組み」ってだけ。

文字コードは char* から wchar_t* への変換ルーチン mbstowcs の実装による。
くわしくは man みれ。glibc なら環境変数 LC_CTYPE を変えることによって
ライブラリ iconv が対応してるあらゆる文字コードに対応できる。

126 ：122：03/02/03 18:07

>>125
なるほど！なんとなく分かってきました！

まず、設定されているロケールのマルチバイト文字があったとして、
そいつを mbstowcs 関数に噛ませると wchar_tに変換してくれる、と。
で、glibc の場合はその変換された wchar_t が UCS-4 である（らしい）が、
これはライブラリによって違う場合もある、と。
そんでもって wchar_t に変換するととりあえず「一文字が一単位」という概念が
確立されるから扱いやすくなるから、何かしらの操作をして、
今度はwcstombs でロケールで指定された文字コードに戻ってメデタシメデタシ。

と、こんな感じなわけですね。
もし違ったら突っ込みいれていただけるとありがたいです。

127 ：デフォルトの名無しさん：03/02/03 18:42

>>126
・ソースコードに書かれたワイド文字リテラル(Lで書くやつね)を
解釈するのはコンパイラ
・mbstowcsやらfgetwsやらの動作は実行環境のlibc/locale依存
・ワイド文字のエンコーディング方式は未定義
という事実から、どういう問題が起こり得るか、それに対処するには
どうしたらいいか考えて見なされ。

128 ：122：03/02/03 19:12

>>127
・コンパイラが解釈できる文字コードでソースは書かないとダメ。
・あるwchar_tの文字コードをある特定の文字コードと決め付けて実装
しちゃうと環境によっては(･Ａ･)ｲｸﾅｲ!!
という矛盾する二つの結論が導かれる気がするんですが・・・
どーしたらよいのでしょう・・・
だから std::wstring とかがあんまはやってないという事なんでしょうか。

129 ：デフォルトの名無しさん：03/02/04 05:39

CJKV日中韓越情報処理って１２００ページの半分がコード表なんだね・・・。

130 ：デフォルトの名無しさん：03/02/04 06:34

>>126
今となってはwchar_tで扱えるのって一部の固定長16bit-unicode
ぐらいだよね？
Webブラウザとかで使われる可変長のUTF8とかの存在もあるし、
本末転倒な気がするんだけど。>unicode
どうやって切り分けすりゃいいんだよー。

つーかみなさん、日本語処理の時、プログラムの内部では多分、
１つの文字コードについての処理を書いてると思うんですが、どの
文字コード前提でプログラム書いてます？

ちなみに自分は内部SJIS、あとは外向けに変換フィルター作って
おしまいです。SJISを使う理由は昔から慣れてるからなんだけど。

131 ：ぱいそなー：03/02/04 14:17

Python にしてから文字列はぜんぶ Unicode にしちまいました。
ただし入出力はあいかわらず euc-jp。Unix なもので。

132 ：デフォルトの名無しさん：03/02/04 20:01

>>131
無難な良い選択

133 ：デフォルトの名無しさん：03/02/16 01:07

喪主

134 ：デフォルトの名無しさん：03/02/16 01:21

そういえばBeOSで遊んでた頃は完全UTF-8だったな
ﾅﾂｶｽｨ

135 ：デフォルトの名無しさん：03/02/16 02:17

日本語処理でエンコードなどの実装が
いちばん楽な言語ってなんですかね？
俺、まだCしかやったことないんですが
Cだとむちゃつらいです

136 ：デフォルトの名無しさん：03/02/16 02:18

JavaとC#だな