w3m その2

このエントリーをはてなブックマークに追加
日本語と日本語の間にスペース/改行を入れた時、スペースが入らないのは仕様でしょうか?
 hoge fuga
と html に書くと、表示は当然
 hoge fuga
となりますが、
 テスト だよ
とすると
 テストだよ
となります。 // 期待した動作は「テスト だよ」

使っているのは w3m version w3m/0.3.1-m17n-20020717 です。
>>117
うそくせー、とか思って試してみたら本当だった。
ちなみに w3m-0.3.2 でも同様でした。長い事使ってるのに気づかんかった…
>>117
スペース入った方がうれしい?
>>117
仕様というか HTML 的にはこっちのが正しいと思うが……
Mozilla や IE や Opera では日本語と日本語の間のスペースを
わざわざ入れてくれちゃったりするので、むかつくことこの上ない。
>>120
あれ?そうだったけ?
行頭のブランク文字はカットされるけど、文中のはカットされないんじゃ。
マルチバイト文字の場合はカットされるような仕様ってありましたっけ?
>>121
ソースきぼーん。
>>120 が正しいと思われ。

RFC 2070 4.2.2
> NOTE -- RFC 1866 section 4.2.2 specifies that an HTML user agent
> should treat an end of line as a word space, except in
> preformatted text. This should be interpreted in the context of
> the script being processed, as the way words are separated in
> writing is script-dependent. For some scripts (e.g. Latin), a
> word space is just a space, but in other scripts (e.g. Thai) it is
> a zero-width word separator, whereas in yet other scripts (e.g.
> Japanese) it is nothing at all, i.e. totally ignored.

HTML 4.01 9.1
> This layout may involve putting space between words (called inter-word
> space), but conventions for inter-word space vary from script to script.
> For example, in Latin scripts, inter-word space is typically rendered as
> an ASCII space (?x0020;), while in Thai it is a zero-width word separator
> (?x200B;). In Japanese and Chinese, inter-word space is not typically
> rendered at all.
124121:02/11/18 18:13
>>123
おお!そうだったんですね。
この辺、てきとーに解釈してたんで勉強になりました。
125117:02/11/18 19:12
>>118-123
コメントありがとうございます。

仕様…というか、 RFC 的にも正しい動作なんですね。
個人的にはスペースが入ってくれた方が嬉しかったのですが…。
まぁ大したことじゃないので、気にしないようにします。
>>125
> 個人的にはスペースが入ってくれた方が嬉しかったのですが…。
その理由が気になる。
なんで?
127121:02/11/18 20:04
>>125
じゃ、どうしてもスペース挟みたい場合は、実体参照使うってのはどう?
  使えば問題ない(と思うんだが…)。
128121:02/11/18 20:06
>>127
ありゃ、消えちゃったよ。  ね。
ソース上で不要なスペースが入っているのに気付きにくいとか。
130名無しさん@お腹いっぱい。:02/11/18 21:41
DNSハングの件だが、ハング中にTOPでみてみたが、
w3mは出てなかった、DNS関係のソフト(BIND)ももちろんなし。

内部でハングッテルorループッテル可能性大!
131名無しさん@お腹いっぱい。:02/11/18 21:42
たぶん、GCだろうなぁ。。。
132名無しさん@お腹いっぱい。:02/11/18 21:44
FreeBSD portsのboehm-gcが6.1にうpされてるな。i386縛りは解除されたっぽい。
>>123
その仕様って問題になった事ないのかな。
charactersじゃなくてscriptsってことは、「kore ha nihongo desu」
みたいに日本語をローマ字で記述した場合は間の空白を全部無視するって
ことだよね。
毎度の事ながら読みようによってはどうとでも取れる「実装依存」な仕様
>>133
そもそも日本語のローマ字表記に分かち書きに関する規則が存在しないので
議論にならないと思われ。