テキストの不可逆圧縮をやってみる。
1.文中に出てくる「です」「ます」等を「だ」「である」等に変換。
2.全角英数を半角に変換。
3.難しい単語を同じ意味のよく使う単語に変換。
4.外来語を簡単な日本語や英語等に変換。(「インターネット」を「the Internet」とか)
...
圧縮後でもパターンを作れれれば圧縮できますよね?
無秩序状態を崩すための暗号化とか無いんでしょうか。
>>311 圧縮後の状態は「そのデータをあらわすために必要な最低限の量」になっているので、
それ以上の圧縮ができない。
(理論上は)
圧縮後にパターンがあれば圧縮できる。
十分に無秩序(パターンなし)の状態から方法Xを使ってパターンを作った場合、それを再圧縮することは可能だ。
だが、暗黙の前提としての複号可能化を考えると、方法Xの情報も伝えなければならない。
結局トータルの情報量は減ることはない。むしろ増える。
>>311 圧縮後にパターンを作ることを考えるより、
圧縮しやすいパターンに変換することを考えるべし。
315 :
デフォルトの名無しさん:03/10/05 02:58
そういえば昔、画像のMAGってフォーマットの「美点」として、
「lzhで固めるとよく縮む」ってのが必ず挙げられてたな(藁
>>315 MAG自体がlzに似たアルゴリズム(一致を左・上から見つける)なので、
lzhでの再圧縮がそこそこ有効なのは十分にありえますな。
巣のままだと、圧縮率をそこそこにして、展開速度を速くできたし、
lzhでさらに圧縮できるのに、lzhもそれなりに展開速度が速い。
内部で圧縮率・展開速度を変更できるパラメータを持つよりも、長所を訴えやすかったのかも。