【ソフトウェア】東京理科大、「数値列データ」専用の圧縮ソフト開発－圧縮効率３倍以上

80 ：名無しのひみつ：2009/03/20(金) 06:45:09 ID:Pn/exvtx

>>76
>どうせ周期成分をスペクトル分解するなどして、
>差分と組み合わせて表すんだろし

博士課程学生の思いつきレベルだし、>>1にも滑らかさと多項式近似のことしか書いて
ないから、そこまでのことはやってないだろ。

多項式近似なんてやらなくても、単に差分とればいいだけなのにな。

81 ：名無しのひみつ：2009/03/21(土) 09:48:34 ID:wsqYahXR

>>80
差分に必要な桁数がもとの精度の桁数より少なく取れないと、
圧縮にならないのでは？だから、そこそこ近似できるベースが必要と

理想的な近似関数をベースにできれば差分は正規分布的な乱数になるはず
理想的なベースなんて背景状況が完璧に分かってないと出てこないだろうけど

82 ：名無しのひみつ：2009/03/21(土) 09:55:16 ID:sdsNDEWr

>>81
>差分に必要な桁数がもとの精度の桁数より少なく取れないと、

>>1
>数値列を近似する滑らかな曲線は多項式に近い関数になる。近似表現でデータ量を大幅に圧縮し、

なので、大幅に少なくとれる。

差分がガタガタになるようじゃ「近似表現でデータ量を大幅に圧縮」できないからな。

>>1は、ど素人以下の思いつきだよ。

83 ：名無しのひみつ：2009/03/21(土) 13:38:19 ID:EOMef9eB

>>52
もしかして重量が一緒ではｗ

84 ：名無しのひみつ：2009/03/21(土) 16:50:14 ID:wsqYahXR

>>82
？

85 ：名無しのひみつ：2009/03/21(土) 18:03:23 ID:s6O2AzV8

これって文章にも応用できるんじゃね？

たとえば時代物小説ならベースの近似関数として「水戸黄門」とか「大岡越前」とか「鬼兵犯科帳」
あとはベースとの差分を列記
これでおｋ

ライトノベルにおける圧縮率はかなりのものと予想されるがどうだろう？

86 ：名無しのひみつ：2009/03/21(土) 18:38:21 ID:9QEgGxIF

>>85
辞書だのPPMだの既に色々とあってだな・・・

87 ：名無しのひみつ：2009/03/21(土) 18:47:46 ID:x5adbTog

数値列のみ…。
01の2進数にすれば、何でもいけるってこと？

88 ：名無しのひみつ：2009/03/21(土) 22:09:02 ID:8jzfj5mq

>>4
ワロタｗ
全くだな

89 ：名無しのひみつ：2009/03/21(土) 22:20:14 ID:0CbmYRJd

マスコミってのは根っからの文系だからねぇ。
こないだは「高度100km、もう無重力空間です」とか言ってたし。

90 ：名無しのひみつ：2009/03/23(月) 01:07:25 ID:2r/NqNHG

>>87

＞　圧縮できる対象は時系列の信号など一定の規則がある数値列データ。

場合によるんじゃない？

91 ：名無しのひみつ：2009/03/23(月) 08:35:55 ID:fF2ZV6EA

記事が不正確で
よくわからない

92 ：名無しのひみつ：2009/03/23(月) 09:22:52 ID:z/4NkY/H

恐ろしい推定になるが、処理したデータは236字の数値列１つだけなんじゃ
沢山あれば平均やら分散やらで評価するはずだからね
そもそも236MBでも伝送や記録に何の支障もない技術水準の時代にこの程度のアイデアの圧縮の必要性があるかどうか疑問

93 ：名無しのひみつ：2009/03/23(月) 11:50:17 ID:bul5fRa2

>>92
探査衛星とのデータ送受信とかなら需要あると思うが？

94 ：名無しのひみつ：2009/03/23(月) 13:29:13 ID:z/4NkY/H

>>93
衛星との通信のような場合には圧縮技法の需要があるかもしれないが、
圧縮よりも雑音に対する頑強さを高めるコード化のほうが重要だと思う
元データとしては物理量の時間変化を扱っているようだから、
スキャニングして観測したような形式上時間変化になっているデータに対しても有効かどうか分からない
圧縮可能性の根拠となるデータの冗長性に対する考察を欠いていては検討に値しない

95 ：名無しのひみつ：2009/03/23(月) 13:41:46 ID:ZC2Z8al4

>>85 あだち充は圧縮率高そうだな。

96 ：名無しのひみつ：2009/03/23(月) 18:55:59 ID:1PXvPlCO

瀬尾公治とかもな

97 ：名無しのひみつ：2009/03/23(月) 20:52:47 ID:YymbE3xW

>>93
衛星との通信なんてシビアな分野で、素人の思いつきレベルの圧縮方法に、需要なんか
あるわけないだろ。

>>1
>実験では、２３６字の数値列データを約６分の１の４０字に圧縮できた。

数値列のはずなのに単位が「字」って、、、、、、、

98 ：名無しのひみつ：2009/03/23(月) 20:55:07 ID:oqElxiLE

>>97
ワードって普通に使う単位だと思うが。

99 ：名無しのひみつ：2009/03/23(月) 21:05:26 ID:YymbE3xW

>>98
「ワード」を「字」と訳すことはないのに、なんで「字」の話で、「ワード」なんて言葉が？

しかも、ワードは、16ビットだったり、32ビットだったり64ビットだったりするし。

東京理科大学の明石重男教授、必死だな。ってか、死ね。

100 ：名無しのひみつ：2009/03/23(月) 21:10:25 ID:oqElxiLE

>>99
＞「ワード」を「字」と訳すことはない
まずこれを証明してごらん。

101 ：名無しのひみつ：2009/03/23(月) 21:23:29 ID:YymbE3xW

>>100
>まずこれを証明してごらん。

証明もなにも、どんな辞書引いたって、「ワード」＝「語」だが？

それよりまず、東京理科大学の明石重男教授は、なんで唐突に「ワード」とか言い出した
んだ？

102 ：名無しのひみつ：2009/03/23(月) 21:29:08 ID:BEZJ2eW8

>>1-101
日本語でおｋ

103 ：名無しのひみつ：2009/03/23(月) 21:29:36 ID:ML+Zawct

>>46
いや、この場合逆に小さなデータで、これだけ圧縮効率が高いってほうが重要だろ。

アルゴリズムに、あるていど規則的なデータを効率よく圧縮する。という特徴から、
似たデータが長ーく続いているほど、どんどん圧縮効率が高くなる。
これだけ短いデータでも３０％に圧縮できるという事は、かなり有効な方法だよ。

あと「字」と言っているのは、たぶんwordの事だろうな。概ね、１字＝１数値とみていい。
わかんなかったら、１サンプリング。

104 ：名無しのひみつ：2009/03/23(月) 22:11:23 ID:/R/bs0nK

>>103
これだけ短いデータなら、生で送った方が速いです。

105 ：名無しのひみつ：2009/03/24(火) 08:17:27 ID:OidYEK6b

>>97
頭大丈夫か？
素人の思いつきだろうが何だろうが完全に復元できるならデータ量は少ない方がいいに決まってるだろうが

106 ：名無しのひみつ：2009/03/24(火) 21:50:33 ID:HphakRU3

>>105
プロが圧縮したら、素人の思いつきよりはるかにデータ量は小さくなるのだが？

連続性のあるデータで、

>実験では、２３６字の数値列データを約６分の１の４０字に圧縮できた。

って、結果は悪すぎ。

お前、頭、駄目だろ。www

107 ：名無しのひみつ：2009/03/24(火) 21:57:37 ID:VwvW5fTM

>>99
何を言ってるんだお前は

108 ：名無しのひみつ：2009/03/24(火) 21:58:39 ID:yXMo98EY

次の数値との差が無いか少ない条件で圧縮率の高くなる特化品なんだろ
汎用のzipと技術的優劣があるわけじゃないと思う

109 ：名無しのひみつ：2009/03/24(火) 22:02:06 ID:HphakRU3

>>108
>次の数値との差が無いか少ない条件で圧縮率の高くなる特化品なんだろ

それだけじゃなく、数個の数値の並びがほぼ滑らかって仮定がある。

その手の特化品なら、ちゃんと作れば、もっと遥かに性能高くなる。

110 ：名無しのひみつ：2009/03/24(火) 22:02:08 ID:1TyUg0Fi

おれのエロ動画はもっと圧縮できませんか

111 ：名無しのひみつ：2009/03/25(水) 02:41:51 ID:sbS4ICne

>>106
お前はまず日本語の読解力研こうな
全てはそれからだ

112 ：名無しのひみつ：2009/03/25(水) 02:49:14 ID:ZvwQVuvK

>85
少女漫画に適応された日には．．．

113 ：名無しのひみつ：2009/03/25(水) 03:14:52 ID:4neSKu29

30%の圧縮率って全然圧縮率高くねぇじゃん。
>「ＺＩＰ」圧縮
ＺＩＰて圧縮率の成績が悪いソフトだってことすらしらないようだな。

114 ：名無しのひみつ：2009/03/25(水) 03:40:32 ID:IQnP6ewr

この技術が使えるかどうかは適用対象によるだろうな
なぜか、適用対象を考えずに「良い」「駄目」って書いてあるレスが散見されるが…

115 ：名無しのひみつ：2009/03/25(水) 11:55:41 ID:PemXn4MU

博士課程の学生を素人扱いか・・・

116 ：名無しのひみつ：2009/03/25(水) 13:16:18 ID:TmJ6/tEX

数値の羅列をあらかじめ定義しとけば

たった一文字で圧縮できるではないか

117 ：名無しのひみつ：2009/03/25(水) 13:41:56 ID:z7VnhWPK

値が連続曲線に従って変化すると仮定しての圧縮か
既存研究でなんかありそうだけど
そこら辺はアルゴリズムなんかで差をつけてるんだろうな

118 ：名無しのひみつ：2009/03/25(水) 13:50:36 ID:hHSS7SUK

＞数値列を近似する滑らかな曲線は多項式に近い関数になる。近似表現でデータ量を大幅に圧縮し、
＞最後に多項式とのズレを調整する手法を開発した。

これって、要は可逆SBRだよね？ HE-AACに採用されるヤツ。
対象データを簡略化して、細かい差分データをあとから追加するって、ADPCMとかにも近い感じがするな。

>>106
実際にはエラー訂正コードが乗るんだから問題ないかと思うが。
あと、通信で欠損しやすいかどうかはデータそのものじゃなくて、エラー訂正方法、通信速度、欠損率とか複合的な要因によるから、素人が作ったかどうかで性能は決まらない。
実際のあらゆるデータに対して性能が良ければそれでOK。

>>113
ZIPの圧縮率は確かに悪いけど、完全にランダムでも6割の圧縮率。
RARやGCAでも5割しか行かないものを可逆で2割程度まで落としてるんだからすごい。

>>116
その1文字は何バイトなのかｗ

119 ：名無しのひみつ：2009/03/25(水) 14:19:51 ID:fZoxwDNb

>>115
素人未満だな。

教授からして素人未満じゃないと、こんな恥ずかしい結果で記者発表なんかできん。

120 ：名無しのひみつ：2009/03/25(水) 14:22:15 ID:fZoxwDNb

>>118
>実際のあらゆるデータに対して性能が良ければそれでOK。

>ZIPの圧縮率は確かに悪いけど、完全にランダムでも6割の圧縮率。

ここにも、素人未満のやつが。

偶然かな。www

121 ：名無しのひみつ：2009/03/25(水) 14:24:41 ID:Zdo5p68D

完全なランダムデータを６割に圧縮できるらしいzipには敬意を払うべき

122 ：名無しのひみつ：2009/03/25(水) 14:28:44 ID:gq4nj6PW

>>118
クマー

123 ：名無しのひみつ：2009/03/25(水) 15:06:57 ID:Zdo35fA5

旧石器遺跡発掘の神の手も記者会見だけやって発掘の報告書は出していなかった
理科大のニュースを見ると詳しくは日刊工業新聞の記事参照となっているだけだ
いかがわしすぎる

124 ：名無しのひみつ：2009/03/25(水) 16:35:11 ID:hHSS7SUK

>>120
>>122
正確には「完全なランダムに近い」かな。
冗長性が全くない最低限しか無い場合はほとんど圧縮できないから、
冗長したデータ(法則性を持つデータ)と冗長してない(法則性を持たないデータ)が
適度に散在している状態で6割の圧縮率だと思ってくれ。

125 ：名無しのひみつ：2009/03/25(水) 17:00:17 ID:w9KTE5MX

>冗長性が全くない最低限しか無い場合はほとんど圧縮できない

>冗長性が全くない最低限しか無い場合はほとんど圧縮できない

>冗長性が全くない最低限しか無い場合はほとんど圧縮できない

126 ：名無しのひみつ：2009/03/25(水) 18:47:41 ID:vxaKRZaF

>>118
完全にランダムで6割の圧縮率なら
ZIPで圧縮→そのデータをZIPで圧縮→またそのデータをZIPで圧縮→・・・
革命だな。

127 ：名無しのひみつ：2009/03/26(木) 15:13:18 ID:4irFQQsZ

この程度で記事になるのか、大学はおき楽でいいな

128 ：名無しのひみつ：2009/03/26(木) 23:36:51 ID:qgPphHrv

圧縮関連は特許とかで金とれそうだけどな

129 ：名無しのひみつ：2009/03/31(火) 15:52:32 ID:1XZowTfp

アルゴリズムを作ったのかソフト（ツール）を作ったのかどっちだ

アルゴリズム自体なら
音声の可逆圧縮とかで使われてるようなのが普通に使えると思うが