ネトラジとかで声優のしゃべた音声がたくさん出回ってきたから、
それを使って音声合成するプログラムを作りたいと思うんだけど、
そんなスレ
じゃあ、一緒に作るれ
しゃべた
ネトラジリソース多いのんって誰かな
BGMとかあんまなくって、高音質なの
よし、みんなで作れろ
中原小麦が多いるれ
音声合成は難しいぜ
しかもそんだけの素材じゃかなり苦労する
と元国立理系大学院音声関係研究者の俺が言っておく。
音声を発するシミュレーションを
まじめにやったらどうなるんだろう。
骨格、肉、声帯、云々。
9 :
7:2007/06/14(木) 14:57:22
シミュレーションやるより、模型?を作った方が楽なんだなー
でも、模型はメンテナンスが
12 :
7:2007/06/14(木) 20:44:39
いや、俺の元専門は音声認識だから・・・
そんな俺でも「声優の声」を目指す
>>1は厳しい、ということくらいはわかる。
ニュースとかで見聞きする合成音声ってみな糞でしょ?
何年も進化していないのよ。
音素切り貼り(新聞の切り抜き文字で文章作る感じ)、なら多少はいける・・・かもしれないけどね。
|
\ __ /
_ (m) _ピコーン
|ミ|
/ `´ \
('A`) そうだ! 自分で喋ればいいんだ!
ノヽノヽ
くく
>>1が作るって言うんだから、余計な口出しはせず、
まずはお手並みを拝見する所だろう。
15 :
1:2007/06/15(金) 01:58:54
まずは音声データベース作んないと
なんで、ネトラジ落としてWAVにして文章ごとに分割してみた
こんどは、音素ごとに区切る作業はじめる
専用のツールつくんないとだめかな
16 :
7:2007/06/15(金) 02:42:52
ツールならHTKにいいのがあるんじゃね?
音声認識機に通して音素ごとに切り分ける、ってのが大量データ作成には楽かな?
しかし懐かしすぎ・・・
17 :
1:2007/06/15(金) 02:48:21
垚
1さんに期待
しかし, カクカクとした音声が限界じゃないかね
声優のような音にするにはパラ情報なんかの
感情を表現する部分をどの程度対応できるかに
よると思われ
とか, ネットワーク屋さんのもれが曰ってみる
20 :
1:2007/06/17(日) 14:53:48
HTK登録したのにパスワード送てこねー
説明書くらい登録なしで読ませてもいいのにさ
待てる間に音声db作成支援ツールでも作りる
ところで音声認識の分割精度てどれくらい出んの?
0から書き起こしさせるのは全然使えねーレベルなんは分かるけど、
書き起こしテキストあれば音素位置そろえるくらいは精度いいんかな
22 :
1:2007/06/20(水) 03:00:36
86時間て正味?ネトラジから集めよう思たら数年分必要だなー
ところでこれNHKの森田アナだよね
ところどころイントネーション変な繋がりあるから
数文節単位くらいで切り貼りしてるん?
理系大学院って工学部と理学部でだいぶ違うよな
25 :
1:2007/07/10(火) 23:29:09
>>23 さんくすです
SoftalkはAeuqst社のAquesTalkを音声合成エンジンとして使っている、
web2speechは大学が作ったGalateaTalkをエンジンとして使っている、
EasySpeechはSAPI使ってエンジンを読んでるだけみたいでしね
自分で音声合成エンジン作ってる人はまだないのかな
age
age
28 :
デフォルトの名無しさん:2007/07/13(金) 14:29:44
age
29 :
デフォルトの名無しさん:2007/07/13(金) 14:40:43
同じ金額で声優雇った方が早くね?
31 :
1:2007/07/14(土) 00:03:56
>>30 別にセリフ読んでもらいたいわけじゃないし
合成音声で2ちゃんログとかメールとか
読んでもらったら面白くなくね?
音(声)の切り張りと云うと、コナミがときメモ3でやってなかったっけ?
未プレイ(体験版触っただけ)だから、詳しくは解らんけど。
イントネーションを網羅した辞書みたいなファイルを作って
文章をAquesTalk用の音声記号列に自動変換するようにすれば、
どんな文章もきれいに読み上げることができそう。
34 :
1:2007/07/30(月) 00:14:46
35 :
1:2007/07/30(月) 00:22:44
"音声合成 ゲーム"で検索すると
PS2 モジブリボンにNTT
PS2 ダビつく3に東芝
DS お料理ナビは?
DS 日本史・世界史に日立
なんてのが見つかったよ
どうなん?
36 :
1:2007/07/30(月) 00:26:22
>>33 イントネーションって網羅できるもんなの?
AquesTalkってあんまりきれいな声とは思えない
以前でてた音声コーパスっていうのがそういうものじゃないのか?
同じ単語でもどう使われるかでイントネーションって変わるからな。
彼氏↑、彼氏↓
41 :
デフォルトの名無しさん:2007/08/06(月) 16:39:36
箸 端 橋 嘴 波子 梯
頑張って聞き分けてください。
42 :
デフォルトの名無しさん:2007/08/06(月) 17:10:09
無理ッス絶対無理ッス自分無理ッス
>>41 それは「同じ単語」でイントネーションが「変わる」例になってないだろ。
どうして
>>1は舌っ足らずなんだろう。
ていうか
>>6のせいで、
このスレの全てのレスが桃井声で脳内再生されるんだがw
早く作りろ
「あ」の波形と「い」の波形を足して2で割ったら、「あ」と「い」の中間の声ができるってわけか!
ようするに、声帯をプログラムでシミュレートすればいいんだろ
簡単ジャン
じゃ期限は明日の0時だ。よろしく。
オーケーベイビー
首洗って待ってな。
まだぁー?
もう全身洗って待ってるんだけど。
声帯って振動するだけ?声によって(高さじゃなく「あ」とか「い」)振動の仕方が異なることはないよね?
音が高くなると振動数が増えるだけだよね?
声帯が発した振動を口の形と舌でコントロールすると「あ」とか「い」になるという解釈でいいの?
舌のシミュレーションが大変そう(><;)
音声学の勉強からやらなきゃダメだね。
昔勉強したけど、もう忘れたからお役に立てないよ、ごめん。
必要な音素が全て含まれた文章を作って読んで、それから音素を抽出するようにすれば、そのうち望んだような声質の人が音を提供してくれることもあるんじゃないかと思るれ
55 :
1:2007/08/10(金) 16:14:15
>>54 誰の声でもいいんだったら、それでもいんだけど、
やっぱ声優の誰々の声でってのが大事だから、
今はネトラジの音声からちまちま集めてるよ
どっちかっつーと話者変換のほうに興味があるんだが
その声優の音声ファイルはSNいいのか?
58 :
1:2007/08/16(木) 23:48:39
>>56 話者変換って何に使うん?
自分のしゃべった声を誰かの声に似せるとかな?
59 :
1:2007/08/17(金) 00:13:19
>>57 SNは分かんねが、音は良さげ(64kbpsの44kHz)
一人しゃべりでBGMなしなんじょ
BGMなしか。それはいいな。
とりあえずHTKでその声優の音響モデルつくるところからだべ。
俺は女性のツテなしで自分ひとりでもマルチヒロイン声つき同人エロゲーを作れる環境が欲しい
エロゲの音声使えば?
抜き出し出来れば、台詞も大量にあるし、テキストもあるので分割解析もしやすいしょ
北都さんの声でお願いします
ときめも2以降で採用された音声のプログラムってどんなアルゴリズムなのか分かる人教えて
――
学校
 ̄ ̄ ̄\
専門学校
>>67 ありがと。調べてみる。
ついでに初学者の入門書みたいなのがあったら教えてくれると嬉しい
Alice Project
2007/12/19(Wed.) ◆ Julius-4.0 リリース
72 :
デフォルトの名無しさん:2007/12/29(土) 18:28:29
音声合成というより、台詞合成だな
この板の住人じゃないんだけどAquesTalkでwav保存できるソフト
あるのかな?
DTM板住人なんだけど、需要ありそうだったから。
俺自身もあったら使いたい。
オーディオアウトとインをつなげばできるけど、
そんなの嫌だしw
77 :
デフォルトの名無しさん:2008/01/11(金) 06:44:14
全二十じゃないの?
全二十が全二重と気づくまでに数時間を要してしまった・・・orz
要するにサウンドキャプチャソフト使えば?ということかな?
まぁ実際に配線するより数倍マシだから、それで納得するしかないか。
普通に、ライン出力を録画するんではダメなのか?
80 :
デフォルトの名無しさん:2008/01/18(金) 02:45:43
>>78 スマンスマンw
二十って書いたの俺かもw
>>76 API見たら、普通にAquesTalk_Synthe()を呼べば保存できそうだけど、
そういうことじゃないのか?
ほとんどの人がライセンスがないから試せないと思われ。
>>76 俺はここ数か月DTM板に出入りするようになった者だけど
オーディオインとアウトをつなぐって言っても
ハード的に結線するんじゃなくて
DAWのRECボタン押下→AquesTalk再生みたいな感じで
とりあえず録音はうまくいくけど
音質まではわからない
83 :
デフォルトの名無しさん:2008/01/26(土) 02:53:10
全二重に温室関係案のカナ?
84 :
デフォルトの名無しさん:2008/02/07(木) 12:56:18
いまどこまで進んでいるんだ?
85 :
デフォルトの名無しさん:2008/03/24(月) 13:24:15
age
86 :
デフォルトの名無しさん:2008/04/06(日) 12:19:17
87 :
デフォルトの名無しさん:2008/04/07(月) 01:29:34
age
「あ」の波形と「う」の波形を足して2で割ったら「い」の波形ができるのを発見して特許取った
特許番号は?
どのくらい 「い」 と区別が付かないんだ?
不自然感0?
じゃあ俺は「い」の波形を倍にして「あ」の波形を引いたら
「う」の波形が出来るという特許を取ろうかしらん
93 :
デフォルトの名無しさん:2008/04/29(火) 23:32:40
juliusで音素列を指定して、
強制アライメント取れますか?
>>94 つ 単語・音素セグメンテーションキット&Julian
96 :
94:2008/05/07(水) 03:45:12
>>95 ありがと
juliusでディクテーションさせて、julianで強制アライメントできるようになりました。
ところで、ピッチを求めるいいアルゴリズムはありませんか?
C++MIDIプログラミングっていう廃刊を店に売ろうか悩んでるんだけどいくらになるんだろう
ヤフオクの方が売れるんじゃね?
99 :
94:2008/05/19(月) 00:47:59
とりあえず、声優のラジオ番組の音声分割して、接続合成できるプログラム作ってみました
juliusの認識精度ではダメですね、手修正必須ですが
そうか
音声素材なんてわざわざ録音しないでも
ネットラジオにいくらでも転がってるんだな
面白い発想するな
これは意外な盲点。
個人(?)で使う分には十分だね。
周波数と最初に名づけたやつは死んでいいと思うな
104 :
94:2008/05/24(土) 11:02:31
>>102 音ってどこにアップできます?
それと何話させましょ?
声優はSMです
105 :
102:2008/05/24(土) 13:14:10
107 :
94:2008/05/25(日) 10:00:48
108 :
102:2008/05/25(日) 11:08:17
>>107 サンプル拝聴しました。
音素や単音単位ではなく、単語単位の連結なんですね。
語のつながりがぶつ切りで、聞き取るにはちょっと辛いかなと思います。
音素単位なら、聞き取りやすくなるかもしれませんが、
抑揚やアクセントを指定できるようにしないといけないので、難しいですが。
109 :
94:2008/05/25(日) 22:57:56
>>108 アドバイスありがとうございます。
使えるだけ使うので、単語より長い部分も1音素だけの部分もあります。
今はピッチ情報がないので抑揚をそろえられないです。だから最長一致。
これからはピッチをそろえられるようにしてみます。
>>109 94さん
>>110の追加なんですがオープンソース化のメリットは・・・
開発が止まっても後を継げる。
・例えば作者が飽きたとか、あるいは交通事故にあったとかで開発が止まったとする。
そんな場合、誰かが開発を引き継いでくれる可能性がある。
誰かが他のOSに移植してくれる。
・誰かがMacOS版を作りたいと思ったときに、ソースコードを見ずに移植した場合、どうして
も互換性に問題が出る。
しかし、ソースが公開されていれば、少ない手間でほぼ完全な移植ができる。
環境に依存した部分は書き直したり、移植が難しい部分については機能を削ったりする
必要があるけど、それでも一から書くよりはずっと楽。
ちなみに、現在Windows以外の環境でサポート外の動いている場合、
それは誰かが更新履歴の仕様を見て、オリジナルのコードを使わずに
クラックして移植したものだ。ありがたいことだけど、
もしソースが公開されていたらこの作業は不要だったはずで、その人はもっと別の作業ができた。
バグを修正できる
・誰かがバグを見つけ、それを報告したとする。
それをみた第三者かが、ソースコードの中から原因を見つけて、
作者に「ここを直せばいいぞ」と教えてくれる可能性がある。
ひょっとしたら修正したソースコードをupしてくれるかもしれない。
112 :
111:2008/07/13(日) 13:52:00
>>111 続き
自分で改良して、それを作者に提案できる。
・第三者ソフトウェアを見て「ここを改良したらもっと良くなるんじゃないのか?」
もしくは「こんな機能を追加したらもっとよくなるんじゃないの?と誰かが思ったとする。
その場合、公開されているコードを改良・追加し、作者に改良案や機能追加案を提案する
ことができる。
作者がその人の方がより開発に向いていると判断した人は、作者の許可を得て改良版を
公開することができる。
第三者が改良案や機能追加案を提案して作者がそれを見て、影響を受けて、第三者の
改良版を使用しながら作者は更なる改良を加えることができる。
ソースが公開されていなかったら、作者に具体的に改良案や機能追加案を
提案することが難しい。
HDDが飛んでも即死しない
・「作者のHDDが飛んだので開発中止」っていうソフトたまにあるよね……あれはむなしい。
ソースがサーバ上にアップしていれば、作者のHDDが飛んでも、開発を続行することが
できる。
とこんな感じなメリットがあります。
長文になってすいません。 ぜひご検討のほうよろしくお願いします。
でたーオプソ厨
反論するのも馬鹿馬鹿しいが。
>・「作者のHDDが飛んだので開発中止」っていうソフトたまにあるよね……あれはむなしい。
これを字義通りに受け取る(或いはそのように敢えて振舞う)人がいることに驚いた。
俺が学生時代にちまちま作ってたしょぼいソフトは
まさしくその運命をたどったよ
そういや昔のプログラムはフロッピーに入れてたのでもう見れなくなったなw
実はハードごとまだ生きてる
子供の頃しこしこ打ち込んでた雑誌掲載のBASICゲームは起動メニューを作っておいたので
ファイル名すら覚えてなくても今でも遊べる
子供時代の自分の聡明さにしばし感動
今はもう駄目かもわからんね
そこで FILES
>>109 おーい。94氏 オープンソース化しないのかい?
返事をくれ。
自分の要求のために他者に負担をかけることを当然のように考えてるからオプソ「厨」って付くんだな。
某コナンの蝶ネクタイ型変声機みたいな物は作れないかなぁ
他人の声からパラメータだけ抽出して、云々
既にあるんですね...
オプソ厨って、自作自演だよw
シェア作家のなw
125 :
デフォルトの名無しさん:2008/07/20(日) 10:50:58
126 :
94:2008/07/20(日) 12:22:06
久々に見に来たらレス増えてた。。。
オープンソースにするのはいいんですけど、プログラムだけだと何もできませんよ?
素材の音声データが無いと。それもかなりの量で。。
127 :
デフォルトの名無しさん:2008/07/20(日) 14:54:58
プログラムの権利より音声データの権利のほうが問題になりがち
>>122 1.マイクの声から声帯の影響を取り除く
2.フォルマントを他人の位置に移動する
でできるかも
129 :
デフォルトの名無しさん:2008/07/20(日) 23:56:23
>>126 >オープンソースにするのはいいんですけど、プログラムだけだと何もできませんよ?
それでもいいと思う。
自分の声のデータを入れて合成することもできるし。
オープンソースなら合成エンジンをもっと高性能化することもできるし。
使う側が改造できるだけでなく、作った側にも自分の技術を高める、新しい着想を得る
といった双方にメリットがあるかもしれませんし。
130 :
デフォルトの名無しさん:2008/07/21(月) 01:03:03
>>129 オープンソースって勝手に改変してくれる分にはいいけどパッチとか
送ってこられるとうざくない?
正直ソースが穢れるけど、拒否するとアンチ化しそうだし。
そりゃ、コミュニケーション力がないだけだな。
適当にあしらえばいいし、ソースは参考になるなら自分で書き直して入れましたでいい。
オープンソースと、みんなで開発はまた別だよ。
すべての会話音声を録音して流せば解決
133 :
デフォルトの名無しさん:2008/07/21(月) 11:45:45
>>109 >>94氏
このプログラムは「Alice Project」と同じようなことができるのかい?
又某コナンの蝶ネクタイ型変声機みたいな機能を追加する予定とかはあるのかい?
134 :
デフォルトの名無しさん:2008/07/21(月) 20:30:25
>>131 参考になるものは送ってこないから。
これだけは断言できる。
勘弁してーってお願いしたくなるようなうんこ送りつけて奇妙な主張を
しつこくしてくるのが関の山。
いやほんとしつこくされるよ。
住所なんか当たり前のように調べてくるしね。
それなりの覚悟がないとオープンソースは無理だよ。
どうでもいいがペンタックスの合成ライブラリはかなり巧い
136 :
デフォルトの名無しさん:2008/07/21(月) 22:28:41
>>134 そんなわけねえだろうよw
確かに参考になるものは送られてこないのは確かだけど、しつこくは
されないだろう。
しかもメールアドレスを公開しないでオープンソース化すればいいだけの話。
オープンソース化ってもごく一部のソフト以外はパッチが送られてくるどころか読まれることすらほとんどなさそーな悪寒。
てか、ソース見せ合うだけなら
どっかに無料のうpロダ用意してそこに勝手にソースをうpしたり、落としたりすれば良いんでは?
反オプソ厨は、言い訳が稚拙なのがなw
普通に、手柄を独り占めしたい、ソースを見せたくない、でいいんだよw
140 :
デフォルトの名無しさん:2008/07/22(火) 00:48:55
>>136 じゃぁそうしてみろよ。
どっかのロダに匿名で上げて見れ。
おれの創作物を勝手にオープンソースにしやがったってやつが3人は
出てくるから。
そうすればオープンソース厨の怖さが少しは理解できるだろ。
奴らは(無料も含めた)金のためなら何でもするからな。
>>139 バカなオプソ厨を装った釣りとかネタか?
作った人間が手柄を独り占めできるのは当然の権利で言い訳とかいらんだろ?
むしろオプソ厨のほうが「あなたの手柄をタダ取りしたいんでソース見せてください」ってのを
いかにオブラートにくるんでうまく言えるか工夫しなきゃいけない立場なのに。
>>141 だったら言い訳しなくていいよw 言い訳するってのは、何らかの心の働きだから。
いちいち、オプソ厨がウザイとか、ソースが汚いから見せるのが嫌だとか、しょうもない言い訳はいらんから。
まぁ、他の人のソースパクってて本当に見せられない奴も中にはいるだろうけどw
>>142 え?マジなの?本当はオプソ厨のふりしたネガキャンだよな?
>>140 だったらGPLもしくはGNU等のライセンスで公開すれば?
ちなみに、俺もオープンソースで公開したんたが、そんなことはなかったと思うな。
誰か再うpしてくれないか
間違えて削除してしまった
146 :
デフォルトの名無しさん:2008/07/23(水) 00:23:13
>>144 匿名でGPL等でうぷした場合の話だろ。
おまえは都合の悪い話は一切読めないのか?
クレクレ言ってる時点でオプソ厨のニオイがプンプンしてるんだよ。
匿名じゃない場合は過去ログ参照。
こういう流れを作ってグダグダにするのがオプソ厨の狙いなんだから相手するなよw
嫌なら嫌だって言えば良いだけだしな。
つーか、厨はクローズドの方がよってくると思うがw
あれしてくれ、これしてくれってw
オープンソース・フリーソフトなら、自分でやれ!で終わるw
もし公開するならある程度完成度をあげてからの方がいいよ。オリジナルは俺だと主張できるくらいにね。
中途半端なソースを公開する必要なんて無い。
実際の声からサンプリングするんじゃなくて、人間の声帯を物理モデリングして作れよ。
式うpしてくれ
まずは模型を作るところから始めるんだ
>>146 >勘弁してーってお願いしたくなるようなうんこ送りつけて奇妙な主張を
>しつこくしてくるのが関の山。
>いやほんとしつこくされるよ。
>住所なんか当たり前のように調べてくるしね。
匿名なのにどうやって送りつけるんだい?
話が矛盾してるぞ。
154 :
おい:2008/07/25(金) 17:56:19
Shut the fuck up and write some code.
155 :
デフォルトの名無しさん:2008/07/25(金) 21:14:17
>>153 ほんとに頭の悪い子だな。
頭の悪さは公表しなくていいからそっと隠しておけよ。
100回読みなおせばお前でも理解できるかも知れんから読みなおせ。
とりあえず Win + U×2 しとけ
声を失った人が、自分の声から音声を合成することは出来ないと思うのだが
159 :
158:2008/07/26(土) 00:50:41
って書いてから記事を読んで理解した。すまそ。
160 :
デフォルトの名無しさん:2008/07/27(日) 00:18:05
まだ作ってないのかおまえら
162 :
デフォルトの名無しさん:2008/07/27(日) 09:42:30
>>160 だからお前がやればいいだろ。
オプソ厨の最大の欠点は、人が作ったものはクレクレ言って、オプソにしなければ
ならないと一生懸命言うけど、自分では何も作らないことだな。
社会正義のためとか言うけど、そんなものに興味があるなら自分でやれ。
おれは全然興味ない。
163 :
デフォルトの名無しさん:2008/07/27(日) 11:30:58
ところでバーローの蝶ネクタイ型変声機みたいな物はできるのかね?
ぼかりすは似たようなもんだと思う。
韻律も含めて他人の声に変換してもらいたいなー
しかし、オープンソースにするとパッチとかがウザイとか言うけど、
どう考えてもクローズドの方が、オープンにしろって要望も含めて、あれやってくれこれやってくれって五月蝿いと思うがw
まぁ、かまってちゃんならそっちの方がいいんだろうけどw
167 :
デフォルトの名無しさん:2008/07/27(日) 19:03:07
某コナンの蝶ネクタイ型変声機みたいな物はどうやって作るんだい?
そのアルゴリズム等を提案してみてください。
変声機はどっちかというと、元の音声をいかに消すかが肝だと思うw
音声認識して音声合成しなおせばいいんじゃね?
ところで音声合成ってどうやって作るんだい?
アルゴリズムを提案してくれ。
基本は、サンプリングのツギハギ。
声帯を物理シミュレーションしてるのは、あるのかな?
173 :
デフォルトの名無しさん:2008/08/01(金) 00:14:21
94氏
この掲示板みてたら、現状を報告してくれ。
変声機つくっても犯罪用途しか思いつかないなぁw
マイナー分野である音声合成技術が、オレオレ詐欺に使われることで一躍世間の注目を浴びる、と。
それ既にあるぞ
178 :
デフォルトの名無しさん:2008/08/06(水) 22:21:13
ところで誰か音声合成プログラムを作っている人いるかね?
ボイーン
よく見つけたな。ちょっと読んでみるか
182 :
デフォルトの名無しさん:2008/09/15(月) 06:39:06
フォントの著作権の問題に似てるな
そろそろ何か作りれたか?
日本語でおk
>>94氏へ
この掲示板みてたら、なんでもいいから報告をしてくれ。
187 :
デフォルトの名無しさん:2008/12/24(水) 02:45:19
188 :
デフォルトの名無しさん:2009/01/03(土) 11:49:06
age
保守
>>182 しかし読み上げた結果の音声を自由に使えなきゃ意味ないよな。
そういえば、ちょっと前にアニメのキャラクターで音声合成するのがあったけど、あのベースになっているアルゴリズムはなんなんだろ。
藤崎モデルだっけ、あれとはちょっと違うでしょ?
波形接続だろ
でも、通常の波形接続リソースとは変えないとキャラっぽいしゃべりは無理だろ?
キャラ声でキャラせりふを録音しておくんだからOKだろ?
それじゃうまくいかないんじゃないか?
とはいえ、音声リソースに手作業で情報追加すれば何とかなるのかや。
量を確保できればなんとかなる。それが波形接続のメリット。
韻律モデルが重要になるが、機械学習のアルゴリズムも確立してきてるし、
そこそこのクオリティはすぐ出せるはず。
>>196 統計だから最適なデータを用意すればそこそこできるのはわかるけど、
ウェブサービスだったのは意外とすぐに出てきた感じがしたんだ。
大量に用意したら、波形を分割するて作業とか増えるじゃん。
韻律モデルは声優の真似ができるほどのものはまだないと思ってたけど。
overlap add
>>191 のアルゴリズムがoverlap additionだと言いたいんだろうな
簡単な波形接続プログラム作ってみた
Ne_46114
makaron
申し訳ない。上でそこ使ってたから、デフォかと思ったよ。
で、音が出ないってのだけど、dataフォルダの中にポッドキャストの
wavファイルは作ってあるんだよね?んー、なんでだろう。
もちろん
全てREADMEの通りに行った
原因が思いつかないなら結構場所食うし消すわ
>>202 すいません。それをもう一度うpしてくれませんか?
後このソフトはオープンソースですか?
おっと盗賊が現れた。
もうなくなっているようだな。
だれでもいいからうpしてくれ
そういえば、声を好きな人の声に変換するものがあったけど、あのアルゴリズムはどうなっているんだろう?
好きな人の声ってなんだよ?
俺で言えば佐伯香織ちゃんの声だよ
音声認識して音声再生してるだけじゃないの?
>>210 それって声質変換のことじゃないの?
声質変換って声の周波数で他人の声に変えることかな?
ふぉるまんと0の成分を上げ下げすればいいんじゃね?
216 :
デフォルトの名無しさん:2009/04/04(土) 20:24:59
>>215 それで本当に他人の声に変えることができるの?
だれか詳しい人教えて
>>216 おとこ、おんな、こども、
っぽく変換はできる。
でも、20年前の技術だぞ?
218 :
デフォルトの名無しさん:2009/04/11(土) 16:55:30
声質変換技術で他人の声の変換するにはどのようにすればいいのかな?
んなの英語の論文調べなよ。
声優いわく、BIGLOBEのコエラボは5日間の収録だそうだぞ
224 :
デフォルトの名無しさん:2009/06/30(火) 15:03:16
age
なぜ、VOICE TEXTがでてこない・・・
市販の音声合成ではあれの出来がかなりよい
Harukaってコメント程度ならいいけど、
聞き続けるとムカつきそうw
>>226 確かにw
最初は可愛いと思うがだんだんゆとりの女子高生に思えてきたw
声質を変換できる方法ってあるのかな?
うん
Q. 自動保守#K9K?_D[L とは一体何なのか?
A. 外部サイトへの突撃大好きな真性厨房
韓国突撃でお馴染みの自動保守
最近は自動焼人 ★として2ちゃんねるのボランティアにも精を出す日々
だがそんな彼にも、人間らしい部分はあったのだ…
名言集
『アパッチ砲はワシが作った』
『お前が規制系キャップ取れるか審査してやるよ』
『いつもサボってばかりのキャップがウゼえ』
『俺、100人規模の集団サイバーテロの主犯だったこともあるんだぜ』
『俺の経歴カックイイだろ?』
最近のニュース
8月15日の韓国突撃の際に歴史的大敗を喫する。ラジオでの敗戦宣言のときに声が震えていた
本人は体調不良と言っているが…
----------------------------------------------
この自動焼人 ★メールマガジンの配信停止をご希望される方は
http://qb5.2ch.net/test/read.cgi/sec2chd/1250169591/ にて自動焼人 ★までご連絡ください
声質を変換できる方法ってあるの?
うん
233 :
デフォルトの名無しさん:2009/10/03(土) 16:56:55
ほしゅ
つOpenJtalk
肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう?
誰か教えて
あったね
やっぱり音響モデルじゃないのかな
肖像画から頭蓋骨のCGを作成して声を再現する奴があったと思うんだがあれはどうやるんだろう?
誰か教えて
あったね
やっぱり音響モデルじゃないのかな
>>244 日本音響研究所に肖像画から頭蓋骨のCGを作成して声を再現するものがあったと思うがあれはどうやるの?
肖像画からCGを作成するのは六角大王の手法でできるんじゃね
涼宮ハルヒのエンドレス夏休みを見ている気分ですねわかります
マジレスすると、頭蓋のサイズから声道長を推定して、
フォルマント位置を決めるって感じか。
ま、肖像画とかから復元した声ってほとんど当てにならないけどな。
>>249 肖像画からどうやって頭蓋のサイズを出してるの?
俺の写真から声を復元したとして、
俺の声にどこまで近くなるんだろうか?
>>251 そもそも顔写真から頭蓋のサイズを割り出すにはどうやって割り出せばいいの?
その写真に写りこんでいる、寸法の判っているものを基準にすればいいんじゃね
ネッシーの捏造写真だってサイズ割り出されてたもんな
波紋の伝播周期からサイズが決定できるってことかな。
256 :
デフォルトの名無しさん:2010/04/15(木) 19:19:57
w
>>253 でも肖像画に寸法の判っているものがなかったらどうするの?
何でお前らそんなに世話焼きなの?
>>258 そんときは、目玉の大きさとか目の感覚とか、統計的手法に頼ればいいんじゃね
>>259 暇なんじゃね?
サイズはパラメータにしておいて、
平均値を使った場合と
その前後の値を使った場合と全部試してみて
この中のどれかですって言えばいいんじゃない
一卵性双生児の場合、声(歌声も)は全く同じではないだろ
だから頭部の数値だけでは不十分な気がする
>>265 でも↓を見ると
http://www.onkyo-lab.com/mv.html >そこで肖像画、写真、銅像等があれば、性別、身長、年齢、顔形を特定してその人の発声器官をコンピュータ上で電子回路に置き換え、
>シミュレーションして声を合成することが出来るのです。
って書かれているんだが・・・・
てかそもそも肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
声を合成できる事と
その声が実際の声と一致している事とは別だよ
>>267 うん。だけど肖像画からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの?
日本音響研究所に不可能はない
日本音響研究所のおっさんに直接聞けよ
>>271 直接聞いても企業秘密で答えてくれない
おまえらの力で考えるしかない
>>266 肖像画が残るような人物なら性別は記録からすぐ分かるだろ
低脳
顔の各部分の寸法に関しては、
肖像画とその人物の民族平均を比較するんだよ。
低脳
274 :
デフォルトの名無しさん:2010/04/27(火) 23:30:32
ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているの?
そして誰もいなくなった
ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
男の声をピッチ上げるだけだと、女っぽくならないのは何故だろう
ボカロで言うGENとかUTAUでいうgフラグを調整する必要がある
ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
ねえねえ証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
おーい証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出しているんだろう?
発声時における声帯から口までの空気の流れを粒子法でモデル化して
音声合成を作ってみたいと急に思い立ったんだが、右も左も分からない。
とりあえず、これは圧縮性流れと見なしてシミュレートすればいいのか
ところで証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
>>287 どうやってやるの?
具体的に教えてくれる?
てかそもそも証明写真などの顔写真からどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
>>291 とりあえず証明写真見て性別を5割以上の確率で当てられないバカはお前くらいじゃねーの
ところで証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
きっと後ろの壁に横線が並んでるんだよ。
うん。だけど証明写真などの顔写真から統計を使ってどうやって性別、身長、年齢、顔形、顔の各部分の寸法を割り出すの?
>>1を見て
鏡の国のレジェンドでのりぴーの声を1音ずつ喋らすことができるんだけど
それを録音してX68にADPCMで取り込んでおいて順次再生して「おまんこ」とか
「ちんちんいれて」とか喋らせて大喜びしてたのを思い出した
>リトルエンディアン にすると 00 80 FF FF 〜 00 00 00 00 〜 FF 7F 00 00 ですよね。
それ32bitじゃね?
>>297 16ビットは2バイトだと気がつけば格納順番も分かると思います。
波形データ符号付き整数 (-32768 - 32767) 16ビットの場合 8000 〜 0 〜 7FFF
リトルエンディアン にすると 00 80 〜 00 00 〜 FF 7F
data (波形データのバイト数) 波形データL 波形データR 波形データL 波形データR
整数16bit/リトルエンディアン
L0L1 / L1 L0
R0R1 / R1 R0
格納順番はこうなります。
data (波形データのバイト数) L1 L0 R1 R0 L1 L0 R1 R0 L1 L0 R1 R0
300 :
デフォルトの名無しさん:2010/12/07(火) 23:06:21
SAPIの話かと思ったらすれ違いみたい
301 :
297:2010/12/08(水) 08:25:46
ありがと やっと謎がとけたよ
音声組替えで音の基本配置がわかんなかったから音声合成のこのスレにきたんですが スレ違いごめんなさい
変調なんかもドコのスレだろ?
302 :
デフォルトの名無しさん:2010/12/09(木) 02:03:55
グーグル検索
↓
念のためうぷ(´・ω・`)まわいが重要
グーグル検索
↓
やらなくてもやられるし 日本語以外話せないし
テレビやネットで説明
303 :
デフォルトの名無しさん:2011/01/05(水) 18:49:53
>>1 何という手間のかかる事を...。
波型とかエンベロープとか、学ばなきゃいけない事が、
山ほどあるのに。
>>304 話者適応は英語で Speaker Adaptation です。
HMM音声合成ツールキット HTS 2.0以降に
その機能があるのでソースを読めばわかると思います。
HMM-based Speech Synthesis System (HTS) - History
http://hts.sp.nitech.ac.jp/?History#z5d7dda6 >December 29, 2006
> HTS version 2.0 was finally released :-)
> The new features are
> * Speaker adaptation, adaptive training, and semi-tied covariance transforms are supported for multi-stream HMMs/MSD-HMMs.
> * MLLRMEAN, MLLRCOV, and CMLLR-based adaptation.
> * CMLLR-based adaptive training.
> * Decision trees for context clustering can be used to define regression classes for adaptation.
> * HMGenS can read MLLRMEAN, MLLRCOV, CMLLR, and SEMIT transforms for adaptation.
>>305 サンクス。ドキュメント見ながら色々試してみようと思う
とりあえずHTSの話者適応デモ動かしてるけど、終わらないし、2〜3日かかるらしい
最終的にはwavファイルとその文章を与えたらその声で音声合成できるようにしたい
統計学と信号処理と音声言語処理と機械学習を
勉強すれば何とかなるかな。
>>308 できてない
とりあえず、デモのデータを使って音響モデルを作成するところまでできた
音響モデルができたらテキストからその声で音声の再生もできる
今は、自作のデータからモデル作る途中でエラーが出てるからそれの対処中
Rubyバカにしてる子ってさ
変数に$ついてる言語触ってるって事だよね
いちいちSHIFT+4キーおして $ 打ちまくってる感触はどう?
でもお前はゴミなのにねw
これ ; デリミタっていうんだけどさ、これをつけなきゃエラーになるような
そんな言語使ってる奴ってどうみてもゴミだと思うんだけど
もしかして「;」これ打ち忘れてコンパイルエラー出すのが楽しいの?
そうか、二度と話かけんなよ
死ねよゴミ
ゆっくり声のライブラリって規則合成ってのらしいんだけど、これは素片接続法やHMM合成とは全く違う方法なの?素片接続の一種?
規則合成は、規則に基づいて音声合成することなので、合成方式が波形接続かHMM合成かとは別。というか、上の分類。
ゆっくりは、たぶん、LPCとかのパラメータからのボコーダ方式。ボコーダという点ではHMM合成と同じ。
NHK Eテレ Rの法則という番組にて歌声合成が取り上げられるようです.
また,その企画に伴い,4/25から番組HPでUTAU音源がDL出来るようになります.
男声と女声の2音源です.その音源作りを担当させていただきました!
UTAUよりまともな音声合成ソフトないの?
317 :
デフォルトの名無しさん:2012/07/09(月) 20:44:26.02
日本音響研究所が開発したモンタージュボイスっていうやつどうやればできるの?
詳しく教えてくれ
318 :
デフォルトの名無しさん:2012/07/16(月) 20:36:29.06
日本音響研究所が開発したモンタージュボイスっていうやつどうやればできるの?
詳しく教えてくれ
誰かHMM音声合成を語れ
フジテレビの杏梨ルネってどこの技術?
>>320 なんかの記事でドコモのiコンシェルと同じを使ってるって言ってたな
それが確かならHOYAのVoiceTextってことになる
なるほど
おれの98は、ピポッと起動するから現在形
難しいな
326 :
デフォルトの名無しさん:2013/10/18(金) 09:34:37.17
初音ミクとか目標にしてるんだろうけど意外に奥が深いんだよ。
328 :
デフォルトの名無しさん:2014/01/27(月) 14:18:06.62
判ります
初音ミクどころか歌唱よりさらに難しいといわれる読み上げに見える
330 :
デフォルトの名無しさん:2014/01/27(月) 15:05:33.72
へっ?
どうみても歌唱やんこれ
帐
332 :
デフォルトの名無しさん:2014/04/04(金) 14:07:45.36 ID:Bqre4+dt
初音ミク、って専属の声優さんがいるんじゃなかったかな?
その声優さんを機械のような質感にしているだけだと思うけどな。
334 :
デフォルトの名無しさん:2014/04/07(月) 10:02:18.51 ID:Eg/nEWhY
>>333 紹介ありがとう。
やっぱり専属の声優さんいたんやな。
335 :
デフォルトの名無しさん:2014/04/07(月) 10:05:42.81 ID:Eg/nEWhY
声優さんの合成音声をセリフから抽出するより。
お気に入りの声優さんに「あ〜ん」までを発声してもらって。
それをタイピングと連動させるツールを作ればいいんでね?
音域を解析して、ネットラジオ等で音声素材を収集して。
埋められない言葉は、これまで収集したデータから予測するのは・・・。
考えただけでかなりのコスト^^;
また、この専用アプリでは、初期状態で「あ」、「い」、「う」、「え」、「お」と割り当てられている5つのボタンに別の文字を割り当てることができたり、この ボタン以外の文字をリアルタイムに選択して、本体のカーボンキーボードで歌わせることも可能とのことです。
発音するノートの直前に文字情報をMIDIシステム・エクスクルーシブで入力する
さらに、すべてをシーケンサ、DAWでコントロールして歌わせたという場合には、MIDIシステムエクスクルーシブを利用して歌詞を設定することも可能 です。具体的には、発音させたいノートデータの直前に
F0 43 79 09 11 0A 00 ** F7
というエクスクルーシブデータを送るのですが、この**に文字番号を設定します。その文字番号についてはポケット・ミクのマニュアルに記載されてい ますが、「み」なら「65」、「く」なら「07」(いずれも16進数表記)のように1バイトの数字が割り振られています。
子音もいけるじゃん
USBでmidiノート投げれば子音も普通にしゃべれるのか
345 :
デフォルトの名無しさん:2014/11/04(火) 04:11:37.58 ID:9XcfLbNC
画像の処理はよく話題になるが音声の処理はあまり話題にならないな
臭いの処理も話題にならないよな
347 :
デフォルトの名無しさん:2014/11/06(木) 04:17:54.25 ID:iaZsweTc
臭いはまだデバイスがほとんど一般向けに出てないからだろ。
たまにどこぞの大学や企業が試作品作ってるって話が聞こえるくらいだ。
市販されたとしてもプリンタのインクと同じで何かを放出する系だから
維持費がかかって一般人はなかなか買わないだろうね。
脳に電極を刺してエミュレートする機械の方が先に出るんじゃね
味の処理も欲しい・・・です
味は、舌に流す電流の波形でどうとか言う話を電通大(本家か大阪か忘れた)の誰かがしてた記憶が
舌の部位によって担当細胞が分かれてるのが本当だとしたら
電極を当てる場所も点じゃだめで面にしないとな
このスレタイほんと好きだわ
このタイトルだけでここまでもったスレと言えよう
MMDAgentの2等身のデータどっかにないですか