国家学术搜索
登录
注册
中文
EN
首页
期刊导航
|
電子情報通信学会技術研究報告
期刊信息
/
Journal information
電子情報通信学会技術研究報告
電子情報通信学会
主办单位:
電子情報通信学会
国际刊号:
0913-5685
電子情報通信学会技術研究報告
/
Journal 電子情報通信学会技術研究報告
正式出版
收录年代
117 卷106 期
117 卷160 期
117 卷189 期
117 卷250 期
117 卷368 期
117 卷393 期
117 卷517 期
可変epoch長を用いた同時対角化問題のための適応ブラインド音源分離法
西山慶
齋藤晋哉
大石邦夫
古川利博...
6页
查看更多>>
摘要:
本稿では,可変エポック長を用いた同時対角化問題のための適応ブラインド音源分離を提案する.提案法では,音源の移動に伴う室内伝達関数の変化に追従する為に,忘却係数と可変エポック長を,同時対角化問題の解法の一種であるDMDI(Diagonalization implemented by Minimizing the Direct and Indirect least-squares criteria)アルゴリズムに導入し,その性能を検証した.
原文链接:
NETL
NSTL
マルチチャンネルNMFの空間相関行列の安定的な推定法
太刀岡勇気
6页
查看更多>>
摘要:
マルチチャンネル非負値行列因子分解(MNMF)は,音源分離性能が高いことが知られているが,その初期値依存性が課題となっている.これを改善するため,空間相関行列の初期値を到来方向に基づくバイナリマスクにより音声強調した音声から求める方法と,ランク1近似により求める方法が提案されている.ランク1近似では,推定すべきパラメータを減らすことができるため有効であるが,フルランクの空間相関行列と,ランク1近似した空間相関行列を初期値として与える場合のいずれが有効であるかは明らかでないので実験的に比較する.またランク1近似では,音源数よりもチャネル数が多くなるにつれ,空間相関行列の更新が不安定化するという問題がある.これを避けるために,発話を分割して各分割でランク1近似を行い,その空間相関行列を平均化する方法を提案する.実験により,提案法はMNMFの性能を改善するとともに,空間相関行列の更新を安定化できることを示した.
原文链接:
NETL
NSTL
独立深層学習行列分析に基づく多チャネル音源分離の実験的評価
北村大地
角野隼斗
高宗典玄
高道慎之介...
8页
查看更多>>
摘要:
本稿では,新しい教師あり多チャネル音源分離手法である独立深層学習行列分析(IDLMA)を提案する.IDLMAは,従来のブラインド音源分離の独立低ランク行列分析と,近年発展している教師あり学習のディープニューラルネットワーク(DNN)を融合したアルゴリズムであり,独立成分分析を起源とする統計的独立性に基づく信号分離理論の正当な教師あり拡張手法である.本手法では,DNNを用いて音源の時間周波数構造をモデル化しつつ,観測信号の空間的な混合モデルをブラインドに推定することができる.音楽信号を用いた評価実験では,IDLMAが従来のDNNに基づく多チャネル音源分離手法よりも高速かつ高精度な音源分離を実現できることを示す.
原文链接:
NETL
NSTL
音素事後確率とd-vectorを用いたVariational Autoencoderによるノンパラレル多対多音声変換
齋藤佑樹
井島勇祐
西田京介
高道慎之介...
6页
查看更多>>
摘要:
話者コードで条件付けされたVariational AutoEncoder(VAE)を用いた従来のノンパラレル音声変換では,発話内容を表す潜在変数の過剰な正則化により,変換音声の品質が著しく劣化する.これに対し,本稿では,話者コードのみならず,学習済みの音声認識モデルの予測結果として得られる音素事後確率で条件付けされたVAEの学習法を提案する.本稿ではさらに,一対一VAE音声変換を任意話者対での変換が可能な多対多音声変換に拡張するための手法として,(1)話者コードの適応,及び(2)話者認証において有効なd-vectorを用いた学習·変換法を比較する.実験的評価により,(1)音素事後確率の導入により変換音声の品質が大きく改善すること,及び(2)話者コードとd-Vectorの両方がノンパラレル多対多VAE音声変換に適用可能であることを示す.
原文链接:
NETL
NSTL
GPR音声合成における深層ガウス過程の利用の検討
郡山知樹
小林隆夫
6页
查看更多>>
摘要:
本稿では,ベイズ推定の枠組みとして利用されるガウス過程を多層に組み合わせた深層ガウス過程を,統計的音声合成の枠組みに適用する.深層ガウス過程(DGP)は,ディープニューラルネットワーク(DNN)と同様に深層構造に基づく高精度な予測が期待されるモデルであり,DNNに比べ過学習が起こりにくいという特長を持つ.これまでの報告で,大量のデータに適用可能な二重確率的変分推論(DSVI)に基づくDGPによって,DNN音声合成より自然性の高い音声を生成できることが示されたが,モデルの構造などの詳細な検討は行われなかった.本研究では,カーネル関数および層の数,中間層の次元数など様々な条件で音声合成実験を行い,パラメータが音響特徴量歪に与える影響を調査する.
原文链接:
NETL
NSTL
マルチチャネル非負値行列因子分解に基づくビームフォーミングを用いた雑音環境下音声認識
島田一希
坂東宜昭
三村正人
糸山克寿...
6页
查看更多>>
摘要:
本稿では,雑音に頑健な音声認識のためのマルチチャネル音声強調について述べる.音声認識のための音声強調では,マイクロホンアレイにより観測したマルチチャネル信号から,目的音声方向の信号を強調し雑音方向の信号を除去するビームフォーミングが効果的である.ビームフォーミングを行うために必要な目的音声の方向を表すステアリングベクトルや雑音の空間相関行列の推定については,時間周波数マスクに基づく手法が活発に研究されており,時間周波数ビンを目的音声と雑音に分類するディープニューラルネットワーク(DNN)を用いてマスクを推定する手法が高い性能を示すことが知られている.このような事前の教師あり学習による手法は,未知環境において性能が低下するおそれがある.そこで本研究では,教師なしで空間相関行列を正確に推定するために,マルチチャネル非負値行列因子分解(MNMF)に基づくブラインド音源分離を用いて,観測の各時間周波数ビンを目的音声とそれ以外の音源(雑音)に分解する手法を提案する.本研究ではMNMFをオンライン処理に拡張し,音声強調に適した初期化を行う.MNMFに適したビームフォーミングを明らかにするために,最小分散無歪(MVDR)ビームフォーミング及びマルチチャネルウィーナーフィルタリング(MWF)において,時変及び時不変フィルタの両方を比較した.実録音データに対する音声認識実験を行い,提案法が未知環境においてDNNマスクに基づくビームフォーミングと比べて頑健に動作することを示した.
原文链接:
NETL
NSTL
発話時の残響時間によるフォルマント周波数の変化と残響下における了解度
赤木正人
久保理恵子
6页
查看更多>>
摘要:
残響下の了解性に関与する音響変化,発話変形の検討にあたり,残響時間の異なる発話時の残響時間によって残響下の了解度が変化した話者を対象に,さまざまな残響環境で発話された音声の母音区間について音響分析を行った.音声レベルや持続時間の増減に加え,残響時間によりF1の上昇やF2の上昇または下降が生じることが確認され,開口度や前舌性·後舌性といった各母音を特徴づける素性が明確になることが示唆された.明確な調音により言語音の特性を明確化した“clear speech”が,発話時の残響時間に応じて段階的に生じ,了解度の改善に寄与したことが考えられる.
原文链接:
NETL
NSTL
音声区間検出におけるLSTM post-filterの検討
松井清彰
森谷崇史
福冨隆朗
篠原雄介...
6页
查看更多>>
摘要:
音声認識をより効率的に行うための音声区間検出において,現在はDNNを用いた手法が多く検討されている.DNNによる音声区間検出は,多様な雑音環境やドメインを含むデータを使用することで,様々な種類の環境に対する頑健性を向上させることができるが,実用環境に適用する場合は,依然として環境に応じたパラメータチューニングが必要である.本手法は,音声区間検出の出力に対し後処理を行うLSTM post-filterを適用することにより,環境毎のパラメータチューニングを行うことなく,複数の環境下で頑健に動作する音声区間検出を実現した.実験では,クリーン音声及びいくつかの雑音環境において音声区間検出の精度比較を行い,パラメータ調整を行った場合と同等以上の精度を達成した.
原文链接:
NETL
NSTL
超広帯域音声のための低周波成分への影響を考慮した非線形帯域拡張法に基づく話者照合の検討
宮本春奈
塩田さやか
貴家仁志
5页
查看更多>>
摘要:
本論文では,エイリアシングの影響を考慮した非線形帯域拡張法を提案し,その有効性を客観評価および話者照合において評価している.帯域拡張法には電話音声のような狭帯域音声に適用するものだけでなく,次世代通信のための超広帯域に対応させるものなどがある.統計モデルを用いた手法によりどちらの条件においても高い品質を得ることが報告されている.一方,学習のプロセスを必要としない帯域拡張法である非線形帯域拡張法も近年報告されている.非線形帯域拡張法では非線形関数を用いることで広帯域音声を生成可能であるが一方で扱う信号がデジタル信号であるためにエイリアシングの影響を受けるという問題もあった.そこで,本研究ではエイリアシングを回避するためのフィルタを加えた非線形帯域拡張法を提案する.提案法を評価するための実験としてPESQおよびRMS-LSDという客観的評価尺度による比較と話者照合実験を行った.特に話者照合実験において信号を16kHzから32kHzへ拡張した場合に提案法は従来法と比較して29.7%のエラー削減率を得たことを報告する.
原文链接:
NETL
NSTL
話者照合のための話者性を考慮した音素情報に基づくポップノイズ検出法を用いたテキスト依存型声の生体検知
望月紫穂野
塩田さやか
貴家仁志
6页
查看更多>>
摘要:
本稿では,話者性を考慮した音素情報に基づくポップノイズ検出法を用いた,テキスト依存型の声の生体検知を提案する.近年,話者照合システムが普及しつつある一方で、登録話者の録音した声をスピーカー再生するなりすまし攻撃によってその認証精度が大幅に低下してしまうことが報告されている.このなりすまし攻撃に対する根本的な解決策の一つとして,入力音声が人間によって実際に発声されたものか否かを識別する声の生体検知が提案されている.入力音声からポップノイズを検出する方法は,その実現法の一つであり,なりすまし攻撃の検出に対して有用であることが報告されている.しかし,なりすまし攻撃からもポップノイズを誤検出してしまうという問題があり,著者らはその精度向上のために,ポップノイズ検出後にポップノイズ区間にかかる音素を考慮して声の生体検知を行う方法(音素情報に基づくポップノイズ検出法)を提案した.先行研究では,話者毎の発話スタイルの違いに着目した話者依存の音素リストや,ポップノイズの発生頻度を考慮したプロンプト文の使用を前提としてきた.一方,近年普及しつつあるスマートフォンや銀行等の話者認証システムは発話内容が固定である場合が多い.そこで本研究では,話者性を考慮した音素情報を用いた声の生体検知に対してさらにテキスト依存の枠組みを導入することを提案し,生体検知実験および話者照合実験による性能評価と考察について報告する.
原文链接:
NETL
NSTL
1
2
3
4
5
6
7