AIアシスタントでリアルな音声を生成

DISCE
2 日前
読了時間: 13分

原文「AI Assistant: Producing Highly Realistic Audio」

eラーニングのコース作成者であれば、単に情報を提示するだけでなく、学習者の心に響くようなマルチ感覚的なeラーニング体験を作り出したいと考えるでしょう。音声や効果音を創造的に使用することで、その目標に近づくことができます。AIアシスタントのテキスト読み上げ機能とサウンド効果機能を使用すると、AIが生成した非常にリアルな音声や効果音を作成でき、より没入感のある、利用しやすいコンテンツを作成できます。

Storyline 360では、リボンの[AI Assistant]メニューの[Insert Audio]ドロップダウンからアクセスできます。スライドビューでは[Home]または[Insert]タブから、または[AI Assistant]サイドパネルのクイックアクションボタンからアクセスでき、利便性が向上しています。

Rise 360では、[AI Blocks]から[Generate AI audio]などからアクセスできます。

AI生成の音声でナレーションに生命を吹き込む

従来のtext-to-speech（テキスト読み上げ）機能を使用したことがある方は、音声がすこしロボットのような音声で、もう少し自然な声色であればと思ったことがあるでしょう。AIアシスタントのtext-to-speech機能では、文脈を理解するAIが生成した、より自然な、そして人間らしい音声により、ナレーションに生命が吹き込まれます。以下のテキスト読み上げの例を再生して、Standard Voice（標準音声：従来機能）、Neural Voice（ニューラル音声：従来機能）、AI生成音声の品質の違いを確認してください。

Standard Voice（標準音声：従来機能）

Neural Voice（ニューラル音声：従来機能）

AI生成音声

まず、[AI Assistant]メニューの[Insert Audio]アイコンをクリックして、[Generate AI Audio]ダイアログボックスを開きます。Gender（性別）、Age（年齢）、Accent（アクセント）でフィルタリングできるAI生成音声のライブラリが、[My Voice]タブの下に表示されます。

検索窓で「Japanese」と入力すると日本語モデルが表示されます。

音声には、deep（深みがある）、confident（自信に満ちている）、crisp（歯切れが良い）、intense（激しい）、soothing（落ち着いた）などの説明や、ニュース放送や瞑想、さらにはASMR（聴覚や視覚への刺激で得られる心地よい感覚）まで、理想的な使用例を判断するのに役立つカテゴリーも表示されます。これらの情報は音声の名前の下に表示され、再生ボタンを使用して音声をプレビューできます。現在、52種類の既存の音声から選択でき、お気に入りの音声にはハートのアイコンをクリックしてマークを付けることができます。これにより、リストをスクロールすることなく、お気に入りの音声に簡単にアクセスできます。表示オプションを[Favorites]に切り替えると、お気に入りの音声がすべて表示されます。また、[In project]に切り替えると、現在のプロジェクトで使用されている音声が表示されます。音声を選択したら、[Use]ボタンをクリックして、[Text-to-Speech]タブに切り替えます。選択した音声がすでに選択されています。

次に、テキストボックスに用意したスクリプトを入力するか、[add from slide notes]リンクをクリックして、スライドノートをコピーします。スクリプトは最大5,000文字までです。アクセシビリティを考慮して、[Generate closed captions]ボックスにチェックを入れたままにしておくとAIアシスタントがクローズドキャプションを自動的に生成します。テキスト読み上げナレーションにクローズドキャプションが含まれているかどうかは、各出力の横に表示されるCCラベルで即座に確認できます。

ボイスライブラリでさらに多くの音声を見つける

あらかじめ用意されている音声に加えて、年齢、性別、用途別にフィルタリングできる、超リアルなAI生成の音声が数千種類も揃った拡張音声ライブラリにもアクセスできます。[My Voices]タブのすぐ右下にある[Voice Library]ボタンをクリックして、コンテンツに最適な音声を見つけてください。

音声設定の調整

従来のtext-to-speech機能とは異なり、AIアシスタントのtext-to-speech機能でAIが生成する音声は、カスタマイズして個々の用途に合わせた音声パフォーマンスを実現することができます。

v3 (ベータ版) 70言語以上で最も表現力豊か、高い感情表現範囲、文脈理解を備えています。最大3,000文字まで対応可能です。なお、本モデルは現在開発中です。機能の変更や予期せぬ動作が発生する可能性がございますので、ご了承ください。日本語での漢字の読みが大幅に向上しています。
Multilingual v2（デフォルトモデル） 29言語に対応した、非常に安定した極めて正確な自然な音声を生成します。最大10,000文字まで入力可能です。
Flash v2.5 安定性は若干劣りますが、32言語に対応し高速生成が可能です。最大40,000文字まで入力可能です。

[Stability]（安定性）設定は、音声の安定性と不規則性のバランスを制御します。[Similarity]（類似性）設定は、音声の再現時に、AIがオリジナル音声にどの程度忠実に従うかを決定します。デフォルトでは、[Stability]スライダーは0.50、[Similarity]スライダーは0.75に設定されていますが、コンテンツに最適なバランスを見つけるために、これらの設定をいろいろと試してみることができます。

その他の設定には、元の音声のスタイルを増幅する[Style exaggeration]や、合成音声と元の音声の類似性を高める[Speaker boost]などがあります。これらの設定を調整すると、音声の生成に時間がかかるようになることにご注意ください。

注：[Multilingual v2]モデルの一部の音声では、長めのクリップを生成すると、音量が一定せず、終わりの方でフェードアウトする傾向があります。これは、基礎となるモデルの既知の問題であり、text-to-speech用のAIサブプロセッサでは、この問題の解決に取り組んでいます。それまでの間は、以下の回避策をお試しください。

別の音声を使用する
Flash v2.5 モデル、またはv3 モデルに切り替える
音声の[Stability]を高める
テキストを手動でより短い塊に分割して、より短いクリップとして生成する

SSMLを使用する必要があるのか？

AIアシスタントは音声合成マークアップ言語（SSML）を限定的にサポートしています。AI生成の音声は、単語間の関係を理解し、それに応じて読み方を調整するように設計されているためです。テンポを手動で制御する必要がある場合は、「間」を挿入することができます。最も一貫した方法は、スクリプトに構文 <break time="1.5s" /> を挿入することです。これにより、音声に正確で自然な「間」が挿入されます。以下はスクリプトの例です：

With their keen senses <break time="1.5s" /> cats are skilled hunters.

鋭い感覚を持った猫は<break time="1.5s" />熟練したハンターです。

3秒までの「間」には秒数を使用します。

短い「間」には[、]や[-]（または[—]）を使用します。省略記号[...]も、単語間に「間」を挿入する際に使用できます。ただし、これらのオプションは常に機能するとは限らないため、一貫性を保つために上記の構文を使用することをお勧めします。ただし、改行を過剰に使用すると、不安定な状態を引き起こす可能性があることにご注意ください。

v3（ベータ版）のためのプロンプト作成テクニック

v3（ベータ）モデルでは、音声タグによる感情制御を導入し、笑い声、ささやき声、皮肉な口調、好奇心を示す表現など、様々な感情表現を音声で実現可能となりました。

下記の表には、音声の表現方法や感情表現を制御するための各種タグ、背景音や効果音を追加するためのタグを一覧で記載しております。また、創造的な用途に向けた実験的なタグも一部含まれております。

声と感情	音響と効果音	実験的
[laughs], [laughs harder], [starts laughing], [wheezing] [whispers] [sighs], [exhales] [sarcastic], [curious], [excited], [crying], [snorts], [mischievously] 例：[whispers] 今は見ないでください、でも、どうやら私たちの声が聞こえたようです。	[gunshot], [applause], [clapping], [explosion] [swallows], [gulps] 例：［applause］　まあ、思ったよりうまくいきましたね。［explosion］　まあいいでしょう	[strong X accent] (replace X with desired accent) [sings], [woo] 例：［strong French accent］Zat is not what I ‘ad in mind, non non non.

日本語でのデモ

TIPS：

音声の性格に合った音声タグをご使用ください。穏やかで瞑想的な声は叫びませんし、高エネルギーな声は説得力のあるささやきはできません。
非常に短いプロンプトは結果にばらつきが生じる可能性があります。より一貫性のある集中した出力を得るためには、250文字以上のプロンプトをお勧めいたします。
一部の実験的なタグは、音声によって一貫性が低下する場合がございます。ご使用前に十分にご確認ください。
複雑な感情表現には複数のタグを組み合わせてください。選択された音声に最適な組み合わせを見つけるため、様々な組み合わせをお試しください。
上記の表はあくまで出発点であり、より効果的なタグが存在する可能性がございます。感情状態と動作を組み合わせて実験し、ご使用のケースに最適な方法を見つけてください。
自然な話し言葉、適切な句読点、明確な感情の合図を使用することで、最良の結果を得られます。

多言語音声でリーチを拡大

AIによるtext-to-speechのもう一つの大きな利点は、言語の壁を乗り越え、世界中の視聴者とつながることができる点です。モデルによっては最大70言語（複数のアクセントや方言を含む）に対応しているAIアシスタントのtext-to-speech機能は、お客様のコンテンツを世界中のオーディエンスに届けるお手伝いをします。

AIアシスタントが使用するサポート対象言語で、スクリプトを入力または貼り付けるだけで完了です。（特定のアクセントや言語を指定した音声説明であっても、AIアシスタントはスクリプトで使用されている言語でナレーションを生成します。）一部の音声は特定のアクセントや言語と相性が良い傾向にあるため、ニーズに最適な音声を見つけるために、さまざまな音声をお試しください。

サポート対象言語の概要は、以下の表をご覧ください。

v3 (beta)、 Multilingual v2、およびFlash v2.5 で利用可能：

アラビア語（サウジアラビア）
アラビア語（アラブ首長国連邦）
ブルガリア語
中国語
クロアチア語
チェコ語
デンマーク語
オランダ語
英語（オーストラリア）
英語（カナダ）
英語（イギリス）
英語（アメリカ）
フィリピン語
フィンランド語
フランス語（カナダ）
フランス語（フランス）
ドイツ語
ギリシャ語

ヒンディー語
インドネシア語
イタリア語
日本語
韓国語
マレー語
ポーランド語
ポルトガル語（ブラジル）
ポルトガル語（ポルトガル）
ルーマニア語
ロシア語
スロバキア語
スペイン語（メキシコ）
スペイン語（スペイン）
スウェーデン語
タミル語
トルコ語
ウクライナ語

v3 (beta)、およびFlash v2.5 で利用可能：

ハンガリー語
ノルウェー語
ベトナム語

v3 (beta) でのみ利用可能：

アフリカーンス語 (afr)
アルメニア語 (hye)
アッサム語 (asm)
アゼルバイジャン語 (aze)
ベラルーシ語 (bel)
ベンガル語 (ben)
ボスニア語 (bos)
カタロニア語 (cat)
セブアノ語 (ceb)
チチェワ語 (nya)
エストニア語 (est)
ガリシア語 (glg)
グルジア語 (kat)
グジャラート語 (guj)
ハウサ語 (hau)
ヘブライ語 (heb)
アイスランド語 (isl)
アイルランド語 (gle)
ジャワ語 (jav)
カンナダ語 (kan)
カザフ語 (kaz)
キルギス語 (kir)
ラトビア語 (lav)

リンガラ語 (lin)
リトアニア語 (lit)
ルクセンブルク語 (ltz)
マケドニア語 (mkd)
マラヤーラム語 (mal)
中国語（北京語） (cmn)
マラーティー語 (mar)
ネパール語 (nep)
パシュトゥー語 (pus)
ペルシア語 (fas)
パンジャーブ語 (pan)
セルビア語 (srp)
シンド語 (snd)
スロベニア語 (slv)
ソマリ語 (som)
スワヒリ語 (swa)
テルグ語 (tel)
タイ語 (tha)
ウルドゥー語 (urd)
ウェールズ語 (cym)

プロンプトを使用した効果音の作成

※2025年11月現在、Storyline 360のみ提供

テーマやコンテンツに合った効果音を使用することで、ボタンをクリックした時や、正しい答えを選択する時など、重要なアクションやフィードバックを強調し、より魅力的で効果的なeラーニング体験を提供することができます。AIアシスタントによる効果音を使用すれば、プロンプトを使用して、ほぼあらゆる音を簡単に作成することができます。別途料金がかかる効果音をウェブ上で探すのに時間を費やす必要はもうありません！

[Home]タブまたは[Insert]タブの[AI Assistant]メニュー内の[Insert Audio]をクリックし、[Sound Effects]タブに移動して、高品質なサウンドエフェクトの作成を開始します。または[Insert Audio]オプションの下にある[Sound Effects]を選択します。テキストボックスに希望するサウンドエフェクトの内容を記述し、継続時間を選択します。[Prompt influence]スライダーを調整して、AIアシスタントがサウンドを生成する際に、プロンプトの内容に従うのか、よりクリエイティブな自由度を与えるのかを調整することができます。

AIアシスタントは自然言語を理解するため、「マウスを1回クリックする」といったシンプルなプロンプトから、複数のサウンドや特定の順序でのサウンドのシーケンスを説明する非常に複雑なプロンプトまで、さまざまなプロンプトを使用してサウンドエフェクトを作成できます。ただし、生成するサウンドを記述する文字数は最大450文字であることにご注意ください。

また、サウンドエフェクトの再生時間（最大22秒まで）を調整することもできます。例えば、プロンプトが「犬の鳴き声」で再生時間を10秒に設定した場合、連続して鳴き声が再生されますが、再生時間を2秒に設定すると、1回だけ短く鳴きます。[Prompt Influence]スライダーを右に調整すると、AIアシスタントがプロンプトを厳密に遵守し、左にスライドさせると、より自由な解釈が可能になります。

TIPS 各出力の横に表示されるCCラベルにより、サウンドエフェクトにクローズドキャプションが含まれているかどうかを即座に判断できます。

知っておきたいプロ用語

オーディオの専門用語（オーディオの専門家が業界や業務で使用する専門用語）を使用することで、プロンプトの改善や、よりダイナミックなサウンドエフェクトの作成に役立ちます。以下にいくつかの例を示します。

Braam：メディア、特に予告編で使用される、深みがあり、共鳴し、歪んだ低音のサウンドで、緊張感、力強さ、迫り来る危機感を演出します。

Whoosh：素早い動き、場面転換、劇的な瞬間を強調するために使用される、素早い、ヒューという音です。

Impact：衝突、ヒット、突然の力強い接触を意味する、鋭く耳をつんざくような音で、アクションの瞬間や強調したい部分を際立たせるために使用されます。

Glitch：短い耳障りな、通常はデジタルノイズで、誤動作や歪みを模倣します。一般的にエラーを伝えるために使用されます。

Foley：映画やビデオなどの映像に合わせて、動きや物体の音などの日常的な効果音を再現し、録音するプロセス。

試してみましょう！「studio quality, sound designed whoosh and braam impact.」という指示を使って、3秒間の効果音を作成します。長さを増やすと、より良い効果音が作成できますが、終わりの方で無音部分が増えることになります。

TIPS

擬音語（“buzz,” “boom,” “click,” “pop”」など、自然の音を模した言葉）も重要なサウンドエフェクト用語です。よりリアルなサウンドエフェクトを作成するには、プロンプトでこれらの擬音語を使用してください。

ビデオチュートリアル

作業を始める前に、さらに詳しく知りたいと思いませんか？AIアシスタントを使用してtext-to-speechやサウンドエフェクトを生成する方法について、さらに詳しいガイダンスをご覧になりたい場合は、ビデオチュートリアル（英語）をご覧ください。

Articulate 360トレーニングには、その他のAIアシスタント機能の使用方法に関する追加のビデオチュートリアル（英語）もあります。

またv3バージョンを日本語でのデモを紹介したブログ「Articulate 360のAIアシスタントの新しい音声モデルV3がまもなく登場！」も併せてご覧ください。

Articulate 360を試してみたい方は、Articulate 360の30日間の無料トライアルをお試しください。ご登録にクレジットカードは必要ありません！！

株式会社ディーシェは日本におけるArticulate製品の販売代理店です

AIアシスタントでリアルな音声を生成

AI生成の音声でナレーションに生命を吹き込む

ボイスライブラリでさらに多くの音声を見つける

音声設定の調整

SSMLを使用する必要があるのか？

v3（ベータ版）のためのプロンプト作成テクニック

TIPS：

多言語音声でリーチを拡大

v3 (beta)、 Multilingual v2、およびFlash v2.5 で利用可能：

v3 (beta)、およびFlash v2.5 で利用可能：

v3 (beta) でのみ利用可能：

プロンプトを使用した効果音の作成

知っておきたいプロ用語

ビデオチュートリアル

最新記事

コメント

AI生成の音声でナレーションに生命を吹き込む

ボイスライブラリでさらに多くの音声を見つける

音声設定の調整

SSMLを使用する必要があるのか？

v3（ベータ版）のためのプロンプト作成テクニック

TIPS：

多言語音声でリーチを拡大

v3 (beta)、 Multilingual v2、およびFlash v2.5 で利用可能：

v3 (beta)、 およびFlash v2.5 で利用可能：

v3 (beta) でのみ利用可能：

プロンプトを使用した効果音の作成

知っておきたいプロ用語

ビデオチュートリアル

コメント

v3 (beta)、およびFlash v2.5 で利用可能：