2026年4月27日、SBIntuitions(SBインテュイションズ)が日本語特化のLLMベース音声合成モデル「sarashina2.2-tts」を公開した。数秒の参照音声から話者の声質や話し方を再現するゼロショットTTSで、ナレーションから落語まで多彩なスタイルに対応する。本記事では、HuggingFaceのモデルカードとGitHubリポジトリをもとに、その仕様と特徴を整理する。なお、執筆時点で国内のプレスリリース(PR TIMES等)は確認できておらず、公式X投稿とHuggingFaceモデルカードが一次ソースとなっている。
sarashina2.2-ttsとは
SBIntuitionsはソフトバンクグループのAI研究子会社で、日本語LLMの「さらしなシリーズ」を継続的に公開している。sarashina2.2-ttsはその音声合成版にあたり、同社が公開済みの言語モデルSarashina2.2(0.5B・1B・3B)と並ぶ新モデルだ。
| 項目 | 仕様 |
|---|---|
| パラメータ数 | 0.8B |
| 対応言語 | 日本語・英語 |
| ライセンス | Sarashina Model NonCommercial License |
| 公開日 | 2026年4月27日 |
| モデル配布 | HuggingFace(F32テンソル形式) |
ライセンスは非商用利用に限定されており、商用利用を希望する場合はSBIntuitionsへの個別申請が必要となっている。
主要機能と特徴
ゼロショット音声合成
sarashina2.2-ttsの中核機能は、数秒程度の参照音声から話者の声質・アクセント・話し方を再現するゼロショット合成だ。事前に特定話者でファインチューニングする必要がなく、手持ちの音声クリップを参照として与えるだけで、その特徴を持った音声を生成できる。
日英のコードスイッチング(文中に両言語が混在する状況)にも対応しており、参照音声で設定した話者の声質を保ちながら日英を自然に切り替えることが可能だ。
対応する話し方スタイル
モデルカードに記載されているスタイルは以下の通り。
- ナレーション
- ニュース読み
- 会話
- カスタマーサービス
- 落語
スタイルの切り替えは参照音声と入力テキストの組み合わせで実現しており、スタイル指定のパラメータは存在しない。
SilentCipherによる音声透かし
生成した音声にはSilentCipherという技術による不可聴透かしが自動的に埋め込まれる。これはAI生成音声であることを証明するためのもので、ライセンス上、この透かしの除去は禁止されている。
技術的な構成
sarashina2.2-ttsは以下のオープンソースプロジェクトを組み合わせた構成になっている。
| コンポーネント | 役割 |
|---|---|
| CosyVoice / FlashCosyVoice | 多言語TTSの基盤 |
| HiFT-GAN | 音声波形生成(Vocoder) |
| 3D-Speaker | 話者関連の処理 |
| SilentCipher | 不可聴透かし埋め込み |
LLMベースのTTSアーキテクチャとは、テキストを音響トークン列に変換する処理をトランスフォーマー系の言語モデルで行うアプローチを指す。従来のシーケンス・ツー・シーケンスモデルや拡散モデルと比べて、コンテキストの長距離依存を扱いやすく、イントネーションの自然さに優れるとされている。
動作環境と導入方法
必要なVRAM
| バックエンド | 必要VRAM |
|---|---|
| HuggingFace Transformers(標準) | 約6GB |
| vLLM(高速推論) | 約7.9GB |
Gradio UIで動かす(ローカル)
# リポジトリのクローン
git clone https://github.com/sbintuitions/sarashina2.2-tts
cd sarashina2.2-tts
# 依存パッケージのインストール
pip install -r requirements.txt
# Gradio UIの起動
python server/gradio_app.py
ブラウザで http://localhost:7860 を開くと、参照音声のアップロードとテキスト入力が可能なUIが表示される。初回起動時にHuggingFaceからモデルが自動ダウンロードされる。
Dockerで動かす
# 標準バックエンド
docker compose up
# vLLMバックエンド(高速化)
docker compose -f docker-compose.vllm.yml up
vLLMバックエンドの推論速度
コミュニティの報告によると、RTX 5090 + vLLMの構成では10秒の音声を約0.5秒で生成できるとされている。実際の速度はGPUのスペックや音声の長さによって変わるため、参考値として捉えてほしい。
ライセンスと利用上の注意
非商用ライセンスの制約
sarashina2.2-ttsのライセンスは「Sarashina Model NonCommercial License Agreement」で、個人の研究・学習・非商用プロジェクトを対象としている。ビジネス用途や収益を伴うサービスへの組み込みは、事前にSBIntuitionsへ申請して許可を得る必要がある。
透かし除去の禁止
生成音声に埋め込まれたSilentCipherの透かしはライセンス上除去が禁止されている。フィルタリング処理などで意図的に除去することはライセンス違反となる。
学習データについて
モデルカードによると、学習データは国内法に準拠した方法で収集されており、収集時にrobots.txtやサービス利用規約を遵守したと記載されている。
まとめ
sarashina2.2-ttsを一言でまとめると「日本語の発音精度と表現力を重視したゼロショット音声合成モデル」だ。
強み- 短い参照音声から声質と話し方を再現できる
- ナレーション・ニュース・落語といった多様なスタイルに対応
- 日英混在テキストでも話者の声質を維持
- Gradio UIとDockerで手軽に試せる
- 非商用ライセンスのため商用利用には申請が必要
- VRAM 6GB以上のGPUが必要
- 透かし除去禁止
研究・学習目的や個人プロジェクトでの音声コンテンツ制作には十分な性能が期待できる。商用での音声アシスタント・ナレーション生成に活用したい場合は、ライセンス申請から始めるとよいだろう。