TOPページ > 2020年11月号の記事 字幕制作システムの高度化提案

技術提案 字幕制作システムの高度化提案

感情が表現できる字幕システム
NHKテクノロジーズがDNPと共同開発

NHKのインターネット同時配信・見逃し番組配信サービス「NHKプラス」は、8月より「ネット配信向け生字幕同期システム」を見逃し番組配信サービスにおける一部番組で採用している。その機能は「一目瞭然」で、従来は難しいとされてきた映像・音声と生字幕がピタリと一致している。ネット配信の弱点である「遅延」の時間を逆に生かし、独自の技術力で同期を成し遂げたNHKの生字幕同期システムについて聞く。
(構成:高瀬徹朗・ジャーナリスト、写真:古山智恵・本誌編集部)


ネット配信特有の遅延を生かす

 「ネット配信向け生字幕同期システム」は、生字幕の表示タイミングを番組内容に同期させることで、ネット配信での生字幕サービスの質を向上させる目的で開発されたものだ。
 その仕組みは、SDI信号に重畳された生字幕データと音声認識結果をテキストマッチングして実際の発話時刻を推定。その結果にあわせて表示時刻を補正し、ほぼ本線・字幕がピタリと同期したタイミングで表示する〔図〕。

 まずポイントとなるのが、ネット配信特有の遅延、つまり配信用ファイル生成のエンコード処理に要するタイムラグを無駄なく活用している点。およそ30秒とされる「NHKプラス」の遅延が、生字幕同期処理においてポジティブに働いている。。

 感情表現字幕システム開発の発案者である岡田俊一氏(NT デジタル開発技術本部IT開発・運用センター 情報システム部 部長)は、当時、ニュース字幕を送出するテクニカルディレクター担当だった。「視覚や聴覚に障害のある人はテレビをどう楽しんでいるのか、そんな疑問からのスタートでした」。さっそく岡田部長らはインタビューやフィールドワークなどを行い、リードユーザーが普段どんなメディアに接し、どんな方法で楽しんでいるのかなど、日常生活を知ることから始めた。

「リードユーザーと渋谷の街を歩いたり、食事をしたり、いろいろな体験を一緒にしました。そうしたなかで、これまでの字幕のフォントには抑揚がないこと、発話者がわかりにくいこと、タイミングがずれるなどの課題があること、テロップに使われるユニークなフォントは印象深くなることを知ったのです」。ある日の深夜、テレビ番組でギターのネック付近に音色のオノマトペをテロップで表現している写真がリードユーザーからLINEで送られてきて、これがとってもわかりやすくおもしろかったという。「文字が感情を伝える大事な役
割を果たしているのではという直感が確信に変わった瞬間でした!」(岡田氏)。

音声と生字幕をテキストマッチング

 第二のポイントとなるのが、音声認識と入力字幕のテキストマッチングだ。

 「生字幕の入力は人力が基本。当然、その入力速度は入力担当者のコンディションによっても変動するため、例えば『10秒固定で前倒し』では安定性を欠く。その点、音声は映像と同期しているため、タイミングが安定します」(田中氏)。

 マッチングの鍵を握るのは音声をテキスト化する音声認識技術だが、ここに「100%を求めていない」(同)ことも重要なポイント。つまり、自動認識に誤変換が含まれた場合でもおおよそのあたりをつけてマッチングさせている、ということだ。

 「技研(NHK放送技術研究所)の音声認識エンジンとNgram検索アルゴリズム、認識結果の確かさを判定する独自のスコアリング処理をあわせることで高い補正性能が実現できました。放送とは異なるアプローチで、優れたサービスに辿り着けたと考えています」(技術局開発センター メディア施設部副部長・石川佳寿氏)。

 なお、仮にマッチングに失敗した場合でも、直近のマッチング成功時の補正量から推定して表示時刻を補正する、簡易な学習機能も搭載。同番組内、それも直近の事例を参考とするため、大きなずれのない補正を実現できているという。

 現在は見逃し番組配信サービスでの「おはよう日本(7時台)」「正午ニュース」「ニュース7」「ニュースウオッチ9」の4番組で運用しているが、ニュース以外の生番組を含めて、対象番組の拡充を検討中。さらに、将来的には、同時配信サービスでの提供や、より分かりやすい字幕を目指した表示方法の改善、多言語対応なども検討したいとしている。

 「緊急災害発生時やスポーツ中継などライブ性が重要とされる番組では、NHKプラスが放送に対して遅れているという課題は残りますが、平常時、『NHKプラスだけを見ている方』には遅延は気にならないというのが原点」(石川氏)という発想、また音声認識が100%でなくても処理できるシステムとしたことは、これまでの放送システムにはなかったもの。いわゆる「放送・通信の融合」とは異なる、放送局による通信サービスの活用は、いよいよ本格的な広がりを見せているようだ。

図:システム概要

図:システム概要
ニュース番組でのデモ事例。視聴者が画面左の「おやすみ前の~~」の字幕を読んでいるとき、テレビからの音声は画面右の表示する字幕の「さらに詳しく~~」が流れているという「生字幕遅延」の課題を解決


@月刊ニューメディア2020年11月号掲載


新刊

HDR 制作解説書 Ver.3
HDRとSDRのサイマル制作HDR 制作解説書 Ver.3144ページ 定価1,500円 (税込送料別)

新刊

IP ライブ伝送制作システム解説書 Ver.3
規格の基本解説と国内導入の最新動向IP ライブ伝送制作システム解説書 Ver.3104ページ 定価1,000円 (税込送料別)

好評発売中
NEWMEDIA別冊

HDR制作の解説書
次代の映像クリエーターたちが執筆HDR制作の解説書

好評発売中
NEWMEDIA別冊

IPライブ伝送制作システムの解説書
「SDIからIPへ」何を変え、何を生み出すか 月刊ニューメディア1月号別冊
解説書 IPライブ伝送制作システム
※ニューメディアからの直接販売のみとなります。

好評発売中

HDR制作解説書Ver.2
世界の映像クリエーター、技術者による解説 月刊ニューメディア12月号別冊
解説書 HDR制作 140ページ 定価1,500円(税込/送料別)
※ニューメディアからの直接販売のみとなります。

好評発売中

IPライブ伝送制作システム解説書Ver.2 
動き始めた導入事例と国際規格の動向 月刊ニューメディア12月号別冊
解説書 HDR制作80ページ 定価1,000円(税込/送料別)
※ニューメディアからの直接販売のみとなります。

好評発売中

「一周まわってテレビ論」とローカル放送展望の解説書 月刊ニューメディア12月号別冊
解説書 HDR制作84ページ 定価1,000円(税込/送料別)
※ニューメディアからの直接販売のみとなります。

雑誌、書籍ご購入
日本画質学会
募集

・今と言えば、今すぐ対応できる人
・短時間で仕上げられる人
・たび重なる修正に耐えられる人
・安くてもOKな人
担当:渡辺・本誌編集長
TEL:03-3542-5231

完売
NM新書「創業記シリーズ」(2)
雪のサムライ
越後上越人の創業発想史
天野 昭著

252ページ 本体800円+税(送料別)画像 NM新書「創業記シリーズ」(2)
雪のサムライ
越後上越人の創業発想史
天野 昭著52ページ 本体800円+税(送料別)
完売
The FileBase Book2The File Base Book 2
『ローカル局におけるファイルベース化を考える』

 

好評発売中

鄙の逆襲
21世紀型地域情報化による過疎地域の再生 表紙 鄙の逆襲
21世紀型地域情報化による過疎地域の再生

吉崎正弘著
発行2009年5月15日
本体2,000円+税
ISBN978-4-931188-36-5
送料実費

単品注文
完売
日本初!「ファイルベース」本格テキスト本 刊行へ!!
『The File Base Book
 ~ MXFによる放送ワークフローの変革~』
好評発売中

サービス・制度・標準化動向・著作権問題を全て網羅。世界初の総合的なIPTVの解説書
IPTV 放送・通信融合サービスの大本命 表紙 IPTV 通信・放送融合サービスの大本命
本間祐次著
発行2007年6月13日
定価2,000円+税
B6判/326頁
送料実費

単品注文
完売 (2刷)

気鋭のメディア論学者による、デジタル放送論の決定版!!
デジタル化の波のなかで 表紙 完売
放送メディアの現代的展開
デジタル化の波のなかで
(改訂版発行・増刷が決まり次第、予定を掲載いたします)
音 好宏著
発行2007年1月19日
B6判/216頁

単品注文
好評発売中 (2刷)

2010年には1兆円達成も夢ではない!
若手必読の書
デジタル時代に勝つ技術戦略 表紙
ケーブルテレビ1兆円産業論
デジタル時代に勝つ技術戦略

田口和博著
発行2007年1月11日
本体2,000円+税
B6判/236頁
送料実費

単品注文
好評発売中

日本の情報通信政策畑の第一人者、12冊目の著作
u-Japan 2010年の日本 表紙 u-Japan
2010年の日本

吉崎正弘著
発行2005年1月31日
本体2,000円+税
B6判/298頁
送料実費

単品注文

 


燃料電池ビジネス

GetAdobeReader

GetFlashPlayer