JNAS kaisetsu.txt

日本音響学会新聞記事読み上げ音声コーパス

1997.6.18
2001.4.17

1 概要

　このコーパスは、毎日新聞記事とATR 音素バランス503文を306人の話者（男女それぞれ153名）が読み上げたデータとそのテキストを含む16枚のCD-ROMから構成されている。発話はすべて日本語である。
　毎日新聞から抽出された155セット（各セット約100文）は、男女各１名の話者によって読み上げられている。また、すべての話者はATR音素バランス文のサブセット（50文）のいずれか１つを読み上げた。すなわち、話者１名あたり約150文、コーパス全体では約45,000文の発話を収録している。
　各発話は２つのマイクロホンで収録された。１つはヘッドセットマイク（すべての収録機関でSennheiser HMD410/HMD25-1 またはそれと同等のマイクを用いた）であり、もう１つは卓上型マイク（これは収録機関により異なる Sanken, Sony など）である。これらの２つのマイクで収録されたデータは別々のファイルとしてCD- ROMに納められている。２つのデータはCD-ROMディレクトリ構造が互いに対応するように構成されている。前半の８枚（Vol.1からVol.8)はヘッドセットマイクによるデータ、後半の８枚（Vol.9からVol.16）は卓上型マイクによるデータが格納されている。
　音声波形は16kHzサンプリング、16bit量子化でAD変換されており、後述の圧縮形式でCD-ROMに格納されている。
　コーパスは音声データの文字転記と、読み上げテキストを選ぶときに用いたバイグラム言語モデルを含んでいる。これらのデータはNo.1とNo.9のCD-ROMにある。
　このコーパスは、日本音響学会音声データベース調査委員会（1990年7月発足）によって検討され、39機関の協力により音声データを収録して構築された。そのため、ローパス・フィルタやAD変換の特性は完全には一致していない。

2. 毎日新聞記事読み上げテキスト

　1991年から1994年版の「CD毎日新聞」の記事を用いて、情報処理学会音声言語情報処理研究連絡会大語彙連続音声認識研究用データベースワーキンググループ (1995年11月発足)によって、155セットの読み上げ用テキストセットが作成された。
　1991年1月から1994年9月まで45ヶ月間の毎日新聞記事とそれに対応するRWCPテキストデータベースの形態素情報(RWC-TEXT-DB-95-1,機械による自動的な形態素解析結果)を用いて、バイグラム言語モデルが推定された。バイグラムモデルの推定にはCMU SLP toolkitが使われた。このバイグラムモデルを用いて、1994年10月から1994年12月までの3ヶ月間の記事中の文を、30種類の統計的な特徴を持つカテゴリに分類した。それぞれのカテゴリは文の長さ（２種類）と語彙サイズ（５種類）、および文の複雑さ（３種類）によって特徴付けられている。
　それぞれのカテゴリより、表１に示す数の文を集めて、合計90文から成る読み上げテキスト（SC文）を構成した。これを150回繰り返して150個のテキストセットを作り、さらにそれぞれに2,3の段落の中から選ばれた連続する文（約10文）を加えて最終的な読み上げテキスト150セット（それぞれ約100文)を作成した。また、これとは別に、記事中で連続する文を複数の段落から集めた読み上げテキストを5セット作成し（それぞれ、100～150文)、合計155セットの読み上げテキストを準備した。

                     表１：　各分類カテゴリから集められた文数

                     LENGTH = NORMAL                 LENGTH = LONG
              PERP=P_L  PERP=P_M  PERP=P_H    PERP=P_L PERP=P_M PERP=P_H
   VOC=MID        2         6         2           1        3        1
   VOC=MID+       2         6         2           1        3        1
   VOC=LAR        4        12         4           2        6        2
   VOC=LAR+       2         6         2           1        3        1
   VOC=LAR++      2         6         2           1        3        1


           VOC=MID:        5k voc. without an unknown word
           VOC=MID+:       5k voc. with one unknown word
      
                  LENGTH=NORMAL:  5-19 morphemes 
                  LENGTH=LONG:   20-39 morphemes
                  PERP=P_L:       0 <  perplexity < 40
                  PERP=P_M:      40 <= perplexity < 85
                  PERP=P_H:      85 <= perplexity < 400

           VOC=LAR:       20k voc. without an unknown word
           VOC=LAR+:      20k voc. with one unknown word
           VOC=LAR++:     20k voc. with two or more unknown words
      
                  LENGTH=NORMAL:  5-29 morphemes 
                  LENGTH=LONG:   30-39 morphemes
                  PERP=P_L:       0 <  perplexity < 70
                  PERP=P_M:      70 <= perplexity < 130
                  PERP=P_H:     130 <= perplexity < 400

3. ATR 音素バランス 503文

　この音素バランス文は株式会社エイ・ティ・アール自動翻訳電話研究所によって作成された。
　2音素連鎖（CV(120種),VC(227種),VV(55種),計402種）および一部の3音素連鎖（CVC(69種、ただしCは無声破裂音、無声摩擦音）、CVC（18種、ただしCは鼻子音）、 VCV（136種、ただしCは半母音),計223種）について、これらの音素環境が同じ割合で含まれるようにするため、これらの出現を独立と見なしてエントロピ－を定義した。文の母集団としては、新聞、雑誌、小説、手紙、教科書等から無作為に 10,196文を抽出し、これから上述の基準に従ってエントロピーが最大になるように音素バランス 503文を選んだ。これは 50 文を１セットとして音素バランスがとれるよう配慮されている。

4. 転記

　読み上げ音声に対応する２種類のテキストを添付している。１つはルビ付きの新聞記事で、これは読み上げ用テキストとして使われた。ファイルはTeXフォーマットである。もう１つは、発話の仮名あるいはローマ字表記のテキストであり、読み上げ用のテキストの読みだけを取り出し、さらに各収録機関からの情報を元に、読みの修正を加えたテキストである。

5. CD-ROMのファイル形式

　CD-ROMはISO-9660標準でフォーマットされている。また、音声波形は16kHzサンプリング、16-bit量子化でAD変換されている。これらの音声波形にはNIST SPHERE ヘッダが付けられ、Tony Robinson(Cambridge University and SoftSound Limited, UK)によって開発された Shorten圧縮技術(the NIST SPHERE PACKAGEに実装されているプログラムを用いた）で圧縮されたファイルとして格納されている。圧縮ファイルの解凍、あるいはヘッダを削除するためには、anonymous ftpで最新のバージョンを得てSPHERE PACKAGEのユーティリティを使えばよい*)。

URL=ftp://jaguar.ncsl.nist.gov/pub/sphere_x.x.tar.Z

1997年6月

板橋秀一

*) 2001.4.17現在の最新バージョンはsphere_2.6a.tar.Z。このバージョンで動作確認されているプラットフォームは以下の通り(保証するものではありません)。
・SUN OS 4.1.X
・SUN Solaris OS 5.4
・SGI IRIX Release 5.3
・DEC OSF/1 V2.0
・HP Unix
・NEXT OS
・IBM AIX

音声データのCopyright(C): 板橋秀一（日本音響学会／編）, 1997

新聞記事のCopyright(C): 毎日新聞社, 1991-1994

形態素情報のCopyright(C): 技術研究組合新情報処理開発機構, 1996

ATR音素バランス503文のCopyright(C): 株式会社エイ・ティ・アール自動翻訳電話研究所, 1988

日本音響学会新聞記事読み上げ音声コーパス（16巻）

音声データベース著作権代表者：板橋秀一

編集：(社)日本音響学会音声データベース調査委員会

発行元：(社)日本音響学会東京都渋谷区代々木2-7-7

協力機関名：
大阪大学
京都工芸繊維大学
京都大学
静岡大学
信州大学
千葉大学
筑波大学
帝京科学大学
電気通信大学
東京大学
同志社大学
東北大学
豊橋技術科学大学
名古屋大学
奈良先端科学技術大学院大学
山形大学
山梨大学
龍谷大学
早稲田大学
電子技術総合研究所
株式会社エイ・ティ・アール音声翻訳通信研究所
ＮＴＴ基礎研究所
ＮＴＴデータ通信株式会社
ＮＴＴヒューマンインターフェース研究所音声情報研究部
ＮＴＴヒューマンインターフェース研究所古井特別研究室
沖電気工業株式会社
キヤノン株式会社
国際電信電話株式会社
三洋電機株式会社
シャープ株式会社
ソニー株式会社
株式会社東芝
日本電気株式会社
株式会社日立製作所
株式会社富士通研究所
松下技研株式会社
三菱電機株式会社
株式会社明電舎
株式会社リコー

謝辞：
読み上げテキストと言語モデルは、情報処理学会音声言語情報処理研究連絡会、大語彙連続音声認識研究用データベースワーキンググループによって作成された。音声ファイルへのヘッダの付与はthe Spoken Natural Language Processing Group, National Institute of Standards and Technology, U.S.A.で開発された SPHERE packageを用いた。音声ファイルの圧縮にはTony Robinson(Cambridge University and SoftSound Limited)によって開発されたShorten圧縮技術を用いた。
上記グループおよび個人に感謝いたします。

CD-ROM作成：メディアドライブ株式会社

日本音響学会 新聞記事読み上げ音声コーパス

1 概要

2. 毎日新聞記事読み上げテキスト

3. ATR 音素バランス 503文

4. 転記

5. CD-ROMのファイル形式

日本音響学会新聞記事読み上げ音声コーパス