メモ001 音声認識について

トップ > メモ

はじめに

　インタビュー取材や記事にまとめるという日々の業務において、文字起こし（テープ起こし）は基本的なものである。この部分をコンピュータ上で自動的にできないかについて調べてみたので、メモとして残す。

［課題］

スマートフォンなどで音声入力が精度よくできるようになっているようだ。しかし、専門用語については、うまく音声認識ができないように感じる。語彙の問題だとすれば、辞書データを追加および編集することができると精度向上につながるのではないか。

［仮説］

何かよい音声認識用のソフトウェアがあるのではないか。辞書に語彙を追加できる必要がある。

［行ったこと］

インターネットで検索してみた。

［結果］

「大語彙連続音声認識エンジン Julius」（京都大学河原研究室、奈良先端科学技術大学院大学鹿野研究室、名古屋工業大学 Julius開発チーム）を発見。辞書ファイルを追記できること、オープンソースソフトウェアであり「学術用途・商用を含め，利用に関して特に制限はありません」とのこと。

参考URL

https://github.com/julius-speech/julius

http://julius.osdn/

　パソコンのマイク入力からの認識ではなく、音声ファイルを使いたかった。そのために、ファイル形式を変更する必要があった。


//mp3ファイルを、wav形式に変更
sox （変更前ファイル名）.mp3 （変更後ファイル名）.wav

//実際にはこのような形
sox example_before.mp3 example_after.wav

//さらに、ステレオをモノラルに、サンプリングレートを指定のものに
sox example_after.wav  -c 1 -r 16000 example_after2.wav

参考URL

Julius 音声認識ソフト part2 録音音声認識実行 | ６０爺の手習い

Soxで音声形式を変換する(wav <--> aiff <--> au <--> wav)

　ダウンロードおよび試験的に音声認識を実行。現状では、そのまま文字起こしに使用するのは難しそうだ。ただし、６分の１程度の時間で処理が完了することから、辞書への語彙の追記などで、今後の精度向上や全体としての時間短縮に期待が持てる。

［今後の方向性］

辞書ファイルに単語を追加し、たとえば「オブラ」と発音されていたらOBLA、「ないそくそくふくじんたい」と発音されていたら内側側副靱帯が出るようにしたい。専門誌での取材後の記事作成の補助とするのを出発点として、うまく進むと、下記のことが考えられる。

・電子カルテでの入力の手間を省き、医療者が患者さんと関わる時間を増やしたり質を高める。

・体力測定や柔軟性などの計測、スポーツ医科学分野の実験ノートの入力の際に、省力化や時間短縮に。

・スポーツ医科学分野における会議録の作成の補助として。

2018年8月、浅野