最近よくSNSで自動文字起こしに関する投稿を目にして「便利そうだなー」と思っていたところへちょうどインタビュー音源を文字に起こす必要が出てきたので、せっかくなので試してみました。
環境は「情報管理LOG」様のこちらの記事を参考に、Virtual Audio CableとGoogle音声入力でやってみました。
対象の音源は
・話者:4人(インタビュアー2人、回答者2人)
・録音場所:おそらくオフィスの会議室
で、みんな聴衆に聞かせるわけではなく対面している人と会話する形でしゃべっているので、ぼそっとしゃべったり笑い声が頻繁に入ったり語尾が不鮮明な場合有り・しゃべりのかぶり有りとまぁ割と普通のインタビュー音源です。
はてさて、どうなるでしょう。
環境を整え、文字起こし開始
Virtual Audio Cableをインストールして設定を整え、音声入力をオンにした状態で音源を再生してみました。
……
……無反応
ボリュームを最大にしてみても無反応。
音量ミキサーのダイアログを開くと反応はしているので再生はされているはずなのだけど…、うーむ?
音源自体の音量を上げてみる
ボリュームを最大にしてもまだ音源自体の音量が小さいのかと思い、「MP3Gain」を使用して音量を上げてみました。
すると……
Google音声入力が反応した!!
しかし、「東京」や「サーバー」などぽつぽつと単語が入力されるだけで、会話を文字に起こすには至らず。
うーん、まだ音量が小さいのだろうか。でもこれ以上音量を上げてもノイズまで大きくなるだけだろうし……
そもそも音声入力が反応したところだけ極端に音量が大きいということもなさそうです。
というところで今回は断念。
自動文字起こしに向く音源と向かない音源がある
元記事では人に聞かせる用にはきはきしゃべって録音した音源を使用していたようですし、おそらく上記のような音源や講演会などのように大勢の聴衆に聞かせるようはっきりしゃべったものを録音したような音源ならば問題なく起こせるのでしょう。
今回使用した音源のように普通の会話を録音したものはそのまま使用するのでは自動文字起こしには向かないようです。ノイズをカットしたり発声がクリアに聞こえるように編集したりすればどうにかなるのでしょうか。(私は音声関連詳しくないため今回はそこまでできなかったのですが)
なので、インタビュー音源や会議の議事録などを自動文字起こししたい人は録音の際(や録音した後)にちょっと工夫が必要かもしれませんね。