押さえておきたい!文字起こしツールの導入ポイント!

文字起こしツールや議事録作成ツールなど、いわゆる録音・録画されたデータをテキスト化するツールは、無料で提供されているものから企業に向けて提供されているものまで様々なものがあります。文字起こしツールの本質的な機能は、音声データを自動で文字起こししてテキスト化することです。


では、これらのツールは、テキスト化さえできたら良いのか?という疑問を持った方から、すでに導入検討を始めているという方に向けて今一度押さえておきたいポイントについて、機能面と非機能面の2つの大枠に分けてご紹介します。

機能面に関して

文字起こしをするだけのツールであれば、すでに様々なものが出回っています。ICレコーダーの音声データ(mp3)や動画(mp4)などの電子ファイルから文字起こしをする機能はもちろんのこと、今では会話中にマイクを通して入力される音声をリアルタイムに文字起こしする機能を備えたツールも出てきました。

その上で、前向きに導入を検討されている方にとっては、どのツールを導入すべきかを検討するに当たって「音声認識の精度」に着目されることが多いと思います。実は、よく注目される「音声認識の精度」については、多くのツールでAIの導入が進んでおり、大きな差がつきにくくなりつつあります。そのため、比較・導入検討するに当たっては、ツールそのものの使い勝手の良さなども確認しておきたいポイントといえます。

以下では、使い勝手の観点から文字起こしツールにおいて、注目すべき機能・性能を挙げています。

1.音声認識精度の向上

前置きとしてAIの導入が進んでいるため、音声認識の精度に差がつきにくいことについて触れていますが、この性能を向上する機能が搭載されているかは、長期的な視点から使い勝手を考える上で重要なポイントです。

音声データのテキスト化は、意図した通りにならないことがあります。次回同じ言葉を発した時にも、意図していないテキストが出力されてしまっては、記録確認が大変です。これに対処するため、誤って文字起こしされた音声データを修正して記録する「辞書登録」機能があると便利です。登録された辞書が豊富であれば、期待した文字起こしが可能になっていきます。業界ごとの専門用語などは、初回利用時に、誤変換されることがありますが、「辞書登録」を利用することで使い勝手がますます良くなっていきます。

「辞書登録」は、音声認識の精度を向上する上では、外せない機能といえます。

ワンポイント!
録音時に、マイクを使用すると音声認識精度が向上します。特に指向性のマイクを使用すると特定の話者のみの声を拾いやすくなるため、さらに音声認識精度が向上します。雑多な音声が少ないほど、音声認識の精度は向上するので、専用マイクがない場合でも、極力声を拾っている端末に向かって話すなどの工夫をしてみるとその違いが出てきます。

2.部分再生

前段で「辞書登録」を積極的に活用することをお勧めしているように、誤変換された文字起こしの訂正は、重要な作業です。しかし、文字起こしされたテキストを読むだけでは、誤変換結果から適切な言葉の推察が難しい場合があります。このとき、音声データも聞き返すことができれば、適切な言葉に修正しやすくなります。

そのときに役に立つのが、音声データの「部分再生」です。

誤変換されている文章を選んで再生することができれば、聞き返すポイントを絞ることができるため、長時間の音声データから誤変換された会話を探す時間がなくなります。ICレコーダーなどに記録した場合、ピンポイントで会話内容を聞き返すことは難しいですが、「部分再生」があれば、一部だけ聞き返すことも容易です。

3.音声データの変換内容

音声認識によって出力されるテキスト内容で気になるところは、文字の種類です。出力されるテキストは、最適化された文章で出力されると考える方も多いのではないでしょうか。日本語の文章は、様々な文字で構成されています。ひらがなの他にも漢字やカタカナ、数字、アルファベットなどさまざまな文字の種類があります。変換されたテキストが、ひらがなのみでは、読みにくいと感じてしまうはずです。また、ひらがなだけの文章ではなくても、意図した漢字やアルファベット、数字が使用されているかで、読みやすさは格段に変わると思います。

たとえば、以下の原稿を音声入力したとき

原稿: 「今年は2021年です。IOCの発表によれば、7月23日に東京オリンピック開幕です。」

 

変換①: 「今年はにせんにじゅういち年です。アイオーシーの発表によれば、7月23日に東京オリンピック開幕です。」
変換②: 「ことしはにせんにじゅういちねんです。あいおーしーのはっぴょうによれば、しちがつにじゅうさんにちにとうきょうおりんぴっくかいまくです。」
変換③: 「今年は2021年です。IOCの発表によれば、7月23日に東京オリンピック開幕です。」

 

声に出して読めば、どれも読むことができますが、テキストの確認のしやすさでは、変換③で出力されるのが、イメージに近いのではないでしょうか。
文字起こしされた文章が、発話時のイメージに近いかは、確認しておきたいポイントです。

4.文字起こしされたテキストのファイル出力

会議の記録として議事録を作成したいときに、録音データから文字起こしされたテキストは非常に便利です。このテキストをCSVファイルなどに出力することができれば、議事録作成を効率化できます。また、議事録作成の支援機能として、議事録のフォーマットへテキストデータを出力することができれば、CSVファイルなどからテキストをコピーする手間を省略することもできます。

録音されたデータを議事録作成など二次活用するための文字起こしなので、「ファイル出力」が可能であるかは、確認しておきたいポイントです。

5.Web会議システムとの連携

新型コロナウイルス感染症(COVID-19)をきっかけに、働き方が大きく変わってきましたが、特に大きな変化の一つとして、会議や打合せの方法があげられます。これまでは、社内会議やお客様訪問に当たっては、対面形式での打合せが主流でしたが、Web会議システムを利用した形式に変わった方も多いのではないでしょうか。こうした環境では、音声が聞き取りにくいことは、会議の妨げとなってしまいます。

文字起こしツールと「Web会議システムを連携」して、発話者の音声データをテキストへリアルタイムに変換することができれば、発言内容を視覚からも確認できるようになります。

非機能面に関して

上記のような機能面に関しては、押さえていたとしても、改めて言われると見落としてしまっているのが、非機能面に関することです。文字起こしツールをさまざまな利用シーンで活用するにあたって、利用できるデバイスの種類やセキュリティに関しては、重要なポイントといえます。

1.デバイスの種類

・PC

会議において、ノートパソコンを持ち込む方も多いのではないでしょうか。ノートパソコンであれば、内蔵マイクから音声を拾って録音が可能になります。ただし、内蔵マイクの場合、ノートパソコンの前にいる人の声は拾いやすいですが、周りの人の声は拾いにくいので、マイクを利用することをお勧めします。音声を拾えなければ、文字起こしもできませんのでマイクを利用するときも、配置などの意識が必要になってきます。
この点に関しては、デスクトップタイプのパソコンを利用されている場合、マイク付きイヤホンを利用している方も多いので、特定の話者の声のみを拾いやすく、気にされることが少ないかもしれません。

・スマートフォン

文字起こしツールを録音ツールとして考えたとき、外出先での利用シーンが思い浮かびます。
持ち運びの観点から考えると、スマートフォンで利用できるかは一つのポイントだと思います。

ノートパソコンが軽くなって持ち運びしやすくなったとはいえ、営業先に持っていくことにわずらわしさを感じる方もいらっしゃるのではないでしょうか。その点、持ち運びが楽なICレコーダーを利用するという方も多いことと思います。その場合、議事録を作成しようとすると録音された音声を文字起こしする作業が必要になります。
録音している音声をリアルタイムに文字起こししてくれるツールがあれば、その手間もなく、テキストを確認して議事録の作成が可能です。スマートフォンでテキストを確認するのは難しいと思いますので、オフィスに戻って自分のパソコンから確認するなど、それぞれのデバイスのメリットを生かしながらツールを活用する場面を検討してみてはどうでしょうか。

2.セキュリティ

機密情報に関して触れる会議などで文字起こしツールを利用することを想定されている方にとっては、録音中の音声データの盗聴防止についても押さえておきたいポイントです。

・通信の暗号化

通信データの暗号化については、SSL/TLSによって実現することができます。
録音した会話データを暗号化して通信することによって、盗聴や改ざんを防止します。

ワンポイント!
SSLとは、Secure Sockets Layerの略称で、通信内容の機密性を確保するためのプロトコルです。Webブラウザ上では、「https://~」で始まるURLやURL入力欄の脇に鍵マークが表示されているのが特徴です。
よく合わせて表記されるTLSとは、Transport Layer Securityの略称で、SSLの脆弱性に対処したプロトコルです。

まとめ

文字起こしツールの導入にあたって、押さえておきたいポイントは整理できたでしょうか。上記にあげたポイント以外にも、各社いろいろな工夫を実装しています。文字起こしツールを、記録された音声データを書き起こしたり、会話内容をリアルタイムにテキスト化してくれるツールとしてだけ見るのではなく、各社が提供している機能を利用することで、貴社内で便利になるビジネスシーンがないか検討してみると活用の幅が広がることと思います。ここで触れた議事録作成への応用やWeb会議システム連携以外にも貴社にあった使い方を検討してみてはいかがでしょうか。

机上で検討するのは難しいと思われる場合には、気になった文字起こしツールやサービスのトライアルができないかを問い合わせてみるのも一つの方法だと思います。トライアルで疑問点の解消や活用できるビジネスシーンを検討して、導入していくことをおすすめします。

文字起こしに限らず、さまざまな機能にAIが導入される時代になってきていますが、それらを利用するのは、あくまで人です。人にとって安心・安全で活用しやすいかという視点は、今後も重要と思います。

NCS&Aでは、上記のポイントを踏まえた音声データ変換ツール〈Ai PLANET-VoiceConvert〉の提供を開始しました。
貴社内での導入を検討するにあたって、「どのような機能があるのか知りたい」「デモを見てみたい」といったお考えをお持ちの方は、一度お問い合わせください。

TOPに戻る