ガジェット@2ちゃんまとめ

Just another WordPress site

Microsoft、音声認識システムが「人と同等」レベルに到達したと発表

   

IT速報 http://ift.tt/2wrxKhq

Microsoftは米国時間8月21日、同社の音声認識システムが、プロの速記者に匹敵するとされる5.1%の単語誤り率に達したと発表した。

Microsoftは2016年、5.9%の単語誤り率で「ヒューマンパリティ(人間と同程度)」に到達したと考えたが、IBMの研究員らは、そこまでのレベルに達したとするには、IBMの最高記録である5.5%をやや上回る5.1%に達する必要があると主張した。

IBMが実施した速記者に関する研究では、数人に会話を何回か聞いてもらい、もっとも優秀な速記者の結果が選ばれた。

Microsoftのシステムは、2016年のテストと同様に、データセット「Switchboard」コーパスを使って測定された。Switchboardコーパスは、見知らぬ者同士が電話越しに米国英語で交わした約2400の双方向の会話から成るデータセットだ。このテストは、スポーツから政治までさまざまなテーマについて交わされた会話を文字化するものだ。

MicrosoftのテクニカルフェローであるXuedong Huang氏は、次のように述べている。「音響モデリングを改善するため、CNN-BLSTM(Convolutional Neural Network combined with Bidirectional Long-Short-Term Memory:畳み込みニューラルネットワークと双方向長短期記憶の組み合わせ)モデルを追加した。また、複数の音響モデルに基づく予測を組み合わせるアプローチを、フレーム/セノンレベルと単語レベルの両方で取り入れた」

「さらに、会話セッションの全履歴を使って、会話の次の流れを予測させた。これによって、音声認識システムの言語モデルが強化され、会話のテーマやその場の文脈に有効に適応できるようになった」

続きはソース元から
http://ift.tt/2wAe24g

http://ift.tt/2wv4CpI

続きを読む

 - 未分類 ,

×