音声認識Python:音声をテキストに翻訳する方法は?



このブログでは、音声認識を使用して音声をテキストに変換するサンプルプログラムを使用して、Pythonでの音声認識の概念について説明します。

スピーチは、世界中で最も一般的なコミュニケーション手段です。世界の人口のほとんどは、互いに通信するためにスピーチに依存しています。モデルを構築していて、システムに音声に応答させたいという書面によるアプローチではなく、かなり困難になり、大量のデータを処理する必要があるとします。音声認識システムは、音声をテキストに翻訳することでこの障壁を克服します。このブログでは、音声認識について説明します Pythonのモジュール 。これが同じリストです:

音声認識はどのように機能しますか?

音声認識システムは、基本的に、話された発話をテキストに変換します。音声認識システムの実例はさまざまです。たとえば、siriは、音声を入力として受け取り、それをテキストに変換します。





音声認識システムを使用する利点は、リテラシーの障壁を克服することです。音声認識モデルは、発話に焦点を合わせているため、識字者と非識字者の両方にサービスを提供できます。

また、音声認識システムを使用して、世界中のすべての危機に瀕している言語の目録を作成することもできます。それはかなり興味深く、まったく複雑ではないように見えますが、音声認識システムは作成において多くの課題に直面しています。



音声認識が直面する課題 システム

音声に関しては変動の原因が非常に多いため、音声認識システムの作成は困難になります。

話し方

一人一人がアクセントを含め、さまざまな話し方をしています。ご存知のように、英語を話すためのアクセントも異なります。世界で最も一般的な言語を話すことになると、アメリカ英語、イギリス英語、および他の多くのアクセントがあります。発音はまた、音声認識システムが音声を完全に翻訳することを困難にする。



環境

環境は、システムにも多くのバックグラウンドノイズを追加します。講堂と比較して隔離された部屋では、バックグラウンドノイズに大きなばらつきがあります。エコーでさえ、システムに多くのノイズを追加する可能性があります。

スピーカーの特徴

老人の声は乳児の声と同じではないかもしれません。人のスピーチの特徴は、厳しさや明瞭さなど、多くの要因によって異なります。

言語の制約

一部の発話は、翻訳に関しては実行可能な意味を持たない場合があります。

これらの課題を克服した後、音声認識システムが音声をテキストに翻訳することはかなり達成可能です。音声認識がどのように機能するかがわかったので、別の方法を見てみましょう Pythonでの音声認識に利用できます。

Pythonでの音声認識に利用できるパッケージ

  • アピアイ

  • 音声認識

  • Google_speech_cloud

  • アッセンブリー

  • Pocketsphinx

  • Watson_developer_cloud

  • 白い

このブログでSpeechRecognitionパッケージの詳細を確認し、メモリレーンを調べて、音声認識システムが何年にもわたってどのように進化してきたかを理解しましょう。

音声認識の最初のプロトタイプは、実際にはおもちゃでした。 ラジオレックス 1920年代頃に来ました。犬小屋に犬が座っていて、誰かがレックスという言葉を発するとすぐに飛び出しました。

モデルの唯一の問題は、スプリングが約500Hzの範囲のエネルギーに敏感な電磁石に取り付けられていることでした。純粋に周波数検出器であるため、音声認識モデルとリモートで呼ぶことができます。

1962年、IBMは 靴箱 孤立した単語を認識し、いくつかの算術演算も実行できるモデル。

それから来ました ハーピー 1000語の語彙から接続された音声を認識することができたCMUから。 1980年代頃、人々は統計モデルを使い始め、最も使用された機械学習パラダイムの1つは隠れマルコフモデルでした。

Javaでの単純なハッシュマップの実装

ディープニューラルネットワークの導入後、ほとんどの音声認識モデルはニューラルネットワークで機能します。ニューラルネットワークではその可能性は想像を絶するものであり、語彙は最大1万語以上になる可能性があります。

PythonでSpeechRecognitionをインストールする方法は?

SpeechRecognitionパッケージをPythonでインストールするには、ターミナルで次のコマンドを実行すると、システムにインストールされます。

インストール-音声認識python-edureka

これに対する別のアプローチは、使用している場合はプロジェクトインタープリターからパッケージを追加することです。

パッケージには、基本的に魔法が発生する場所であるRecognizerクラスがあります。基本的には、音声を認識するために使用されるクラスです。以下は、さまざまなAPIを使用してさまざまなオーディオソースを読み取ることができる7つの方法です。

  • Recognition_bing()
  • Recognition_google()
  • Recognition_google_cloud()
  • Recognition_houndify()
  • Recognition_ibm()
  • Recognition_wit()
  • Recognition_sphinx()

これで、recognize_sphinxを使用して、音声認識システムをオフラインで実行することもできます。 Pocketsphinxのインストールが必要です。

音声認識をsrとしてインポートします。#レコグナイザークラスのインスタンスr = sr.Recognizer()

マイクからの入力の取得

マイクを使用するには、pyaudioモジュールもインストールする必要があります。オーディオファイルのような他の入力メソッドの代わりに、マイククラスを使用してマイクから入力音声を取得します。

ほとんどのプロジェクトでは、デフォルトのマイクを使用できます。ただし、デフォルトのマイクを使用したくない場合は、list_microphone_namesメソッドを使用して、マイク名のリストを取得できます。

マイクからの入力をキャプチャするには、listenメソッドを使用します。

sr.Microphone()をソースとしてsr r = sr.Recognizer()として音声認識をインポートします:audio = sr.listen(source)

PythonでPyaudioをインストールする方法は?

PythonにPyaudioをインストールするには、ターミナルで次のコマンドを実行するか、pycharmを使用している場合は、設定でプロジェクトインタープリターからパッケージを追加します。

使用事例

Pythonのspeechrecognitionモジュールを使用して音声を認識し、以下を実行するプログラムを作成します。

  1. 音声をテキストに変換する
  2. webbrowserモジュールを使用してURLを開く
  3. 音声認識を使用してクエリを渡し、URLを検索します

上記の問題ステートメントのプログラムは次のとおりです。

import Speech_recognition as sr import webbrowser as wb r1 = sr.Recognizer()r2 = sr.Recognizer()r3 = sr.Recognizer()with sr.Microphone()as source:print( '[search edureka:search youtube]') print( 'speak now')audio = r3.listen(source)if'edureka 'in r2.recognize_google(audio):r2 = sr.Recognizer()url =' https://www.edureka.co/ 'with sr .Microphone()as source:print( 'search your query')audio = r2.listen(source)try:get = r2.recognize_google(audio)print(get)wb.get()。open_new(url + get)except sr.UnknownValueError:print( 'error')ただし、sr.RequestError as e:print( 'failed'.format(e))if' video'in r1.recognize_google(audio):r1 = sr.Recognizer()url = ' https://www.youtube.com/results?search_query= 'ソースとしてsr.Microphone()を使用:print('ビデオを検索 ')audio = r2.listen(source)try:get = r1.recognize_google(audio )print(get)wb.get()。open_new(url + get)ただしsr.UnknownValueError:print( '理解できませんでした')sr.RequestError as e:print(結果を取得できませんでした '.format(e) )

画像に示されているような出力が得られます。 edurekaと言うと、url変数に書き込んだedurekaurlで検索するクエリを言うように求められます。 Pythonと言うと、次のWebページがブラウザで開かれます。

このブログでは、Pythonで音声認識を使用して、speechrecognitionパッケージを使用して音声をテキストに翻訳する方法について説明しました。 音声認識やオブジェクトの落胆などの概念のための時間の必要性になっています。 膨大な音声データをトレーニングおよびテストしてシステムを構築できる音声認識システムに想像を絶する可能性を提供します。 ディープニューラルネットワークでスキルを習得し、学習を開始します。

何か質問がありますか?コメントでそれらに言及してください、私たちはあなたに戻ります。