【Python】リアルタイム音声処理 – torchaudio, pydub, whisper の活用

こんにちは、JS2IIUです。
今回はAIモデルを使った音声処理についてみていきます。音声認識は日常生活になくてはならない技術ですね。Pythonからどのように扱えば良いか確認していきましょう。今回もよろしくお願いします。

1. はじめに
2. 必要なライブラリのインストール
3. 各ライブラリの特徴と用途
4. リアルタイム音声処理の実装
5. まとめと応用例
6. 参考リンク

1. はじめに

近年、音声データの活用が進み、リアルタイム音声処理技術が求められる場面が増えています。例えば、

リアルタイム字幕生成（音声をテキストに変換）
音声コマンドによる制御（音声認識を活用したアシスタント）
ノイズ除去や音声エフェクトの適用

Pythonでは、以下のライブラリを活用することで、これらの機能を効率的に実装できます。

torchaudio（PyTorchベースの音声処理ライブラリ）
pydub（音声ファイルの編集やフォーマット変換）
whisper（OpenAIの音声認識モデル）

本記事では、これらのライブラリを組み合わせて、リアルタイム音声処理を行う方法を詳しく解説します。

2. 必要なライブラリのインストール

まず、必要なライブラリをインストールしましょう。

Bash

pip install torch torchaudio pydub openai-whisper sounddevice numpy

また、ffmpegが必要となるため、インストールされていない場合は以下のコマンドでインストールしてください。

Mac: brew install ffmpeg
Ubuntu: sudo apt install ffmpeg
Windows: choco install ffmpeg

3. 各ライブラリの特徴と用途

3.1 torchaudio – 音声前処理と特徴抽出

torchaudioは、音声信号処理のための便利な機能を備えています。

音声ファイルの読み込みと変換
波形データの前処理（リサンプリング、正規化、フィルタリング）
スペクトログラム変換（MFCC, メルスペクトログラム）

3.2 pydub – 音声ファイルの編集

pydubは、音声ファイルのフォーマット変換や編集を簡単に行えます。

WAV, MP3, AAC などのフォーマット変換
音量調整、フェードイン・フェードアウト
カット、結合などの編集処理

3.3 Whisper – 高精度な音声認識

whisperは、OpenAIが開発した音声認識モデルで、多言語対応かつ高精度です。

音声をリアルタイムでテキスト化
翻訳機能の活用（英語から日本語への変換など）
GPU対応で高速処理可能

4. リアルタイム音声処理の実装

4.1 マイクからのリアルタイム音声取得

まず、マイクからリアルタイムで音声を取得する方法を示します。

Python

import sounddevice as sd
import numpy as np
import torchaudio

def callback(indata, frames, time, status):
    if status:
        print(status)
    # 取得した音声データをnumpy配列として出力
    audio_data = np.squeeze(indata)
    print("Received audio data")

# ストリーミング開始
with sd.InputStream(callback=callback, channels=1, samplerate=16000):
    input("Press Enter to stop...")

このコードでは、マイクからの入力をリアルタイムで取得し、callback関数内で処理します。

4.2 torchaudioを用いた音声前処理

torchaudioを用いて、取得した音声データのノイズ除去やリサンプリングを行います。

Python

def preprocess_audio(audio_tensor, sample_rate):
    # リサンプリング（16kHzに統一）
    transform = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    processed_audio = transform(audio_tensor)
    return processed_audio

この処理をマイク入力データに適用すれば、安定した音声処理が可能になります。

4.3 Whisperによるリアルタイム音声認識

次に、Whisperを使って取得した音声データをリアルタイムでテキスト化します。

Python

import whisper

model = whisper.load_model("small")  # 小さいモデルで高速化

def recognize_speech(audio_path):
    result = model.transcribe(audio_path, language="ja")
    print("Recognized text:", result["text"])

これをマイク入力と組み合わせることで、リアルタイム音声認識が可能になります。

5. まとめと応用例

今回紹介した方法を応用することで、

リアルタイム字幕生成（Whisperで文字起こしを行い、字幕として表示）
音声コマンドによる制御（認識結果をプログラムの制御に活用）
ノイズ除去付きの音声録音（torchaudioのフィルタリング機能を活用）

などのシステムを構築できます。

今後は、Whisperの翻訳機能を利用した多言語対応、ノイズ除去技術の強化などが考えられます。

6. 参考リンク

以上のリソースを参考にしながら、Pythonでのリアルタイム音声処理をぜひ試してみてください！

最後に、書籍のPRです。
24年9月に出版された「ハイパーモダンPython-信頼性の高いワークフローを構築するモダンテクニック」、Claudio Jolowicz著、嶋田、鈴木訳。開発環境の構築、プロジェクトの管理、テストに関して実践的な内容でとても参考になる一冊です。ぜひ手に取ってみてください。

最後まで読んでいただきありがとうございます。

月	火	水	木	金	土	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28