
Rogue AmoebaのAudio Hijackは、Macポッドキャスターにとって長年欠かせないツールでした1。この万能オーディオユーティリティは、Macのマイクだけでなく、システム上で動作しているあらゆるアプリから音声を拾うことができます。エフェクトを適用したり、様々な形式で録音したり、さらには音声をライブ配信したりすることも可能です。そして今回、最新版4.3がリリースされ、Audio Hijackに新たな機能が追加されました。それは、音声トランスクリプション機能です。
OpenAIのWhisperフレームワークを活用することで、Audio Hijackは録音したあらゆる音声からテキストトランスクリプトを生成できるようになりました。このプロセスは以前から可能でしたが(Jasonのワークフローに関する長文の記事をご覧ください)、実現には多くの調整と複数のツールが必要でした。Audio Hijackのブロックを既存のセッションに挿入するだけで、はるかに簡単になりました。複数の音源を録音する場合、それぞれに適切なラベルを付けることもできます。ただし、Zoom通話の相手側のように、1つの入力から複数の人を録音する場合は、参加者を区別できません。
各人が自分のマシンでAudio Hijackを起動してトランスクリプトを作成すれば、トランスクリプトをまとめることも可能でしょう。ただし、現時点ではAudio Hijackではトランスクリプトの行にソースとタイムスタンプのタグしか付けられません。タイムスタンプはセッションの経過時間に基づいて算出されるため、処理が少し複雑になります。将来のバージョンではシステムクロックも使用できるようになることを期待しています。

AI ベースの文字起こしはここ数年で飛躍的に成長しており、特にポッドキャスターにとって大きな恩恵となっています。ポッドキャスターは、長い時間をかけて手作業で作成したり、微調整や編集を必要とする後処理ツールを使用したりすることなく、番組のアクセス可能で検索可能なアーカイブを作成したいと考えているからです。
MacBook Airの内蔵マイクだけを使って、Transcribeブロックの簡単なテストをしてみました。結果は100%正確ではないにせよ、非常に良好で、今後いくつかのポッドキャストで試すのが楽しみです。
Audio Hijack 4.3 は、Audio Hijack 4 のすべての所有者に無料でアップデートされます。新規顧客の場合は 64 ドル、Audio Hijack 3 からアップデートする場合は 29 ドルかかります。文字起こし機能は Intel ベースの Mac でも動作しますが、Rogue Amoeba では最高のエクスペリエンスを実現するために Apple Silicon Mac を推奨しています。
- 完全な開示:Rogue Amoeba は過去に Six Colors のスポンサーを務めており、CEO の Paul Kafasis は個人的な友人です。↩
[ダン・モーレンはSix Colorsの東海岸支局長です。Mastodonでは@ [email protected]、メールでは[email protected]で連絡を取ることができます。彼の最新小説、SFスパイ・スリラー『アルマゲドン・プロトコル』は現在発売中です。 ]
このような記事がお気に召しましたら、ぜひSix Colorsの購読者になって私たちを応援してください。購読者は、限定ポッドキャスト、メンバー限定記事、そして特別なコミュニティにアクセスできます。