我使用 OpenAI 的新技術在我的筆記本電腦上轉錄音頻


圖像生成和模因生成程序 DALL-E 和強大的文本自動完成引擎 GPT-3 背後的公司 OpenAI 推出了一種新的開源神經網絡,旨在將音頻轉錄成書面文本(通過 TechCrunch)。 它被稱為耳語,並且 該公司說 它“在英語語音識別方面接近人類水平的魯棒性和準確性”,並且它還可以自動識別、轉錄和翻譯其他語言,如西班牙語、意大利語和日語。

作為一個經常錄製和轉錄採訪的人,我立刻被這個消息炒作了——我以為我可以編寫自己的應用程序來安全地直接從我的電腦上轉錄音頻。 雖然像 Otter.ai 和 Trint 這樣的基於雲的服務適用於大多數事情並且相對安全,但在某些採訪中,如果音頻文件遠離互聯網,我或我的消息來源會感覺更舒服。

使用它比我想像的更容易。 我已經在我的計算機上設置了 Python 和各種開發工具,因此安裝 Whisper 就像運行單個終端命令一樣簡單。 在 15 分鐘內,我能夠使用 Whisper 轉錄我錄製的測試音頻片段。 對於尚未安裝 Python、FFmpeg、Xcode 和 Homebrew 的相對技術嫻熟的人來說,可能需要接近一兩個小時。 不過,已經有人致力於使該過程更加簡單和用戶友好,我們將在稍後討論。

命令行應用程序顯然並不適合所有人,但對於一些相對複雜的工作來說,Whisper 非常易於使用。

命令行應用程序顯然並不適合所有人,但對於一些相對複雜的工作來說,Whisper 非常易於使用。

而 OpenAI 絕對認為這個用例是一種可能性,很明顯,該公司主要針對此版本的研究人員和開發人員。 在 宣布 Whisper 的博文,該團隊表示其代碼可以“作為構建有用應用程序和進一步研究強大語音處理的基礎”,並希望“Whisper 的高精度和易用性將允許開發人員將語音接口添加到更廣泛的集合中。應用程序。” 然而,這種方法仍然值得注意——該公司對其最受歡迎的機器學習項目(如 DALL-E 或 GPT-3)的訪問權限有限, 引用一個願望 “了解更多關於實際使用的信息,並繼續迭代我們的安全系統。”

圖片顯示了一個文本文件,其中包含 Yung Gravy 的歌曲“Betty (Get Money)”的轉錄歌詞。 轉錄包含許多不准確之處。

如果您使用它們來撰寫文章,Whisper 生成的文本文件也不是最容易閱讀的。

還有一個事實是,對於大多數人來說,安裝 Whisper 並不是一個用戶友好的過程。 然而,記者 Peter Sterne 與 GitHub 開發者倡導者 Christina Warren 合作 嘗試解決這個問題,宣布他們正在基於 Whisper 的機器學習模型創建“免費、安全且易於使用的記者轉錄應用程序”。 我與 Sterne 進行了交談,他說他認為這個名為 Stage Whisper 的程序應該存在,因為他對它進行了一些採訪並確定它是“我用過的最好的轉錄,除了人類轉錄器。”

我將 Whisper 生成的轉錄與 Otter.ai 和 Trint 為同一文件輸出的轉錄進行了比較,我會說它是相對可比的。 所有這些錯誤中都有足夠多的錯誤,以至於我永遠不會在不仔細檢查音頻的情況下將它們的引用複制並粘貼到文章中(當然,無論如何,這都是最佳實踐,無論您使用什麼服務)。 但是 Whisper 的版本絕對適合我。 我可以搜索它以找到我需要的部分,然後手動仔細檢查這些部分。 理論上,Stage Whisper 的性能應該完全相同,因為它將使用相同的模型,只是帶有一個 GUI。

Sterne 承認,蘋果和谷歌的技術可能會在幾年內讓 Stage Whisper 過時——Pixel 的錄音機應用程序多年來一直能夠進行離線轉錄,並且該功能的一個版本開始出現 推廣到其他一些 Android 設備,Apple 內置了離線聽寫功能 iOS (儘管目前還沒有一種用它來實際轉錄音頻文件的好方法)。 “但我們不能等那麼久,”斯特恩說。 “像我們這樣的記者今天需要優秀的自動轉錄應用程序。” 他希望在兩週內準備好基於 Whisper 的應用程序的基本版本。

需要明確的是,Whisper 可能不會完全淘汰 Otter.ai 和 Trint 等基於雲的服務,無論它使用起來多麼容易。 一方面,OpenAI 的模型缺少傳統轉錄服務的最大特徵之一:能夠標記誰說了什麼。 Sterne 說 Stage Whisper 可能不會支持這個功能:“我們沒有開發自己的機器學習模型。”

雲只是別人的電腦——這可能意味著它要快得多

在您獲得本地處理的好處的同時,您也獲得了缺點。 主要的一點是,您的筆記本電腦幾乎可以肯定比專業轉錄服務使用的計算機強大得多。 例如,我將 24 分鐘採訪的音頻輸入 Whisper,運行在我的 M1 MacBook Pro 上; 轉錄整個文件大約需要 52 分鐘。 (是的,我確實確保它使用的是 Apple Silicon 版本的 Python 而不是 Intel 版本。)Otter 在不到八分鐘的時間內吐出了一份成績單。

不過,OpenAI 的技術確實有一大優勢——價格。 如果您以專業的方式使用基於雲的訂閱服務,它們幾乎肯定會花錢(Otter 有免費套餐,但即將發生的變化將使其對經常轉錄內容的人變得不那麼有用),並且構建了轉錄功能-進入平台,如 微軟Word 或者 Pixel 要求您為單獨的軟件或硬件付費。 Stage Whisper 以及 Whisper 本身是免費的,可以在您已有的計算機上運行。

同樣,OpenAI 對 Whisper 寄予厚望,而不是將其作為安全轉錄應用程序的基礎——我對研究人員最終用它做什麼,或者他們將通過查看經過訓練的機器學習模型學到什麼感到非常興奮關於“從網絡收集的 680,000 小時多語言和多任務監督數據”。 但事實上,它在今天也恰好有一個真實的、實際的用途,這使得它更加令人興奮。



發佈留言