【教學】開源AI免費上字幕 BUZZ操作教學 openai中文識別度超高!.srt檔直接輸出

過去上字幕可以用剪映等工具完成,但現在需要 VIP才能使用;

你也可以回去手動聽打字幕,除了非常耗時(10 分鐘影片可能要剪 1 小時),更是無聊!


隨著 AI 技術普及,如 ChatGPT、Gemini 等,字幕生成可以自動化,大幅節省創作者時間。

受益於OpenAI Whisper,我們可以利用開源的語言模型,直接生出逐字稿跟.srt的外掛字幕檔,再來精修。

已經有大神在Github放上圖形化的軟體讓你直接下載,免費使用,調用這些語言模型,就不用打Code。這個軟體就是BUZZ!

因為畫面眾多,文字不清楚可以直接看影片比較快

Buzz 的安裝教學

直接前往它的官方 GitHub 頁面,在頁面中會看到不同系統對應的版本下載連結。

如果你是 Mac 使用者,通常會看到 .dmg 檔案(Apple 晶片的話就選 Arm64 版本);而如果你是 Windows 用戶,則下載 .exe 安裝檔就可以了。下載完成後,只要像安裝其他應用程式一樣,雙擊開啟並拖曳到「應用程式」資料夾或跟著指示一步步點選,就能把 Buzz 裝進你的電腦裡。整個流程大概不到 2 分鐘,沒有任何技術門檻,非常適合零基礎的使用者。

Github下載點

Buzz的基本操作

Buzz介面的樣子

安裝好 Buzz 之後,接下來就可以開始使用它來生成逐字稿字幕了。

步驟非常直覺:打開軟體後,看到左上角有一個「+」符號,點下去就可以匯入你的影片或音訊檔案。

Buzz 不需要手動轉成音訊檔,這對剪片創作者來說是超大的時間救星。

匯入素材後,接下來要做的是選擇 Whisper 模型。這是 Buzz 背後的 AI 引擎,像是它的「大腦」。模型越大,辨識出來的字幕準確度就越高,不過所需的運算時間也會更長。

一般來說,「Medium」模型是我常用的選擇,自身實測:如一支 4 分鐘的影片(帶背景音樂的成片),在 M4 Pro 晶片的 Mac 上大約只要 38 秒就能完成轉錄,非常快速。M1 Pro需要2分半才能轉出來。

生字幕後,會看到 Buzz 已經自動幫你整理出完整的逐字稿。如果有些地方出現小錯字或標點符號不準確,你可以直接在介面中編輯修改。

最後一步,只要點選「導出」並選擇 .SRT 格式,就能得到一份帶有時間軸的字幕檔。這份檔案不僅可以上傳到 YouTube 作為 CC 字幕,也能直接匯入 Arctime 進行後續微調,整個流程又快又準。

.srt檔案直接傳進Youtube的樣子

精修方法:使用 Arctime 調整更加速

arctime介面

摘要

  • 將 Buzz 生成的 .SRT 匯入 Arctime,可細調時間軸、文字與對齊。

  • 支援全選移動字幕、拖曳對齊波形,適合影片片段更新後的調整。

  • 若雜音太大導致辨識錯誤,可用 Buzz 輸出 .txt 再手動分段修正。

  • 最終輸出 .SRT 檔可直接上傳至 YouTube 作為 CC 字幕。

把 Buzz 自動產生的 .SRT 字幕檔匯入 Arctime。——有時候 AI 雖然已經幫你打好了大部分的字,但在「時間點」上可能會有些小誤差,例如字幕比聲音快了一兩秒,或者句子結束太晚,導致下一段聲音出現時字幕還沒消失。

用滑鼠輕輕拖曳字幕塊,就能快速微調時間軸,讓它和聲音對得更精準。

Arctime 最棒的地方是,支援批次操作。假設你後期在影片前面新增了片頭,整段影片都往後移動,這時不用一條條改時間,只要全選字幕一起拖曳,就能同步移動所有時間軸,非常省時。、它還有「波形視圖」,可以讓你看到聲音的高低變化,這對對齊口說內容超幫助——你只要把字幕開頭對準聲音波形的起點,幾乎就不會出錯。

當完成了所有調整之後,最後只要匯出一份乾淨的 .SRT 字幕檔,就大功告成了。

這個檔案能直接上傳到 YouTube 變成 CC 字幕,也可以提供給剪輯師、品牌客戶,甚至用在後續的翻譯和多語版本製作。

 

重點整理

整個流程就像是一條「AI + 人工」的合作生產線—Buzz 幫你自動完成大部分繁瑣的逐字稿工作

而 Arctime 則是最後的品質把關,讓整支影片的字幕看起來更專業、更自然。

用這種方式處理字幕,速度會比傳統手動打字快上好幾倍,準確度也能輕鬆達到 95% 以上。最重要的是,你不用再被字幕卡住創作流程,可以把時間留給真正重要的內容構思與影片拍攝。

對於想提升效率、又不想犧牲專業感的創作者來說,這套方法幾乎可以說是「零痛苦」的最佳解決方案。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

返回頂端