大模型預言(LLM)可以幫我們做很多事情,有很多有趣的玩法值得探索。本期筆者將帶領大家使用 Node.js + AssemblyAI + ChatGPT 總結視頻內容。
AssemblyAI 是一家專注于語音 AI 模型的公司,用于識別、理解和處理人類語音服務。2023 年第還融到了 5000 萬美元,將重點打造超人語音 AI 模型。
它們提供了 Node.js 版本的 SDK assemblyai,使用 TS 編寫的,用于與 AssemblyAI API 交互,使用起來超級簡單,該 API 支持異步和實時轉錄以及最新的 LeMUR 模型。下圖為 NPM 中的截圖,可看到周下載量在逐漸上升。
圖片
安裝 Node.js、創建一個項目并安裝 assemblyai 依賴
mkdir ai-video-summarizationcd ai-video-summarizationnpm init -ynpm i assemblyai -S
我們將使用 ES Modules 語法而不是 CommonJS,注意 package.json 中的 type 應設為 module。
// package.json{ ... "type": "module", ...}
因為需要調用大模型 API 接口,需要提前在 https://www.assemblyai.com/app/account 頁面中準備好 API Key 信息,提供了免費使用額度。
圖片
使用方法很簡單,可以傳輸本地的視頻,也可以指定遠程 URL 地址。
import { AssemblyAI } from 'assemblyai'import fsPromises from 'fs/promises'const client = new AssemblyAI({ apiKey: process.env.ASSEMBLYAI_API_KEY,})const run = async () => { try { const config = { audio: await fsPromises.readFile('/*這里替換為你的視頻地址*/videos/ai-ipad.mp4'), // audio_url: 'https://storage.googleapis.com/aai-web-samples/5_common_sports_injuries.mp3' // language_code: 'zh', } const transcript = await client.transcripts.transcribe(config) console.log(transcript.text) } catch (err) { console.error('error ', err) }}run()
示例中用的這個視頻為 “AI 加持的 iPad,通過手寫數學表達式即可解出答案”
運行 ASSEMBLYAI_API_KEY="你的 API Key 信息" node script.js 命令,生成的文本信息如下所示,準確性還可以,因為這個視頻相對短些,長一點的還沒有試過!
圖片
生成文本信息時是支持多語言翻譯的,有個 language_code 參數設置為 'zh' 即可,但是返回的結果看起來為繁體。
圖片
第一步提取視頻中的文本信息到這里就完成了。
第二步為總結提出的文本信息。一種方法是使用 AssemblyAI 提供的 LeMUR(LLM 提示音視頻框架)自動對其進行總結。
以下是 copy 的官方文檔的一個 Demo,你可以告訴 LeMUR 你期望的格式是什么,還有一些上下文信息。
const { response } = await client.lemur.task({ transcript_ids: [transcript.id], prompt: `Summarize the episode using the following format: **<topic header>** <topic summary> `, context: "An episode of the Lex Fridman podcast, in which he speaks with Guido van Rossum, the creator of the Python programming language"});console.log("LeMUR response", response);
但是這個 API 是收費的,沒有提供免費的嘗試額度。
ChatGPT 的 GPT4o 模型現在也很好用啊,并且還是免費的,如果想做一些總結了,可以借助 ChatGPT 在做一個總結。如下所示:
第一次總結:
圖片
第二次更簡短的總結:
圖片
關于 AssemblyAI 的更多用法可參考 API 文檔 https://www.assemblyai.com/docs,歡迎關注編程界,探索更多 AI 使用技巧!
本文鏈接:http://www.tebozhan.com/showinfo-26-94299-0.htmlNode.js 結合 AI 輕松總結音視頻內容
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 停止使用花哨技巧編寫“優雅”代碼!
下一篇: 大模型系列:提示詞管理