小心悄悄話被 AI 聽見?。▏u)最近國外一款可以讀唇語的 AI 軟件火了!
具體效果如下:
紅毯上布萊克?萊弗利小聲說:“好緊張”,笑著說話時肉眼很難分辨唇語,但 AI 可以。
乍一看只能看見一排白牙(bushi)的侃爺,唇語也能被輕松破解。
看完后網友們開始紛紛評論,大開腦洞:
求“聯名”型網友:快把它和 Siri 結合一下吧!這樣我就不用像小傻子一樣對著電腦大喊了!
測評型網友:我想用它試試“座機畫質”的視頻!
擔心安全型網友:我有點害怕,我想戴口罩了。(嗚嗚)
量子位整理了一些視頻,為大家親測了一下 Readtheirlips 的使用效果。
先試了一下阿爾特曼在斯坦福的訪談視頻,把生成的文本和原始對話對照了一下,內容完美契合~
而面對小表情比較多的老馬,Readtheirlips 的發揮依舊穩定。
不過以上兩個視頻都是人物全程正臉對著鏡頭的。
換成了說話時愛比劃的小扎,Readtheirlips 直接顯示錯誤。(視頻中人物不是全程正臉)
而主角換成卡帕西之后,因為他說話太快,生成的文本出現了識別錯誤的情況。(左側為 Readtheirlips 生成,右側為文字處理軟件生成)
最后,我們嘗試著上傳了一個 16 分鐘的視頻,Readtheirlips 直接顯示錯誤,無法識別內容。
總結一下:
Readtheirlips 識別視頻的時間在一分鐘左右。
就像他們標明的那樣如果人物的正臉不能正對鏡頭,那么模型就很難給出正確答案。
而面對語速過快的視頻內容,Readtheirlips 只能識別出其中的一些內容。
對此,團隊成員回應道:
是的,我們還沒有研究到這里,但是會很快解決這個問題!
而關于上傳視頻的時長限制,他們這么說:
現在只支持 3 分鐘以內的視頻,但是以后我們會一點一點往上提升的!
看完親測視頻,咱們也來嘮一下 Readtheirlips 的工作原理。
看看它是怎么讀取人類唇語的:
首先,研究團隊用大量的標注數據(已知的嘴唇運動動作及其對應的文本內容)來對模型進行訓練。
在此基礎上,用戶要上傳一段視頻,這段視頻要包含說話者的面部特寫,尤其是嘴部動作。
然后模型會對視頻進行嘴部運動的分析:先是通過面部檢測識別嘴唇的位置,然后再提取嘴唇的幾何特征,(形狀、開合程度、運動軌跡等),最后分析嘴唇在說話過程中的動態變化。(速度、方向和形狀變化)
之后,模型會將提取的嘴唇特征與訓練數據中的特征進行匹配,來識別出視頻中人物所說的內容。
將識別出的單詞或短語組合成完整的句子,進行一下上下文理解,確保語法和語義的正確性。
最終將識別出的內容輸出為文本形式。
Readtheirlips 的開發團隊 Symphonic Labs 是一家初創公司。
領英上顯示它今年 4 月份才剛剛成立,截至目前,公司人數不到 10 人。
他們之前還研發過一款通過閱讀唇語即可完成實時文本轉錄的軟件 Symphonic
兩款軟件的試玩鏈接都已附上,感興趣的朋友們可以去嘗試一下~
Readtheirlips 試玩鏈接:
https://www.readtheirlips.com/
Symphonic 試玩鏈接:
https://symphoniclabs.com/
參考鏈接:
https://x.com/crsamra/status/1833494380357013879
本文來自微信公眾號:微信公眾號(ID:QbitAI),作者:關注前沿科技
本文鏈接:http://www.tebozhan.com/showinfo-45-7161-0.htmlAI 能「看懂」你的唇語,悄悄話不再安全
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com