人們對(duì)生成式人工智能 (GenAI) 的興趣激增所造成的最大影響之一是,人們越來越意識(shí)到迫切需要更輕松地訪問基于關(guān)鍵技術(shù)的工具。允許簡單的語言輸入來驅(qū)動(dòng)數(shù)據(jù)的發(fā)現(xiàn)和分析或應(yīng)用程序和設(shè)備的操作可以說是像 ChatGPT 這樣的基礎(chǔ)模型和應(yīng)用程序正在實(shí)現(xiàn)的革命中最重要的部分。
雖然目前ChatGPU都集中在文本上,但下一個(gè)明顯的步驟是轉(zhuǎn)向語音輸入,這一過程已經(jīng)開始。 例如,OpenAI 的 Whisper 和 Google 的 Chirp 等工具將允許我們簡單地與應(yīng)用程序和設(shè)備直接對(duì)話,并執(zhí)行操作。
當(dāng)然,有些人會(huì)說,多年來我們已經(jīng)以語音輸入實(shí)現(xiàn)數(shù)字助理。 從蘋果的 Siri 到亞馬遜的 Alexa 和谷歌的 Assistant,許多人已經(jīng)習(xí)慣了使用語音與信息和應(yīng)用程序交互的概念。
但正如大型語言模型 (LLM) 和其他 GenAI 工具已經(jīng)徹底改變了“傳統(tǒng)”基于人工智能的分析和其他應(yīng)用程序的運(yùn)行方式一樣,下一代 GenAI 驅(qū)動(dòng)的語音助手也必將徹底重新設(shè)定我們對(duì)基于語音的互動(dòng)期望。
擁有真正強(qiáng)大的基于語音的交互將極大改變我們思考和使用計(jì)算設(shè)備、應(yīng)用程序和數(shù)據(jù)的方式。
為了使這個(gè)夢想成為現(xiàn)實(shí),需要將幾種不同的關(guān)鍵技術(shù)開發(fā)結(jié)合起來。首先,基于語音的交互工具需要進(jìn)行現(xiàn)代化改造,并使用最新一代 GenAI 基礎(chǔ)模型進(jìn)行訓(xùn)練。 同樣重要但鮮為人知的是,針對(duì)基于音頻接口的獨(dú)特要求進(jìn)行優(yōu)化的半導(dǎo)體芯片也需要不斷發(fā)展。
在芯片和IP開發(fā)的早期,音頻半導(dǎo)體面臨著始終開啟、始終傾聽并始終準(zhǔn)備在適當(dāng)?shù)挠|發(fā)詞(或聲音)時(shí)做出響應(yīng)的挑戰(zhàn)性任務(wù)。 他們還必須能夠區(qū)分單詞,理解它們的含義和上下文,并應(yīng)對(duì)不同口音、不同語言和其他音頻噪音的挑戰(zhàn),這些噪音通常會(huì)影響我們的環(huán)境。
Cadence 等公司及其 Tensilica IP 多年來一直致力于應(yīng)對(duì)這些挑戰(zhàn)以及更多挑戰(zhàn)。 該公司的一些早期工作支持語音觸發(fā)/單詞喚醒、自動(dòng)語音識(shí)別 (ASR) 和語音 ID 等功能。 現(xiàn)在,Cadence 正在開發(fā)更先進(jìn)的解決方案,以滿足基于人工智能的新型語音應(yīng)用的更苛刻要求,同時(shí)保持該類別一直以來的極低功耗。
滿足這些需求的最佳方法之一是通過稱為 DSP 或數(shù)字信號(hào)處理器的芯片架構(gòu)。 DSP 經(jīng)過優(yōu)化,可處理音頻,以實(shí)現(xiàn)噪聲消除、均衡、語音識(shí)別等功能,并且能夠以節(jié)能的方式完成這些任務(wù)。
Cadence 多年來一直在增強(qiáng)指令集架構(gòu) (ISA) 并開發(fā)軟件庫和 AI 工具流程,以有效映射神經(jīng)網(wǎng)絡(luò)以在其音頻 DSP IP 設(shè)計(jì)上運(yùn)行。 例如,該公司當(dāng)前的 Tensilica HiFi DSP 是智能揚(yáng)聲器系統(tǒng)、現(xiàn)代汽車信息娛樂系統(tǒng)等的關(guān)鍵部分。 該公司的 NNE100 IP 進(jìn)一步發(fā)揮了這些功能,可用于高級(jí)計(jì)算機(jī)視覺、駕駛員輔助和其他應(yīng)用。
大多數(shù)包含 Tensilica IP 的設(shè)計(jì)都是更大的 SoC(片上系統(tǒng))架構(gòu)的一部分,該架構(gòu)包含多個(gè)組件,包括 CPU 等。 Tensilica 組件充當(dāng)音頻加速器,可以幫助從 CPU 卸載某些任務(wù)和工作負(fù)載,以便設(shè)備能夠更高效地運(yùn)行并延長電池壽命。 隨著基于音頻的應(yīng)用在設(shè)備中變得越來越重要和要求越來越高,提高效率和性能的需求變得至關(guān)重要。
這就是為什么設(shè)備供應(yīng)商和芯片提供商常常如此癡迷于稱為 PPA 的指標(biāo),即給定區(qū)域的功耗和性能。 在指定尺寸的芯片設(shè)計(jì)中,TOPS越高越好。 但除了原始 TOPS 之外,考慮設(shè)計(jì)的整體效率也很重要,特別是對(duì)于電池供電的設(shè)備。
如上所述,實(shí)現(xiàn)突破性語音應(yīng)用的關(guān)鍵是通過先進(jìn)軟件和芯片的結(jié)合。 其中一個(gè)關(guān)鍵部分是提供允許軟件開發(fā)人員可能不了解或不了解 DSP 和其他音頻芯片架構(gòu)的復(fù)雜性,無法充分利用其功能。 這些類型的橋接工具讓開發(fā)人員能夠利用當(dāng)今流行的人工智能軟件框架,包括 PyTorch、TensorFlow 等,并讓他們在這些框架中構(gòu)建的應(yīng)用程序在以音頻為中心的硬件上無縫運(yùn)行。 Cadence 的 Tensilica 也在這樣做,提供軟件工具來提供運(yùn)行所需的關(guān)鍵轉(zhuǎn)換層。
即使有了這些能力,技術(shù)進(jìn)化的步伐仍在繼續(xù),因此我們有理由期待所有這些領(lǐng)域的進(jìn)步。 例如,Tensilica 目前的產(chǎn)品都是在 GenAI 爆發(fā)之前構(gòu)建的,雖然它們可以很好地運(yùn)行許多音頻應(yīng)用程序,但專門針對(duì)基于 GenAI 的音頻模型進(jìn)行優(yōu)化的新架構(gòu)似乎是明智的一步。 下一代架構(gòu)可以支持基于交互式語音的用戶界面進(jìn)行查詢和響應(yīng)(這在現(xiàn)有設(shè)計(jì)中是不可能或不實(shí)用的),對(duì)于推動(dòng)零售、醫(yī)療保健和服務(wù)機(jī)器人助理等應(yīng)用程序的發(fā)展至關(guān)重要。
與我們的設(shè)備和應(yīng)用程序進(jìn)行基于語音的交互的總體機(jī)會(huì)絕對(duì)是巨大的。 真正的智能機(jī)器和軟件的概念允許普通人以直觀的方式與它們交互,直到最近才出現(xiàn)在科幻小說領(lǐng)域。 然而,隨著我們開始看到的進(jìn)步類型,很明顯,音頻驅(qū)動(dòng)的操作和請求將成為我們近期未來的重要組成部分。
本文鏈接:http://www.tebozhan.com/showinfo-27-9720-0.html音頻DSP和AI將迅速興起
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com