在近日于上海新國際博覽中心圓滿落幕的VisionChina2025(上海)機器視覺展上,北京阿丘科技的產品總監李嘉悅帶來了一場別開生面的演講,主題聚焦于“大模型驅動的AI檢測范式變革:大模型、小模型與智能體的協同進化”。此次展會由機器視覺產業聯盟(CMVU)主辦,慕尼黑展覽(上海)有限公司承辦。
李嘉悅在演講伊始便介紹了自己的身份,并隨即展開了《大模型驅動的AI檢測范式變革:大模型、小模型與智能體的協同進化》的主題分享。她指出,2019年被視作工業AI視覺的元年,當時以小模型路線為主的CNN技術開始在早期客戶中得以應用。直至2024年,工業AI視覺一直在跨越鴻溝,逐漸在各大細分領域和市場普及,從頭部客戶逐漸覆蓋至腰部客戶,甚至在某些細分行業已成為標配。然而,盡管認知有所改變,AI檢測應用的增長速度卻相對緩慢,呈現出線性增長趨勢,這主要源于小模型技術路線存在的諸多問題,如樣本收集周期長、模型迭代周期長以及模型泛化能力差。
她進一步解釋道,工業缺陷樣本稀缺且收集周期長,非專業工程師在調優模型時常面臨不收斂的問題,導致AI落地周期延長。小模型的泛化能力不足,對于未見過的樣本往往無法準確識別,這又加劇了樣本收集的難題。這些問題成為制約AI檢測落地和增長的關鍵因素。不過,令人振奮的是,去年AI領域出現了重大技術突破,通用大模型如雨后春筍般涌現,從OpenAI的ChatGPT到豆包、Kimi,再到DeepSeek和Manus智能體,這些大模型引發了廣泛討論,標志著AI技術來到了突破點。
談及大模型在工業檢測中的應用,李嘉悅表示,存在兩種截然不同的聲音。一種保守觀點認為,大模型與工業檢測無關,無法適應工業場景嚴格的準確性要求;另一種激進觀點則認為,大模型能力強大,很快即可直接接入工廠,實現自動化質檢。而阿丘科技則認為,大模型將加速AI檢測范式的轉變,并與小模型形成協同關系。
在科普大模型、小模型、智能體的概念時,李嘉悅指出,小模型通常指傳統的深度學習網絡,如CNN等,參數規模較小,數據處理能力有限,對數據量和數據多樣性要求較高,且泛化性能相對較差。相比之下,大模型采用Transformer等架構,解決了小模型在長時間和遠距離依賴問題上的不足,參數規模龐大,能夠接收多模態數據,對數據中的噪聲和不一致性具有較強的魯棒性,具有出色的泛化性能。智能體則是大模型應用的一種包裝形式,可以自主完成一系列動作以達成目標。
在探討工業視覺如何運用大小模型時,李嘉悅表示,通用AI大模型雖然通過大量互聯網數據訓練,但在工業檢測中準確度通常較差。然而,有機會構建專門的工業檢測大模型,這類模型類似于行業大模型,能夠學習到各行各業、各種制造領域中不同產品的各種缺陷知識,在工業檢測領域具有很強的泛化能力。還有場景大模型,這類模型學習了一定規模的特定范圍內的知識,在準確度、處理速度和泛化能力方面表現出色。小模型則專注于學習特定的知識,優勢在于準確度高和推理速度快。智能體則可作為自主模型訓練的小助手,大幅降低模型迭代的難度和時間成本。
在介紹阿丘科技的AI模型產品布局時,李嘉悅表示,公司仍然保留小模型方向的產品,并提供開發工具套件,如AIDI等軟件工具型產品。對于場景大模型類產品,公司直接提供面向特定場景的端到端即插即用模型。工業檢測大模型產品也是今年研發的重點,稱為AQ-VLM,即阿丘的視覺語言模型,分為工業視覺大模型和通用缺陷生成模型兩個分支。智能體則更多集成到模型訓練開發平臺中,將人工重復性工作轉變為由智能體完成。
最后,李嘉悅分享了一個實踐案例,以更好地理解大小模型協同的概念。在金屬結構件檢測的場景中,針對明顯的缺陷,直接使用大模型進行檢測;對于不明顯但常見的缺陷,采用VLM加上微調的方法;對于不明顯且罕見的缺陷,采用生成式AI結合小模型和智能體的方法。她強調,這些模型的能力邊界是動態變化的,方案也保持一定的開放性。
本文鏈接:http://www.tebozhan.com/showinfo-45-12082-0.html大模型時代來臨,阿丘科技如何以AI檢測引領工業視覺新變革?
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com