5 月 17 日消息,科技媒體 WinBuzzer 昨日(5 月 16 日)發(fā)布博文,報(bào)道稱開(kāi)源大語(yǔ)言模型服務(wù)工具 Ollama 推出自主研發(fā)的多模態(tài) AI 定制引擎,擺脫對(duì) llama.cpp 框架的直接依賴。
llama.cpp 項(xiàng)目近期通過(guò) libmtmd 庫(kù)整合了全面視覺(jué)支持,而 Ollama 與其關(guān)系也引發(fā)社區(qū)討論。
Ollama 團(tuán)隊(duì)成員在 Hacker News 上澄清,Ollama 使用 golang 獨(dú)立開(kāi)發(fā),未直接借鑒 llama.cpp 的 C++ 實(shí)現(xiàn),并感謝社區(qū)反饋改進(jìn)技術(shù)。
Ollama 在官方聲明中指出,隨著 Meta 的 Llama 4、Google 的 Gemma 3、阿里巴巴的 Qwen 2.5 VL 以及 Mistral Small 3.1 等模型的復(fù)雜性增加,現(xiàn)有架構(gòu)難以滿足需求。
因此 Ollama 推出全新引擎,針對(duì)在本地推理精度上實(shí)現(xiàn)突破,尤其是在處理大圖像生成大量 token 時(shí)表現(xiàn)突出。
Ollama 引入圖像處理附加元數(shù)據(jù),優(yōu)化批量處理和位置數(shù)據(jù)管理,避免圖像分割錯(cuò)誤導(dǎo)致輸出質(zhì)量下降,此外,KVCache 優(yōu)化技術(shù)加速了 transformer 模型推理速度。
新引擎還大幅優(yōu)化內(nèi)存管理新增圖像緩存功能,確保圖像處理后可重復(fù)使用,避免提前丟棄。Ollama 還聯(lián)合 NVIDIA、AMD、Qualcomm、Intel 和 Microsoft 等硬件巨頭,通過(guò)精準(zhǔn)檢測(cè)硬件元數(shù)據(jù),優(yōu)化內(nèi)存估算。
針對(duì) Meta 的 Llama 4 Scout(1090 億參數(shù)混合專家模型 MoE)等模型,引擎還支持分塊注意力(chunked attention)和 2D 旋轉(zhuǎn)嵌入(2D rotary embedding)等技術(shù)。
Ollama 未來(lái)計(jì)劃支持更長(zhǎng)的上下文長(zhǎng)度、復(fù)雜推理過(guò)程及工具調(diào)用流式響應(yīng),進(jìn)一步提升本地 AI 模型的多功能性。
本文鏈接:http://www.tebozhan.com/showinfo-45-13010-0.htmlOllama 上線自研多模態(tài) AI 引擎:逐步擺脫 llama.cpp 框架依賴,本地推理性能飆升
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com