商湯開源NEO多模態模型架構,實現視覺、語言深層統一

新浪科技訊 12月2日下午消息,商湯實現視覺深層商湯科技發布并開源了與南洋理工大學 S-Lab合作研發的開源全新多模態模型架構——NEO,宣布從底層原理出發打破傳統“模塊化”范式的模態模型桎梏,通過核心架構層面的架構多模態深層融合,實現視覺和語言的商湯實現視覺深層深層統一,并在性能、開源效率和通用性上帶來整體突破。模態模型
據悉,架構在架構創新的商湯實現視覺深層驅動下,NEO展現了極高的開源數據效率——僅需業界同等性能模型1/10的數據量(3.9億圖像文本示例),便能開發出頂尖的模態模型視覺感知能力。無需依賴海量數據及額外視覺編碼器,架構其簡潔的商湯實現視覺深層架構便能在多項視覺理解任務中追平Qwen2-VL、InternVL3 等頂級模塊化旗艦模型。開源
此外,模態模型NEO還具備性能卓越且均衡的優勢,在MMMU、MMB、MMStar、SEED-I、POPE等多項公開權威評測中,NEO架構均斬獲高分,優于其他原生VLM綜合性能,真正實現了原生架構“精度無損”。
當前,業內主流的多模態模型大多遵循“視覺編碼器+投影器+語言模型”的模塊化范式。這種基于大語言模型(LLM)的擴展方式,雖然實現了圖像輸入的兼容,但本質上仍以語言為中心,圖像與語言的融合僅停留在數據層面。這種“拼湊”式的設計不僅學習效率低下,更限制了模型在復雜多模態場景下(比如涉及圖像細節捕捉或復雜空間結構理解)的處理能力。
而NEO架構則通過在注意力機制、位置編碼和語義映射三個關鍵維度的底層創新,讓模型天生具備了統一處理視覺與語言的能力。
具體而言,在原生圖塊嵌入(Native Patch Embedding)方面,這一架構摒棄了離散的圖像tokenizer,通過獨創的Patch Embedding Layer (PEL)自底向上構建從像素到詞元的連續映射。這種設計能更精細地捕捉圖像細節,從根本上突破了主流模型的圖像建模瓶頸。
在原生多頭注意力 (Native Multi-Head Attention)方面,針對不同模態特點,NEO在統一框架下實現了文本token的自回歸注意力和視覺token的雙向注意力并存。這種設計極大地提升了模型對空間結構關聯的利用率,從而更好地支撐復雜的圖文混合理解與推理。(文猛)
海量資訊、精準解讀,盡在新浪財經APP 責任編輯:何俊熹
相關文章:
- vivo S50系列發布:搭載高通驍龍8系旗艦芯片,售價2999元起
- 對于中國市場:黃仁勛最新表態!
- “最快量產車”易主:科尼賽克新超跑刷新拉古納塞卡賽道紀錄
- 被吉尼斯內涵!《GTA6》開發都多少年了
- CBA一周綜述:廣廈揭幕戰勝山西 京滬粵迎開門紅
- 首款國產eSIM手機!OPPO Find X9 Pro衛星通信版預售:6999元
- 小鵬女性機器人為啥走路如此輕盈 全裸揭曉答案
- OPPO Reno15首發全新實況圖:女生上手后感到驚訝 這功能肯定會火
- 限量1000塊!微星MEG X870E GODLIKE X EDITION主板圖賞
- 關愛自己!瑞慈成人全身體檢套餐239元大促:日常售價1079元
相關推薦:
- 田曦薇驚喜亮相vivo S50發布會:一襲白裙美翻了
- iPhone 18 Pro沖上熱搜榜:首發小號靈動島 屏占比更高
- OpenAI CEO奧特曼:普通大學學位的回報率 會比過去十年更快下降
- AMD最新回應Intel和NVIDIA合作:帶來更大定價壓力!
- 我國首批L3自動駕駛車型獲準上路!一文看懂自動駕駛5級的區別
- 《黑神話:悟空》制作人馮驥:中國用戶不覺得國外月亮圓
- 多端登錄要來了嗎!微信進行“多手機同時登錄”用戶調研
- 伊利富硒高鈣奶粉禮盒700gx2罐:59元大促
- 消費者承擔!戴爾、聯想、宏碁、華碩等宣布開始對PC漲價 手機廠商也要跟進
- 官方回應泡泡瑪特新品Logo誤印 POP MAET 消費者:錯印版具有收藏價值
