12月25日消息,合體近日知名工程師Jeff Geerling完成了一項挑戰(zhàn),變身利用macOS 26.2最新的集群近萬系統(tǒng)特性,將四臺M3 Ultra Mac Studio成功合體,內(nèi)存打造出一臺擁有1.5TB統(tǒng)一內(nèi)存的硬件AI計算集群。
這次集群成功的成本關(guān)鍵在于macOS 26.2引入的一項核心功能RDMA over Thunderbolt 5,通過Thunderbolt 5接口,合體允許一臺Mac直接讀取另一臺的變身內(nèi)存,無需CPU干預(yù)。集群近萬
在Geekbench 6的內(nèi)存多核測試中,該集群輕松超越了Dell Pro Max with GB10和Framework Desktop,硬件雙精度浮點數(shù)性能更是成本達(dá)到了1TFLOPS以上,而閑置功耗低于10W。合體
在AI推理方面,變身單機(jī)運行Llama 3.2 3B模型時,集群近萬每秒可處理154.6個token;在運行大型Llama 3.1 70B模型時,每秒可維持14.1個token,這兩個測試的性能都遠(yuǎn)超其他對手。
此外,在嘗試運行DeepSeek R1 671B超大型模型時,其他系統(tǒng)均無法正常運行,而Mac Studio 集群憑借其1.5TB的統(tǒng)一內(nèi)存,完成了這一挑戰(zhàn)。
RDMA over Thunderbolt 5在這個AI集群中發(fā)揮了關(guān)鍵作用,在啟用RDMA后,內(nèi)存訪問延遲從TCP的300微秒降至50微秒以下。
在使用exo系統(tǒng)測試Qwen3 235B時,四臺設(shè)備每秒可處理31.9個token,比llama.cpp TCP快了一倍以上;DeepSeek V3.1更是達(dá)到了每秒32.5個token。
雖然RDMA表現(xiàn)出色,但在高負(fù)荷時偶爾會出現(xiàn)系統(tǒng)崩潰的情況
另外值得注意的是,由Mac Studio組成的AI集群總硬件成本約為40000美元(約合人民幣28萬元),相比其他兩個平臺,這一價格更貴。