來源:直播吧2025-09-08 14:02
9月8日報道,GPU計算雲平臺的“明星”CloudRift最近在風口浪尖上。就在上個月,這家公司發布了一條消息,聲稱其旗下的GeForce RTX 5090和RTX PRO 6000顯卡,竟然出現了讓人哭笑不得的虛擬化故障。想必這讓許多用戶瞬間從滿懷期待轉為失望,顯卡在不經意間就“變身”成了死沈的鐵塊,無法使用。要想解決這個問題,CloudRift竟然開出了1000美元的獎金,真是“仗義”啊。
根據CloudRift的說法,在某些裝備有RTX 5090和RTX PRO 6000顯卡的服務器節點上,這些顯卡無緣無故地“罷工”,通常是在虛擬機運行幾天後,或者在啟動/關閉過程中,在大家完全沒有準備的情況下突然失靈。一旦出現這種情況,顯卡即刻變成“死物”,唯一的解決辦法就是重啟整個節點,真是讓人抓狂。
值得一提的是,CloudRift似乎把所有常見的問題都排查了一遍,包括那些被稱為“老黃歷”的IOMMU quirks、內核版本、驅動綁定、甚至libvirt配置錯誤。然而稀奇的是,自家的H100、B200和老款RTX 4090跑得還挺穩,反倒是這新鮮出爐的RTX顯卡們,非但沒幫忙,反而累壞了“家長”。
更令人吃驚的是,根據技術論壇Tom's Hardware的報告,Proxmox論壇和Level1Techs的用戶們也紛紛現身,聲討著類似的灼心問題。在一個典型的案例中,用戶提到他們的Windows虛擬機在關閉後驚悚地導致系統掛掉,哪怕操作系統重啟之後,GPU依舊“不聽話”。還有一位倒黴的Linux用戶同樣遭遇,關閉虛擬機時的FLR超時讓主機CPU像是被困住了一樣。“切換PCIe ASPM或ACS設置”等小把戲全都沒用,結果就是掉入了無盡的絕望深淵。
看來,CloudRift要麼是顯卡的“黑科技”,要麼是真正的“黑暗時代”的開端。希望看到有人敢於揭開這個謎題,拿下那1000美元的懸賞,別再讓用戶的虛擬環境生不如死。