上周商湯的最新剛靠軟銀融資的新聞,給國內的AI創業公司們重新找回了點“關注度”。但就在前幾天早上,引領AI走向現實世界的英偉達又發布新產品了,這對于很多喊著要做的AI創業公司都是一個最壞的消息。
原因很簡單,在本周四舉辦的GTC(GPU技術峰會)2018的日本站上英偉達公布了全新一代的云端高效率版“AI推斷加速器”——NVIDIA TESLA T4。
TESLA T4有多強?
先來說說TESLA T4的定位,它實際是一款云端專用的GPU加速卡,個頭很小(半高PCIE卡),但是性能很強。
根據英偉達官方公布的數字:它的單浮點(FP32)運算能力能達到8.1TFLOPs,混合精度運算能力能夠達到65 FP16 TFLOPs,INT8精度運算能力能夠達到130TOPs,INT4精度運算能力能夠達到260TOPs。同時,據傳英偉達也將在這款產品上嘗試全新的INT1運算模式,根據INT4運算能力推算,INT1的運算能力可能會達到史無前例的1080TOPs。
盡性能如此強勁,但TESLA T4真正追求的是整體系統效率而不是絕對性能。
這也符合英偉達“英文字母+4”這一命名規則的歷史其他產品(例如M4和P4)。相比單卡更加強勁的TESLA家族其他型號,這幾款產品的思路在明顯不過——在最高效簡潔的供電條件上,搭配最高效的核心配置,從而最終實現全服務器系統最高的工作效率。
以已經被證實在AI圖像“推斷”處理中更高效的INT8運算能力來說,T4達到了130TOPs,“上一代(Volta架構無該定位產品)”的P4只有區區22TOPs。這意味著,在不到兩年的時間里,性能和能效比都增長了6倍。
這個速度是最輝煌時期的“摩爾定律”(18個月翻一倍)都不能比擬的。
性能之外,“4”系列GPU加速卡還有3個必定遵循的設計原則:最高功耗始終不超過PCI-E供電最高的75W;始終采用更加緊湊的半高單卡槽設計(便于密集部署);始終采用無風扇的全被動散熱方案。三個原則最終進一步加強了產品的實際效能。
當然,單個計算單元性能較弱的問題在實際應用中也有所影響,就拿GPU加速卡最常用的AI領域中的“模型訓練(通過大量數據和合適的神經網絡讓計算機學會規律)”來說,更大的計算單元和存儲能力(容量、讀取速度),幾何倍數級優于小的。
但訓練不行,AI還需要“推斷(根據提前生成的神經網絡規律,輸出結果)”,這一部分操作并不需要特別大的計算單元和存儲能力,而且在一類應用的AI算法、神經網絡訓練到一定程度的基礎上,實際上需要的都是“推斷”能力。
你也可以形象的理解為,“訓練”是一個不斷開荒和優化種植技術的過程,但最終的農田管理和農作物的管理,實際上都是“推斷”來負責的。
以目前AI應用領域“走在最前”的安防領域來說,國內的一眾巨頭企業,如海康威視、大華等很早都采用了英偉達的技術方案,其中就包括大量安裝有TESLA P4的云端處理器。
也有不少AI創業公司,也正在研究進軍安防領域的可能性。除了云市場,英偉達還在端市場部署了Jetson系列產品,相信不久的將來“圖靈”架構也必然會更新到Jetson平臺上,最終對絕大多數、想要造芯片的AI創業公司,形成致命威脅。
NVIDIA正在加速收割AI芯片?
在很多AI公司的宣傳資料、券商、調研機構的報告中,對于AI芯片市場,總會有一句類似這樣的判斷——英偉達是“AI訓練”領域的霸主,相比之下“AI推斷”市場還有更多的機會。
但事情真的是這樣嗎?尤其是在看完TESLA T4之后,你還認為這是個可以信賴的說法嗎?
至少我不這樣認為,尤其是老黃在SIGGRAPH(計算機圖形學會議)上發布了全新的“圖靈”架構之后,我們實際上可以關注到一個很重要的趨勢——本身偏向通用處理器的GPU,正在愈發“專用化”。
以最新的RTX 2080Ti為例,分別對應AI處理的Tensor Core、對應光線追蹤處理的RT Core,總數就達到了612個。這也可以作為英偉達應對“摩爾定律”即將失效的一個手段,既然制程和基礎技術無法帶來提升,我們就從芯片的架構和效率上尋找空間。
再“巧”不過的是,最近幾年GPU終于將幻想了數十年的人工智能變成了現實,并且在多方的共同努力下,愈發開枝散葉。
盡管英偉達自己的確從來沒有說過“壟斷市場”、“唯我獨尊”之類的話語。包括著名的“皮衣教主”,還是一如既往的和藹可親。但英偉達的技術研發實力依舊在那里,步伐更是從未停歇,不斷向AI界輸出全新的理念。
英偉達官方的研究表明,INT8運算模式能夠大幅提高AI圖像處理的速率
就例如從TESLA P4 GPU加速卡開始支持的INT8運算,它實際上是一種更低精度的運算方式,但根據英偉達官方自己的研究,在很多應用場景中,這種精度的下降并不會明顯影響結果,反而能夠讓芯片性能倍數上升(相對于精度更高的FP16、FP32)運算。
這種取巧的路線很快也影響了整個業界的認識,于是乎,AI創業公司們也開始在首款或者是下一代產品中加入INT8的運算能力。
可結果是,這頭AI創業公司們的“自主芯片”還沒有看到什么影子,那頭英偉達又更新了,而且還帶來了INT4運算能力,同時還支持實驗性的INT1運算能力。后兩者目前的研究還不深,但相信英偉達不可能“空穴來風”。
一旦證明了INT4乃至INT1工作效率更高,那么很多AI創業公司花了大錢才造出來的芯片和產品,剛出生就已經落后了。
英偉達的平臺拓展能力也值得關注,以這次GTC JAPAN為例,英偉達除了發布了全新的TESLA T4 GPU加速器之外,同時還公布了兩個全新的開發平臺——AGX、Clara。前者對應的是自動機械,后者對應的是醫療應用。
不過英偉達對于這兩個領域并不陌生,英偉達的產品實際上也早已經應用到了這兩個領域當中,但創建平臺這一舉動,或許意味著英偉達在2019年把這兩個當做主要發展方向了。
總的來看,英偉達這個幫助AI崛起、半導體技術深厚、不斷拓展市場的硅谷巨頭,正在不斷吃下AI市場的紅利,這也是公司盈利和創造價值的基礎目標所指引的方向。但創業公司真的必須加速了,再不跑快點,那就真的要死在巨頭的“腳掌”下了。