「矽谷晶片大神」Jim Keller來台開講 親曝在台北開設辦公室招募人才
【記者蕭文康/台北報導】有「矽谷晶片大神」之稱的Tenstorrent執行長Jim Keller今天在SEMICON Taiwan大師論壇中透露,公司很快就會在台北開設辦公室,開始在這招聘人才,他認為台北有非常優秀的人才,已招募了一些負責營運的人員,幫助他與這裡的製造商合作,也招募了一些優秀的工程師,從事小晶片組工程、CPU設計以及AI模型驗證,他說「如果你們需要工作機會,歡迎加入我們」。

親曝來台設辦公室緣由
他並介紹公司致力於打造高效能、開放的AI電腦和晶片,採用開源RISC-V架構,提供快速且具商業潛力的CPU與AI處理器,他強調自己的使命感與降低AI訓練成本的重要性,致力讓更多人能以低廉成本組建訓練系統,展望開放、創新的半導體生態圈。
Jim Keller在演講一開始就透露,他的公司很快就在台北開設辦公室,開始在這裡招聘人才,因為台北有非常優秀的人才,招募了一些負責營運的人員,幫助他們與這裡的製造商合作,但他們也招募了一些優秀的工程師,從事晶片組工程、CPU設計以及AI模型驗證。 他提到,台灣因為有許多生產電路板、封裝、系統、晶圓等工廠而非常有名,他希望成為這些工廠的一份子。
Tenstorrent致力於打造高端AI電腦
Tenstorrent正在建立一座電腦工廠,但並非一般的工廠,而是一座專門製造製作現代高端AI電腦和高效能電腦所需所有組件的工廠。他說最新進展並已開始出貨產品了,Tenstorrent已經成立約8年,致力於打造高端AI電腦,製造了一款非常快速的5核CPU,搭配了許多IT技術,這是一項艱鉅的工作。
目前出貨的產品包括Galaxy Box,一款可擴展的伺服器,還打造了名為QuietBox的機箱,因為第一台伺服器聲音很大,客戶抱怨太吵,所以推出了安靜版本。有朋友透露他的妻子可能會在晚餐後把伺服器關掉,因此設計了QuietBox。
公司還製造了PCI Express卡,並剛開始將S-Mod CPU作為IT產品出貨給一些客戶,也向多家合作夥伴出貨了AI處理器,尤其是LG,他們在電視晶片中加入Tenstorrent的AI處理器,讓人驚艷,此外,也推出了許多開源軟體。
他說自己是一個有使命感的人,「有些人做事情純粹是為了賺錢,這不是我,當然從長遠來看,我們必須賺錢,但一定得有使命感」。他分析AI的世界正在迅速改變一切,如果閱讀新聞報導,會發現許多事物變得更加龐大且昂貴,同時很多技術都是專有的。當然,也有很多是開源的,但大部分仍是專有技術,他希望打造一種新矽晶片,更便宜、更快速且更開放。
於是Tenstorrent朝這樣的目標進行,打造RISC-V架構的CPU,這是一種開源架構,任何人都可使用和改造。Tenstorrent設計的CPU速度非常快,且具備商業潛力,也在開發一款開放的AI處理器,雖然起初並非一開始就著手於此,Tenstorrent承諾打造一套完整的開源軟體棧,從模型、編譯器、高速運算元件、運行時環境到底層架構,全方位開放。

開始研發小晶片組
Tenstorrent希望使用普通的VRAM、以太網來構建高效能AI系統,讓任何人都能打造並擴充。此外,Tenstorrent也開始研發小晶片組(chiplets),因為新一代矽晶片的成本愈來愈高,想降低新矽晶片的成本,所以計畫是這樣的。
RISC-V literally就是「人人皆可用的CPU」,由伯克萊大學的教授與學生們發明,他們推出版面寬度為兩派寬的rocket core,提供更多資源。Tenstorrent用這當做試驗平台,找出所有錯誤並協助改進,但結果並沒有發現什麼大問題,這讓我們非常驚訝。這顯示他們有非常完善的驗證環境與堅實的技術,且是開源的,任何人都可以使用。
RISC-V的採用率正在逐年攀升,軟體支援也越來越完善,包括作業系統、完整開發工具鏈、模擬與除錯環境。Tenstorrent正在打造名為Escalon的CPU,圖中是其布局設計,8派寬、亂序執行,每GHz能達20條指令的執行效率,這個數字還在持續提升,是一款非常高效能的RISC-V CPU,許多公司也在合作推動RISC-V,但Tenstorrent想要推出真正的高端處理器,RISC-V需要一整套完整的系統,不僅是CPU和ASIC,還需要記憶體控制器(error controller)、IOMMU與其他周邊IP,但RISC-V過去一直不完整。
Tenstorrent開始與合作夥伴內部合作,以填補這些缺失,進展非常順利。Tenstorrent也貢獻了參考模型、架構測試產生器、驗證環境和除錯工具,還支持模擬作業。,完成了虛擬機管理程序(hypervisor)的移植,授權了Sci-Fi核心(一種RISC-V實作)給Tenstorrent的晶片方案,也順利將Linux移植到這個平台,整合了多種驅動程式,RISC-V的軟體支援越來越完善。
他指出,明年將開始著手移植Android系統及其他專案,汽車領域內也有許多人對RISC-V有興趣,Tenstorrent會推動完整的軟體堆疊。他認為,RISC-V是開放且可修改的技術,可以從這裡獲得授權,有權利進行修改,這讓您真正掌控自己的技術。

希望打造現代化AI處理器
他接著介紹AI處理器,他想打造一款現代化、基於張量運算的AI處理器,要做到快速的微型乘法器,如同其他人的做法一樣,配備有5個RISC-V處理器,負責數據接收、格式化、計算、重組與輸出,你可以將其想像成數據的取得、格式化、計算與再格式化、推送這5個階段,這些管理任務由RISC-V CPU完成,這樣做是因為他能做到。其實,他甚至可以寫一個簡易版的RISC架構,然後稱它為baby RISC-V,並修改它以支援Tenstorrent的驅動程式及管理功能。
他進一步說明,這正是他想要的方式,因為它是開源架構,所以運行得非常順暢,「然後將軟體堆疊開源了,結果網路上一個小孩反向工程了整個過程的所有細節,並且發佈相關規格。他的團隊問他,我們該怎麼做?他說,寄給他們一些錯誤檔案,於是無意間開源了Tenstorrent的AI架構,這倒挺有趣的。」但現在他認為這是個好主意,如果有人想從頭開始打造自己的AI電腦,線上就有相關規格。
keller說,不久後他還會有一個參考模型,這樣你就能以這個參考模型為基礎來開發所有的軟體和硬體,而且都是開放的。如果你想要更快的速度,也可以向他授權,他指向簡報說「這裡有二維碼」,引發現場哄堂大笑,他還說,軟體堆疊是開源的,這運作得相當好。
公司徵才高達8成接受率
Tenstorrent構建了這個AI軟體堆疊,他覺得它開始變得簡單了。他舉例,很久以前他的一位朋友打造一台電腦,他說,數位設備(Digital Equipment),他們正在打造世界上最快的Alpha處理器,用這個處理器打造系統很難,因為那時他們主要只考慮主CPU核心,整個系統很複雜。
他的朋友非常努力,將它變得非常簡單,創造出一個非常簡單的系統,有人說,我不懂這有什麼了不起的,這不是很簡單嗎?他說,當你剛開始時一點都不簡單,一開始完全是一團亂,他們的軟體堆疊是8年前開始的,一直在進行迭代,現在幾乎不斷重寫代碼,他覺得它越來越好、越來越乾淨。
在最上層,他可以調整任何模型、管線順序、感測器流程等等,Forge是AI編譯器,基於MLIR(大型開源框架)。去年他轉向使用MLIR,真是個好主意,非常穩固的框架,也有很多人了解它。TCNN是用來編寫快速模型,比如手部模型或優化算子,進展很好。Italian是運行時環境,還有LLK,可以把它看成一個小型核心環境和為AI定義的軟體指令集,這些層面層層開放,整個系統都在網上公開。

軟體團隊在GitHub有很好的系統支援
此外,大家都問他:「你們怎麼找到軟體工程師?」他說offer接受率高達80%,部分原因是軟體堆疊開源,部分是因為品質好,部分是因為人們可以在入職前就看到實際情況。「你知道,通常你想找份工作,內心會不確定公司怎麼運作」,但在這裡,大家都知道實際的情況。
有一次他在向投資者做更新說明,提到公司的軟體,對方說:「Jim,這些東西都公開了,你在說什麼?我們完全知道你們在做什麼。」這挺有趣的,彷彿他是在公開平台上做軟體開發,但效果還不錯,所有東西都在GitHub上。今天他和《PK時代》的一位人士聊天,他們在全球有20個辦公室,人員遍佈各地,目前大約有600到700人在協作開發這個軟體堆疊,還知道有幾家公司基於我們的架構做了分支用於他們自己的應用,他從他們報告的錯誤中就能知道這件事。
有人問「怎麼組織這麼多人?」他說,「全都在網路上。」,如果大家分散各地怎麼開會?他則說,「在線上開會。」結果這種方式其實相當有效,當軟體團隊在GitHub上有很好的系統支援,即使分散各地也能驚人地協作順暢。

Blackhole使用台積電6奈米製程生產
另外,他提到Blackhole使用台積電6奈米製程生產的晶片產品,它是由140顆處理器組成的陣列,排列成65乘28的格式,這些處理器速度足以承載軟體堆疊的部分工作,但與GPU模式(擁有128顆核心且驅動程式繁重)不同,Tenstorrent的AI軟體堆疊是分散式的,因此能以非常輕量的驅動程式來驅動大量的Blackhole晶片。它支援DDR6 DRAM和晶片上SRAM,搭載晶片上Taurus技術,也能在下一代推進Taurus技術。
同時,它有10個400吉比特乙太網埠,這是一款成本相當低廉且尺寸不大的晶片,使Tenstorrent可以製造這種伺服器,所以在設計過程中必須做出選擇,決定不使用HBM,它的成本太高且製程時間過長,封裝品質不理想且不可靠,此外安全性也不如他的方案。他說,當然HBM是很棒的技術,他很看好晶片堆疊技術,但他需要解決設備成本問題。
他決定在一個盒子裡放更多的晶片,讓晶片體積更小、更便宜。這個板子上有8個Blackhole晶片,組裝十分漂亮。把四塊這樣的板子放進一個盒子,就有30顆晶片,提供1TB的DRAM和16TB的帶寬。每顆晶片都配有乙太網埠,晶片間有多重連接,其中任何連結失效,都有備援連通,這些都寫在主板和板子之間,及盒子之間。盒子本身是堆疊起來的。
晶片若有足夠運算能力可讓設計變得簡單
在軟體方面,他可以把多顆晶片組合起來,模擬成一台大型AI電腦,也可以把多個盒子組合成一台大型AI電腦,開發一套TP Fabric、TP Distributed Engine的系統,它能將一個DA線性模型分佈到大量晶片上,並建立一個統一的通信架構。
一顆Blackhole晶片內有兩個張量處理器,Blackhole晶片間彼此通信,多個Galaxy盒子間也能互聯,他正在慢慢擴大這個規模,尚未達到極限。這些都是經過深思熟慮的決策,有著取捨,HDM的每位元功耗優於GDDR,GDDR成本較低,透過在一個盒子內放入更多晶片,降低了功耗並分散鎖定成本,並且打造出更具成本效益的系統。
所以他的AI架構,一旦在一顆晶片上有足夠的運算能力,不管晶片是在封裝中靠得很近、或者距離比較遠,實際上都沒什麼差別,因為那只是內部的傳輸問題,這讓設計變得非常簡單,他開始建造訓練用的電腦,keller表示,AI是他見過最有趣的軟體堆疊之一,他從事電腦架構設計很久,也寫過很多C語言程式。以前你買英特爾電腦時,拿到的會有C編譯器,你寫程式碼、輸入C程式碼、按下編譯,然後就能執行,那就是當時程式執行的方式。
當他涉入AI領域時,有人會給你AI模型,還有許多新創公司,包括Tenstorrent,會說把你的模型寄給他,他會讓它跑得更快,可能花上好幾週甚至幾個月時間。有人甚至宣稱能在兩個月內翻新新模型,使其快速運行,這是因為AI是一個高性能計算(HPC)問題,技術上非常困難。
PyPercy是在這種晶片上非常有表現力的語言,這是第一步,接著想像你有一個編譯器,你寫程式、編譯,然後能快速執行,不需要負擔權重等其他複雜因素,寫C程式時編譯後能直接快速運行;而執行AI程式不只是編譯和執行,還要在背景訓練權重,這相當困難。

開源是讓半導體技術普及的解決方案之一
為什麼這很重要?因為現在大家都知道DeepSeek是開源的,70B模型也是開源的,簡單又容易,他的使命之一就是讓任何人都能以低成本進行訓練,你需要能寫程式碼、編譯、取得效能,然後訓練它,且成本必須低廉,大型前沿模型可能由OpenAI或xAI提供,而其他人則有各式各樣的模型可用。
他希望大家能建立自己的訓練電腦,他把9個Galaxy盒子以全連接的方式連結,任一盒子失效都不影響運作,任意拉掉任何一條線仍能運行。9個Galaxy盒子彼此全對全通信,使用標準Ethernet線,這讓你現在就能建造訓練電腦,整體完全冗餘,是一個由上到下的統一架構,軟體是管理上百個Galaxy盒子就像管理一台黑洞穿梭機,但這其實是統一的電腦軟體堆疊,已經開始取得良好成效。
為了讓半導體技術普及,開源是解決方案的一部分,開源軟體堆疊、授權,但AI還需搭配訓練系統。不過還有大問題在,那就是他的黑洞穿梭機建造成本接近1億美元,使用6奈米技術,需要取得尺寸權限、EDA工具、實體設計資源,建造很困難。該穿梭機有200台節點,他想要升級AI,就必須重新造一台穿梭機,再花1億美元,他說自己親身體會這種高昂成本。
所以下一代產品,他為年輕一代做起來,採用相同的穿梭機架構、記憶體控制器等,將AI和CPU模組化塑造成可擴展組件,他說,大家可能聽過UCIe(Universal Chiplet Interconnect Express),它是一種晶片間的連接標準,他已與相關組織合作,對方告訴他標準會越來越貴,且不兼容,這不是他想要的,他希望打造一個晶片組家族,它們能相容運作,並讓客戶知道買公司的晶片組套件後,不論是GDDR6、GDDR7、AI、PCI Express、Ethernet 112G、224G 或CPU模組都會長期相容。

收購Blue Cheetah
因此他收購Blue Cheetah這家公司,它擅長晶片類型設計,部分原因是為確保晶片組元件之間相容,同時會努力遵循UCIe標準,這是一段長久的探索旅程,他想能獨立迭代並組合解決方案,確保所有元件長期相容,這很費工夫。
小晶片組是解決方案的一部分,他的計畫是,在製造基於這些小晶片組的解決方案時,也會對想自己打造方案的人提供這些晶片組。他相信這會成功,因為如果不成功,不但他吃虧,整個產業都會受影響,他不願看到這種情況發生,他非常依賴這套解決方案的成功。
他也說將公布約3、40家合作夥伴,並已設立一個叫「Open Chiplet Architecture」的網站,它不僅僅是標準的晶片對晶片介面,還涵蓋測試、重置、系統管理、加密等多樣功能。他已將所有讓多晶片組成共作的智慧財產權(IP)貢獻給該聯盟。 接下來他會打造一種稱之為「空晶片」的東西,想像一顆有標準晶片間連接界面和系統管理 IP 的晶片,再依需求放上你想要的所有元件,這樣就可以搭建一個新系統。
他強調,如果這是一個PayPal課程,你自己的IP開發系統就可以了,然後你就可以進入市場。因為其餘的IP架構,如果對你有效,都是以chiplets格式提供的,所以他正在尋找更多成員,而他現在正在推動這個計劃。
另一方面,沒有合作夥伴,他也無法達到目標,因此,今他非常注重這方面的支持。大家總是問他,他賣的是哪一部分?其實不是,他會賣他所做的一切,他做IP,做chiplets,做系統,都會賣,有一個雲端,可以托管客戶,他甚至有幾個新創公司,對方問他能不能付費讓他托管機器,他說當然可以,他認為想讓下一代的電腦設計變得更加有趣,因為大家看新聞,都覺得設計變得越來越昂貴和困難,但這並不是正確的答案。借助chiplet技術、更優秀的IP、更好的驗證、開放源碼和AI驅動的技術,電腦設計將變得更好、更有趣。