特斯拉(Tesla)人工智慧部門資深總監Andrej Karpathy日前宣布自家用於訓練自動輔助駕駛與自動駕駛功能的深度神經網路超級電腦。該叢集使用720個節點,每節點搭載8個NVIDIA A100 Tensor核心GPU,達1.8 exaflops的運算效能。
特斯拉在其開發週期的核心,為汽車產業提升運算水準,讓自動駕駛車工程師能高效完成工作。
NVIDIA A100 GPU提供各種規模的加速能力,以支援全球運算效能最高的資料中心。採用NVIDIA Ampere架構的A100GPU,其效能較前一代提升20倍且能分割達七個GPU執行個體,可依照需求進行調整。GPU叢集是特斯拉垂直整合自動駕駛的其中部分,透過超過百萬輛在路上行駛的汽車來完善和建立新功能並持續改進。
特斯拉的開發週期始於汽車,以影子模式(Shadow Mode)運行的深度神經網路,在不實際控制車輛的情況下,在汽車行駛過程中進行感知並做出預測。此時這些預測內容或誤判的情況會被記錄下來,接著特斯拉的工程師使用這些執行個體建立場景訓練資料集,讓深度神經網路(DNN)更加完善。
特斯拉收集約一百萬個以36FPS錄製的十秒鐘畫面,累積達1.5PB的資料量。接著深度神經網路在資料中心反覆執行這些場景,直到未出現任何錯誤。最後再將訓練完的深度學習神經網路送回車輛,並再次展開這個過程。除了訓練外,特斯拉的超級電腦亦提供自動駕駛車工程師們,擁有在開發過程中進行實驗和反覆運算所需的效能。
Karpathy 表示,特斯拉目前部署的深度神經網路結構,可讓二十名工程師同時在相同網路上工作,並區隔不同功能以進行同步開發。接著這些深度神經網路,能以較過去快速反覆運算速度還要快的方式運行訓練資料集。