การจัดการความร้อนของชิป AI

Aug 02, 2024

ปัจจุบัน บริษัทยักษ์ใหญ่ด้านเทคโนโลยีอื่นๆ เช่น Microsoft, Google และ Meta กำลังขยายศูนย์ข้อมูลของตนเพื่อฝึกอบรมและใช้งานโมเดลปัญญาประดิษฐ์ของตน ตามรายงาน Microsoft และ OpenAI กำลังวางแผนที่จะสร้างโครงการศูนย์ข้อมูลที่จะรวมซูเปอร์คอมพิวเตอร์ที่มีชิปเซิร์ฟเวอร์เฉพาะหลายล้านชิ้น และโครงการปัจจุบันอาจมีมูลค่า 115 พันล้านดอลลาร์ ซึ่งรวมถึงซูเปอร์คอมพิวเตอร์ปัญญาประดิษฐ์ที่เรียกว่า Stargate ซึ่งคาดว่าจะเปิดตัวในปี 2571 Mark Zuckerberg ซีอีโอของ Meta ยังระบุในเดือนมกราคมปีนี้ว่าโครงสร้างพื้นฐานการประมวลผลของบริษัทจะรวมกราฟิกการ์ด H100 จำนวน 30,000 ตัวภายในสิ้นปี 2567 นอกจากนี้เขายังกล่าวเสริมอีกว่า "หากรวม GPU อื่น ๆ ไว้ด้วย ก็จะมีการคำนวณที่เทียบเท่ากับ H100 ประมาณ 600,000 ตัว"

AI computing

AIGC ขึ้นอยู่กับโมเดลขนาดใหญ่และข้อมูลขนาดใหญ่ โมเดลขนาดใหญ่หมายถึงโมเดลที่สามารถปรับให้เข้ากับงานปลายน้ำได้หลังจากการฝึกอบรมเกี่ยวกับข้อมูลขนาดใหญ่และในวงกว้าง หลังจากการเกิดขึ้นของแบบจำลองขนาดใหญ่ (1) พารามิเตอร์ของแบบจำลองจะเพิ่มขึ้นในขนาด; (2) ความต้องการที่หลากหลายช่วยเร่งการอัปเกรดพลังการประมวลผลที่หลากหลาย: พลังการประมวลผลสามารถแบ่งออกเป็นพลังการประมวลผลพื้นฐาน พลังการประมวลผลอัจฉริยะ และพลังการประมวลผลขั้นสูงตามความต้องการที่ตรงกัน ในปี 2021 พลังการประมวลผลรวมของอุปกรณ์ประมวลผลทั่วโลกสูงถึง 615 EFlops โดยมีอัตราการเติบโต 44% ภายในปี 2030 คาดว่าจะเพิ่มขึ้นเป็น 56ZFlops โดยมี CAGR อยู่ที่ 65% พลังการประมวลผลอัจฉริยะจะเพิ่มขึ้นจาก 232EFlops เป็น 52.5ZFlops โดยมี CAGR เกิน 80% หลังจากการเกิดขึ้นของโมเดลขนาดใหญ่ ก็นำมาซึ่งแนวโน้มใหม่ของการเติบโตของพลังการประมวลผล โดยมีเวลาเฉลี่ยเพิ่มขึ้นสองเท่าที่ 9.9 เดือนสำหรับพลังการประมวลผล

AIGC chip cooling

เบื้องหลังการปรับปรุงพลังการประมวลผล ชิปจะต้องมีประสิทธิภาพการประมวลผลสูงขึ้น และทำการคำนวณได้มากขึ้นในเวลาที่สั้นลง ซึ่งจะทำให้การใช้พลังงานของชิปเพิ่มขึ้นอย่างหลีกเลี่ยงไม่ได้ ลักษณะความหนาแน่นสูงและการใช้พลังงานสูงของศูนย์ข้อมูลในศูนย์ซูเปอร์คอมพิวเตอร์ทำให้ปัญหาการกระจายความร้อนมีความโดดเด่นมากขึ้น ศูนย์ข้อมูลสมัยใหม่ โดยเฉพาะศูนย์ซูเปอร์คอมพิวเตอร์ มักประกอบด้วยอุปกรณ์กำลังสูงจำนวนมากที่สร้างความร้อนจำนวนมากระหว่างการทำงาน หากไม่สามารถกระจายความร้อนได้ทันท่วงทีและมีประสิทธิภาพ ความร้อนจะไม่เพียงส่งผลต่อประสิทธิภาพของอุปกรณ์เท่านั้น แต่ยังอาจนำไปสู่ความล้มเหลวของฮาร์ดแวร์อีกด้วย ตามรายงานของ IDC ประมาณ 40% ของการใช้พลังงานในศูนย์ข้อมูลถูกใช้สำหรับระบบทำความเย็น ซึ่งบ่งชี้ว่าโซลูชันการระบายความร้อนที่มีประสิทธิภาพมีความสำคัญอย่างยิ่งต่อการดำเนินงานของศูนย์ข้อมูล

data canter liquid cooling

ระบบระบายความร้อนด้วยอากาศแบบดั้งเดิมไม่สามารถตอบสนองความต้องการในการระบายความร้อนของซูเปอร์คอมพิวเตอร์ในปัจจุบันได้อีกต่อไป ดังนั้น เทคโนโลยีระบายความร้อนด้วยของเหลวจึงค่อยๆ กลายเป็นตัวเลือกหลักในอุตสาหกรรม การประยุกต์ใช้เทคโนโลยีระบายความร้อนด้วยของเหลวช่วยให้ศูนย์ข้อมูลสามารถรองรับอุปกรณ์คอมพิวเตอร์ได้มากขึ้นในพื้นที่เดียวกัน ในขณะที่ลดการใช้พลังงานของระบบทำความเย็น การประยุกต์ใช้เทคโนโลยีระบายความร้อนด้วยของเหลวไม่เพียงช่วยเพิ่มประสิทธิภาพในการคำนวณเท่านั้น แต่ยังช่วยลดการใช้พลังงานและต้นทุนการดำเนินงานลงอย่างมากอีกด้วย เทคโนโลยีระบายความร้อนด้วยของเหลวสามารถจัดการงานประมวลผลได้มากขึ้นโดยใช้พลังงานเท่าเดิมผ่านการนำความร้อนที่มีประสิทธิภาพมากขึ้น

data center immersion liquid cooling

ด้วยความต้องการการฝึกอบรม AI และการประมวลผลประสิทธิภาพสูงที่เพิ่มขึ้น เทคโนโลยีระบายความร้อนด้วยของเหลวจะมีบทบาทสำคัญในศูนย์ซูเปอร์คอมพิวเตอร์ในอนาคต คาดว่าเทคโนโลยีระบายความร้อนด้วยของเหลวจะกลายเป็นโครงร่างมาตรฐานในศูนย์ซูเปอร์คอมพิวเตอร์และศูนย์ข้อมูลขนาดใหญ่ในอีกไม่กี่ปีข้างหน้า เพื่อตอบสนองความต้องการด้านคอมพิวเตอร์ที่เพิ่มขึ้นและความท้าทายในการกระจายความร้อน

คู่ของ: วิธีการทำความเย็นและการรีไซเคิลความร้อนของศูนย์ข้อมูล

ถัดไป: เทคโนโลยีระบายความร้อนด้วยของเหลวที่มีประสิทธิภาพสำหรับศูนย์ข้อมูล

ความรู้

การจัดการความร้อนของชิป AI