Right Data Right Place Right Time
Trí tuệ nhân tạo (AI) đang thay đổi ý nghĩa của việc xây dựng các hệ thống dữ liệu hiệu quả.
Hai phần ba doanh nghiệp kỳ vọng AI thế hệ mới (GenAI) sẽ làm tăng khối lượng dữ liệu được lưu trữ. Nhưng chỉ khoảng một phần ba cho biết cơ sở hạ tầng của họ “đã được tối ưu hóa hoàn toàn cho GenAI”. Việc thiết kế kiến trúc trung tâm dữ liệu có khả năng hỗ trợ khối lượng công việc AI và lượng dữ liệu ngày càng tăng mà chúng yêu cầu là vô cùng quan trọng.
Mỗi mô hình được huấn luyện, mỗi video được phân tích và mỗi mô phỏng được tinh chỉnh đều tạo ra một làn sóng dữ liệu cần được lưu trữ và tái sử dụng. Liệu kiến trúc và mô hình kinh doanh có thể theo kịp tốc độ tạo ra dữ liệu? Nhờ vào phân tầng dữ liệu, câu trả lời là có.
Phân cấp dữ liệu tối ưu hóa hiệu suất và khả năng mở rộng của AI như thế nào?
Phân tầng dữ liệu giúp giữ thông tin ở đúng nơi vào đúng thời điểm. Đó là cách cơ sở hạ tầng cân bằng hiệu suất, khả năng mở rộng và chi phí mà không cần điều chỉnh thủ công liên tục.
- Các tầng truy cập thời gian thực xử lý các luồng dữ liệu đọc dữ liệu lớn, thường được hỗ trợ bởi bộ nhớ và bộ nhớ flash.
- Các tầng truy cập thường xuyên phục vụ nhiều hoạt động khác nhau và các cụm lưu trữ ổ cứng duy trì chúng một cách hiệu quả ở quy mô lớn.
- Các gói lưu trữ dung lượng lớn giúp lưu giữ các tập dữ liệu khổng lồ, đảm bảo chúng luôn sẵn sàng để tái sử dụng và phân tích, trong khi các ổ cứng dung lượng cao giúp tối ưu hóa chi phí trên mỗi terabyte và hiệu năng.
Phân cấp dữ liệu không phải là về thứ bậc; mà là về sự hài hòa. Mỗi lớp đóng một vai trò riêng biệt và cùng nhau chúng làm cho hệ thống nhanh hơn, hiệu quả hơn, có khả năng mở rộng và bền vững hơn.
Dữ liệu được tạo ra bởi các ứng dụng dựa trên AI không đi theo một đường thẳng — nó chảy qua nhiều cấp độ khi được thu thập, xử lý, huấn luyện, tinh chỉnh và huấn luyện lại để khai thác giá trị thực sự của nó. Phân cấp dữ liệu biến dòng chảy dữ liệu vô tận đó thành một lợi thế: nó giữ cho nhiều dữ liệu của bạn được sử dụng hiệu quả thay vì bị bỏ phí. Nó đảm bảo các kết quả có giá trị không bị mất đi. Các nhóm mã hóa dữ liệu bằng cách đặt chính sách, gắn thẻ vòng đời và đo từ xa. Mục tiêu: giữ tập dữ liệu làm việc gần với khả năng tính toán và giữ cho tập dữ liệu chuyên sâu có giá cả phải chăng, bền vững và sẵn sàng khi được gọi.
Làm thế nào hệ thống lưu trữ phân cấp giúp quá trình huấn luyện AI diễn ra nhanh chóng và hiệu quả?
GPU chỉ phát huy hiệu quả khi được cung cấp lượng dữ liệu khổng lồ đủ nhanh để luôn hoạt động liên tục. Hệ thống ổ cứng hiện đại cung cấp phản hồi ở mức mili giây — đủ nhanh để duy trì quá trình huấn luyện và suy luận AI. Bộ nhớ và bộ nhớ flash xử lý bộ nhớ đệm trong khi ổ cứng cung cấp chiều sâu lưu trữ. Đó là lý do tại sao khoảng 85% dữ liệu đám mây vẫn nằm trên ổ cứng¹ : khả năng mở rộng phụ thuộc vào dung lượng vừa cao vừa có giá cả phải chăng. Phân cấp lưu trữ giúp cho hàng petabyte dữ liệu đầu ra không bị quá tải bởi cơ sở hạ tầng đắt tiền hoặc biến mất trước khi chúng có thể được sử dụng để huấn luyện mô hình tiếp theo. Điều này giúp việc tái sử dụng trở nên khả thi: cùng một cơ sở dữ liệu có thể được sử dụng để huấn luyện hôm nay, tinh chỉnh ngày mai và kiểm toán quản trị trong tương lai. Lập kế hoạch dung lượng trở thành một đòn bẩy, chứ không phải là một hạn chế.
Hiệu quả là yếu tố thay thế cho năng suất.
Phân cấp lưu trữ giúp các doanh nghiệp sử dụng tối ưu cơ sở hạ tầng hiện có. Nó ngăn ngừa việc cung cấp quá mức, giảm mức tiêu thụ điện năng khi không hoạt động và kéo dài tuổi thọ tài sản. Ở cấp độ hệ thống, các phân cấp dựa trên ổ cứng mang lại lợi thế đáng kể về tổng chi phí sở hữu.
Mật độ lưu trữ cao hơn — các ổ đĩa được thiết kế cho các ứng dụng đòi hỏi nhiều dữ liệu — có nghĩa là nhiều terabyte hơn trên mỗi trục quay, ít giá đỡ cần cấp điện và làm mát hơn, và năng lượng tiêu thụ trên mỗi terabyte thấp hơn. Kết quả là hiệu quả cao hơn mà không làm giảm tốc độ hoặc khả năng phục hồi.
Làm thế nào hệ thống lưu trữ phân cấp giúp giảm tiêu thụ năng lượng và hỗ trợ trí tuệ nhân tạo bền vững?
Ở quy mô lớn, hiệu quả thường đồng nghĩa với tính bền vững. Việc chuyển dữ liệu ít được truy cập đến các tầng lưu trữ tiết kiệm năng lượng và dung lượng cao giúp giảm lượng khí thải trong quá trình vận hành.
Mô hình hóa cấp hệ thống gần đây đã chứng minh điều này: các giá đỡ ổ cứng sử dụng ít điện năng hơn khoảng bốn lần và phát thải carbon ít hơn khoảng 10 lần so với các giá đỡ SSD có cùng dung lượng. 2
Các hoạt động theo mô hình tuần hoàn — chẳng hạn như tân trang và tái sử dụng ổ đĩa hoặc tái sử dụng các nguyên tố đất hiếm trong chuỗi cung ứng — giúp giảm lượng carbon phát thải và kéo dài tuổi thọ hữu ích.
Ít ổ đĩa hơn, vòng đời dài hơn và ít chất thải hơn: đây là những lợi ích hữu hình mà lưu trữ phân tầng 3 mang lại.
Cách thức doanh nghiệp thành công
Dấu ấn dữ liệu của AI sẽ ngày càng mở rộng. Phân cấp lưu trữ là cách các doanh nghiệp duy trì vị thế dẫn đầu, với tốc độ được cung cấp ở những nơi cần thiết, khả năng mở rộng ở những nơi đòi hỏi và tính bền vững xuyên suốt.
Ở quy mô lớn, ổ cứng vẫn là xương sống của sự cân bằng đó: cho phép hiệu suất, giá cả phải chăng và hiệu quả, tất cả cùng một lúc.
Đó là cách phân cấp lưu trữ mang lại lợi thế ở quy mô lớn. Nó giữ đúng dữ liệu ở đúng nơi vào đúng thời điểm.
Chú thích cuối trang
- Phân tích của Seagate dựa trên nhiều báo cáo của các nhà phân tích ngành.
- HotCarbon 2024, “ Lời kêu gọi nghiên cứu về việc lưu trữ khí thải. ”
- Năm tài chính 2024: hơn 1,8 triệu ổ cứng được đưa trở lại hoạt động ( Seagate Circularity ); Năm tài chính 2023: 1,19 triệu ổ cứng được kéo dài thời gian sử dụng ( trang Seagate Planet , “Circularity”).
Xem thêm