Cách Thức Mà Điện Toán Đám Mây Và Trí Tuệ Nhân Tạo Đã Định Nghĩa Lại Lưu Trữ Chính
Tại Seagate, các nhóm kỹ thuật của chúng tôi và cá nhân tôi thường xuyên có các buổi gặp gỡ với những nhà xây dựng cơ sở hạ tầng điện toán đám mây và trí tuệ nhân tạo lớn nhất thế giới.
Bên cạnh việc cung cấp cho họ hàng exabyte ổ cứng dung lượng cao, chúng tôi còn hợp tác chặt chẽ để giúp định hình kiến trúc lưu trữ của họ.
Thông qua các mối quan hệ đối tác này, tôi đã có cơ hội chứng kiến tận mắt cách thức đưa ra các quyết định về lưu trữ siêu quy mô. Điểm chung rất rõ ràng: yếu tố kinh tế, khả năng điều phối phần mềm và năng lực phần cứng phải đồng bộ để tối đa hóa hiệu suất, hiệu quả và giá trị của dữ liệu.
Sự đồng bộ đó càng trở nên quan trọng hơn khi khối lượng công việc AI tiếp tục gia tăng về kích thước tập dữ liệu, tần suất truy cập, cửa sổ ngữ cảnh, tính song song, thời gian lưu giữ và các yêu cầu đặt ra đối với hệ thống lưu trữ dùng chung.
Những thay đổi về quy mô này đã thay đổi căn bản ý nghĩa của "lưu trữ sơ cấp".
Trong lịch sử, bộ nhớ chính đề cập đến các hệ thống khối hoặc tệp được liên kết chặt chẽ và đặt gần với máy tính. Tuy nhiên, trong môi trường điện toán đám mây và trí tuệ nhân tạo, bộ nhớ chính ngày càng được định nghĩa bởi các kiến trúc phân tán toàn cầu do phần mềm điều khiển, coi bộ nhớ đối tượng như một hệ thống ghi chép bền vững, lưu giữ và phục vụ khối lượng dữ liệu khổng lồ trên nhiều khối lượng công việc.
Để hiểu rõ hơn về quá trình định nghĩa lại này, chúng ta hãy cùng phân tích các nguyên tắc thiết kế đã định hình nên hệ thống lưu trữ doanh nghiệp ban đầu.
Quy mô đã thay đổi mô hình lưu trữ như thế nào?
Trong nhiều thập kỷ, hệ sinh thái này hoạt động theo một tiêu chuẩn chung: Giao diện Hệ điều hành Di động (POSIX). Được hình thành trong thời đại của cơ sở hạ tầng mang tính cục bộ hơn, POSIX đã cung cấp cho các nhà phát triển một mô hình dễ dự đoán để tương tác với dữ liệu.
Nó nhấn mạnh tính nhất quán đọc sau khi ghi mạnh mẽ, khóa tập tin đồng bộ và cấu trúc thư mục phân cấp. Đối với một máy đơn lẻ hoặc một cụm máy cục bộ, nó rất hiệu quả và vẫn là yếu tố quan trọng đối với nhiều môi trường doanh nghiệp và ứng dụng hiện nay.
Tuy nhiên, khi mô hình điện toán đám mây xuất hiện, các sự đánh đổi chi phối đã thay đổi. Các hệ thống quy mô đám mây được xây dựng cho một quy mô, mô hình phân phối và cấu trúc chi phí hoàn toàn khác so với những gì các hệ thống POSIX-first được thiết kế ban đầu.
Trong môi trường phân tán, việc triển khai theo kiểu POSIX có thể đòi hỏi sự điều phối đáng kể giữa các nút để bảo toàn ngữ nghĩa thư mục, khóa tập tin và cập nhật tại chỗ.
Các nền tảng đám mây cần quy mô khổng lồ—cuối cùng mở rộng để hỗ trợ hàng chục đến hàng trăm exabyte—và trong môi trường này, chi phí phối hợp của các thiết kế liên kết chặt chẽ bắt đầu gây ra độ trễ và đặt ra những giới hạn thực tế đối với sự phát triển.
Trong các tác vụ AI hiện đại đòi hỏi tập dữ liệu lớn hơn nữa, việc lưu điểm kiểm tra, xử lý mã thông báo, suy luận và các đường dẫn dữ liệu song song cao, những áp lực đó càng trở nên gay gắt hơn.
Trên toàn ngành—từ Google Cloud Storage (GCS) và Colossus đến Microsoft Azure Blob, Amazon S3 và Tectonic của Meta—các nền tảng đám mây đã áp dụng kiến trúc dựa trên phần mềm được thiết kế riêng cho dữ liệu phân tán toàn cầu và khối lượng công việc siêu quy mô, và liên tục tinh chỉnh chúng theo thời gian khi quy mô và yêu cầu phát triển.
Trong mô hình mới này, phần mềm đảm nhận nhiều trách nhiệm hơn trong việc điều phối, duy trì tính ổn định và luồng dữ liệu, nhờ đó các phương tiện lưu trữ cơ bản có thể được sử dụng hiệu quả nhất có thể.
Ổ cứng là nền tảng của lưu trữ quy mô lớn
Trong các kiến trúc điện toán đám mây như tôi đã đề cập ở trên, ổ cứng là nền tảng để lưu trữ dữ liệu ở quy mô lớn.
Điều này phản ánh tính kinh tế bền vững của dung lượng và các nguyên lý vật lý của việc ghi dữ liệu mật độ cao. Các ổ cứng dung lượng cao hiện đại tích hợp các công nghệ như ghi từ xếp lớp (Shingled Magnetic Recording - SMR) và ghi từ hỗ trợ nhiệt (Heat-Assisted Magnetic Recording - HAMR) để tiếp tục tăng mật độ diện tích và giúp lưu trữ dữ liệu ở quy mô exabyte trở nên khả thi.
Ở quy mô này, các hệ thống ổ cứng đóng vai trò là hệ thống lưu trữ chính, mang lại độ bền, hiệu quả chi phí và mật độ lưu trữ mà các công nghệ lưu trữ khác không thể sánh kịp.
Có một lý do khiến 87% dung lượng exabyte của các trung tâm dữ liệu lớn được lưu trữ trên ổ cứng !
Khi các trung tâm dữ liệu đám mây tiếp tục mở rộng và khối lượng công việc AI tiêu thụ, tạo ra, lưu trữ và tái sử dụng lượng dữ liệu lớn hơn, những lợi thế này càng trở nên quan trọng hơn.
Nhưng những khả năng đó chỉ có thể được phát huy tối đa nếu kiến trúc phần mềm được thiết kế phù hợp với thế mạnh của ổ đĩa dung lượng lớn.
Các mô hình truy cập POSIX truyền thống—đặc biệt là trong các mô hình hệ thống tập tin phân tán liên kết chặt chẽ, nhấn mạnh vào việc cập nhật tại chỗ, ngẫu nhiên và phân mảnh—không phải lúc nào cũng phù hợp với những ưu điểm đó ở quy mô cực lớn.
Các nền tảng điện toán đám mây hiện đại dựa trên phần mềm đã giải quyết vấn đề này bằng cách thiết kế các ngăn xếp lưu trữ của chúng xung quanh ổ cứng, cho phép chúng ưu tiên các luồng dữ liệu tuần tự, thông lượng cao đồng thời hỗ trợ hiệu quả kinh tế vận hành có thể mở rộng.
Trong trường hợp của Amazon S3, một dịch vụ lưu trữ 500 nghìn tỷ đối tượng và xử lý 200 triệu yêu cầu mỗi giây — bài phát biểu quan trọng tại AWS re:Invent 2 gần đây đã nhấn mạnh rằng bí quyết để đạt được hiệu suất lưu trữ đám mây là viết phần mềm tối ưu hóa cho khả năng của ổ cứng — được mô tả trong bài thuyết trình là một “kỳ tích kỹ thuật”.
Thay vì ép buộc ổ đĩa phải tuân theo các mô hình phần mềm trừu tượng được thiết kế cho một thời đại khác, kiến trúc điện toán đám mây hiện đại được thiết kế để bổ sung cho những ưu điểm của các ổ cứng mật độ cao hiện đại.
Cách kiến trúc đám mây khai thác tối đa hiệu quả của ổ cứng
Thiết kế kỹ thuật này có nhiều hình thức khác nhau, nhưng nhìn chung trên các nền tảng điện toán đám mây hàng đầu, nó phản ánh bốn nguyên tắc kiến trúc chính. Cùng nhau, chúng cho thấy cách thức lưu trữ đám mây ngày càng được định nghĩa bằng phần mềm trong việc quản lý luồng dữ liệu, siêu dữ liệu, khả năng phục hồi và hành vi tiếp nhận dữ liệu.
1. Tính bất biến của đối tượng tạo điều kiện thuận lợi cho luồng dữ liệu tuần tự
Các dịch vụ như GCS và Amazon S3 được thiết kế để hỗ trợ tính bất biến của đối tượng và cập nhật theo phiên bản. Sau khi dữ liệu được ghi vào kho lưu trữ đối tượng, các bản cập nhật thường được xử lý bằng cách ghi một phiên bản mới của đối tượng thay vì sửa đổi trực tiếp phiên bản hiện có.
Bằng cách giảm thiểu nhu cầu ghi dữ liệu nhị phân ngẫu nhiên, tại chỗ, kiến trúc đám mây quy mô lớn chuyển phần lớn khối lượng công việc của ổ đĩa sang các luồng dữ liệu tuần tự lớn. Điều này phù hợp hơn với cách các ổ đĩa dung lượng cao mang lại thông lượng và hiệu quả ở quy mô lớn. Lợi ích này càng trở nên quan trọng hơn đối với các tác vụ trí tuệ nhân tạo (AI), nơi việc tạo điểm kiểm tra, di chuyển tập dữ liệu và các đường dẫn xử lý song song có thể tạo ra áp lực liên tục lên các hệ thống lưu trữ dùng chung.
2. Siêu dữ liệu ngày càng được xử lý bởi các dịch vụ điều khiển riêng biệt hoặc phân tán.
Trong môi trường POSIX truyền thống, các hệ thống lưu trữ thường quản lý cả siêu dữ liệu tệp và nội dung tệp theo cách liên kết chặt chẽ. Các nền tảng điện toán đám mây siêu quy mô đã thay đổi điều này bằng cách tách biệt các dịch vụ siêu dữ liệu khỏi dung lượng lưu trữ, chuyển phần lớn việc theo dõi và phối hợp sang các lớp điều khiển nhanh hơn, có khả năng mở rộng hơn thay vì để gánh nặng đó đè lên chính các ổ đĩa.
Colossus của Google Cloud chuyển phần lớn công việc này sang các dịch vụ thường trú trong bộ nhớ, trong khi Tectonic của Meta tách biệt siêu dữ liệu—trong mô hình hệ thống tệp phân tán—thành các dịch vụ nhỏ không trạng thái chạy trên kho lưu trữ cặp khóa-giá trị có khả năng mở rộng theo chiều ngang. Kết quả là giảm bớt gánh nặng cấu trúc cho các ổ cứng cơ bản và tăng cơ hội để chúng cung cấp dung lượng lớn, hiệu quả ở quy mô lớn.
3. Mã hóa xóa lỗi tăng cường khả năng phục hồi phân tán
Nguyên tắc thứ ba là sử dụng mã hóa xóa lỗi và phân phối dữ liệu rộng rãi để làm cho các hệ thống lưu trữ quy mô lớn trở nên bền vững và hiệu quả hơn.
Kiến trúc đám mây giảm thiểu sự nhạy cảm đó thông qua mã hóa xóa lỗi và phân phối dữ liệu rộng rãi. Bằng cách trải rộng các đối tượng trên nhiều ổ đĩa, các hệ thống này có thể cô lập các điểm nóng cục bộ, tiếp tục cung cấp dữ liệu ngay cả khi có sự tăng đột biến độ trễ ngắn và khôi phục khi cần thiết. Điều này làm cho lớp lưu trữ trở nên mạnh mẽ hơn và giúp duy trì thông lượng trong điều kiện tải hỗn hợp đám mây và trí tuệ nhân tạo.
4. Đường dẫn dữ liệu đa tầng
Nguyên tắc thứ tư là cách dữ liệu được xử lý trước khi được chuyển đến các phương tiện lưu trữ có dung lượng lớn.
Để thu hẹp khoảng cách giữa lưu lượng truy cập ứng dụng không thể dự đoán trước và môi trường có cấu trúc mà ổ cứng mật độ cao xử lý tốt nhất, các kiến trúc hiện đại sử dụng đường dẫn dữ liệu đa tầng, kết hợp bộ nhớ flash hoặc bộ nhớ đệm để đệm quá trình tiếp nhận và tối ưu hóa vị trí dữ liệu.
Bộ nhớ flash tiếp nhận lượng dữ liệu đến thay đổi từ lưu lượng API và các thao tác ghi của ứng dụng. Nó lưu trữ và sắp xếp dữ liệu đến trước khi chuyển đến phương tiện lưu trữ dung lượng lớn, cho phép các tiến trình nền ghi dữ liệu vào các mảng ổ cứng theo trình tự dài.
Trong các tác vụ AI, nơi việc nhập dữ liệu, lưu điểm kiểm tra và di chuyển tập dữ liệu có thể diễn ra rất đột ngột, vai trò của bộ đệm càng trở nên quan trọng hơn vì nó giúp duy trì cả độ trễ thấp trong quá trình nhập dữ liệu và hiệu quả sử dụng ổ cứng.
Hình 1. So sánh phần mềm lưu trữ POSIX truyền thống với phần mềm lưu trữ đám mây gốc trong việc tối đa hóa lợi ích của kiến trúc lưu trữ tập trung vào ổ cứng.
Một mô hình mới cho bộ nhớ chính
Nhìn chung, những thay đổi về kiến trúc này đã định hình lại cách xác định bộ nhớ chính. Trong quá khứ, "bộ nhớ chính" thường đề cập đến các hệ thống khối hoặc tệp đắt tiền, có tính khả dụng cao, được gắn chặt với máy tính. Bộ nhớ đối tượng thường được coi là nơi lưu trữ cấp thấp hơn cho dữ liệu lưu trữ, sao lưu hoặc dữ liệu thứ cấp.
Ngày nay, nhiều kiến trúc điện toán đám mây hiện đại định nghĩa lưu trữ chính một cách rộng hơn: điện toán không trạng thái kết hợp với kho lưu trữ đối tượng toàn cầu. Các kho dữ liệu được xây dựng trên các nền tảng như S3, Azure và GCS ngày càng đóng vai trò là hệ thống ghi nhận dữ liệu cho các phân tích quy mô lớn, ứng dụng đám mây và quy trình làm việc AI.
Trong mô hình này, bộ nhớ chính ngày càng được định nghĩa bằng phần mềm, với các dịch vụ đối tượng, lớp siêu dữ liệu, bộ đệm flash và ổ cứng dung lượng cao hoạt động cùng nhau như một hệ thống phối hợp.
Các phiên bản điện toán thường được coi là linh hoạt và không lưu trữ trạng thái, lấy dữ liệu từ lớp đối tượng, xử lý dữ liệu và ghi kết quả trở lại cùng một môi trường chia sẻ.
Sự hội tụ của lưu trữ đối tượng và ngữ nghĩa tập tin
Trong thập kỷ qua, khi lưu trữ đối tượng ngày càng trở nên quan trọng đối với kiến trúc đám mây và gần đây hơn là đối với các quy trình làm việc AI, một xu hướng quan trọng khác đã xuất hiện: hệ thống tệp song song hiệu năng cao.
Các hệ thống như Lustre, Weka và VAST được thiết kế để tối đa hóa hiệu suất cho các khối lượng công việc liên kết chặt chẽ, thường cung cấp các giao diện tuân thủ POSIX để hỗ trợ việc lưu điểm kiểm tra, phối hợp và truy cập dữ liệu thông lượng cao.
Đồng thời, các nền tảng lưu trữ đối tượng tiếp tục phát triển—tối ưu hóa khả năng mở rộng toàn cầu trong khi nâng cao hiệu suất để hỗ trợ một loạt các khối lượng công việc đòi hỏi trí tuệ nhân tạo và dữ liệu ngày càng tăng.
Trong môi trường điện toán đám mây và trí tuệ nhân tạo quy mô lớn, các phương pháp này đang hội tụ. Các hệ thống tệp hiệu năng cao thường được xây dựng trên hoặc phân tầng vào các hệ thống lưu trữ đối tượng, kết hợp hiệu năng cho tập dữ liệu đang hoạt động với khả năng mở rộng và tính kinh tế của lưu trữ đối tượng như một hệ thống ghi nhận chính thức.
Sự hội tụ này phản ánh một sự thay đổi kiến trúc rộng lớn hơn: thay vì lựa chọn giữa tập tin và đối tượng, các hệ thống hiện đại kết hợp chúng. Điều này giúp duy trì sự tiện lợi của thư mục, không gian tên và các hành vi quen thuộc của tập tin mà không làm mất đi lợi thế về khả năng mở rộng của lưu trữ đối tượng.
Ý nghĩa đối với các nhà xây dựng cơ sở hạ tầng đám mây và trí tuệ nhân tạo
Nhìn chung, những thay đổi này dẫn đến một kết luận rộng hơn: kiến trúc điện toán đám mây và trí tuệ nhân tạo đòi hỏi những sự đánh đổi về phần mềm và hệ thống khác nhau so với những gì mà các mô hình ưu tiên POSIX ban đầu được thiết kế để tối ưu hóa.
Những sự đánh đổi đó đã làm tăng tầm quan trọng của việc thiết kế phần mềm để tối ưu hóa việc sử dụng các hệ thống ổ cứng cơ bản mà hệ thống được xây dựng dựa trên đó. Theo nghĩa đó, khối lượng công việc điện toán đám mây và trí tuệ nhân tạo không chỉ làm thay đổi kiến trúc lưu trữ mà còn định nghĩa lại chính bộ nhớ lưu trữ chính.
Đối với các nhà xây dựng cơ sở hạ tầng, bài học rút ra rất rõ ràng: thiết kế cho các hệ thống hiện đại có nghĩa là vượt ra khỏi giả định rằng bộ nhớ chính phải ánh xạ một cách chính xác vào cây thư mục hệ điều hành cục bộ. Điều đó có nghĩa là lựa chọn phần mềm và mô hình truy cập phù hợp với thực tế về kinh tế, vật lý và khối lượng công việc của AI ở quy mô lớn.
Các tổ chức làm đúng điều này sẽ có vị thế tốt hơn để thực hiện các chiến lược AI một cách hiệu quả, với khả năng sử dụng GPU cao hơn, chi phí suy luận tốt hơn và ít tắc nghẽn hiệu năng hơn.
Nguồn
1. IDC Datasphere và IDC Storagesphere
2. Bài phát biểu quan trọng của Andy Warfield tại AWS re:Invent 2025: S3 lưu trữ hơn 500 nghìn tỷ đối tượng, phục vụ 200 triệu yêu cầu/giây, xử lý hơn 1 triệu tỷ yêu cầu/năm


Xem thêm