Các Doanh Nghiệp Nên Chuẩn Bị Như Thế Nào Để Tận Dụng Tối Đa Khoản Đầu Tư Vào AI?
Không có thành công nào của AI nếu không có dữ liệu - rất nhiều dữ liệu.
Và không có tập dữ liệu khổng lồ nào nếu không có kho lưu trữ dữ liệu hiệu quả và rộng rãi.
Dữ liệu hỗ trợ AI và ổ cứng dung lượng lớn hỗ trợ dữ liệu.
Những hiểu biết sâu sắc này được làm rõ hơn qua cuộc khảo sát năm 2025 của công ty nghiên cứu Recon Analytics.
Cuộc khảo sát toàn cầu do Seagate ủy quyền đã phỏng vấn 1.062 người. Họ là những người mua và ra quyết định về lưu trữ CNTT, làm việc trong các vai trò về cơ sở hạ tầng lưu trữ cho các công ty có doanh thu hàng năm trên 10 triệu đô la, hiện đang sử dụng hơn 50 terabyte dung lượng lưu trữ, đã hoặc có kế hoạch áp dụng AI trong vòng ba năm tới, và có trụ sở tại Hoa Kỳ, Trung Quốc, Vương quốc Anh, Hàn Quốc, Singapore, Pháp, Ấn Độ, Nhật Bản, Đài Loan và Đức.
Khảo sát tập trung vào tác động của việc áp dụng AI lên các ưu tiên về cơ sở hạ tầng, lưu trữ dữ liệu và quản lý dữ liệu. Kết quả cho thấy AI sẽ tác động đến nhu cầu cơ sở hạ tầng như thế nào trong ba năm tới.
Điểm nổi bật của khảo sát
Đầu tiên và quan trọng nhất, cuộc khảo sát đã chứng minh rằng việc áp dụng AI đang thúc đẩy nhu cầu lưu trữ dữ liệu tăng trưởng theo cấp số nhân đến năm 2028.
- Có tới 61% số người được hỏi từ các công ty chủ yếu sử dụng lưu trữ đám mây cho biết dung lượng lưu trữ trên nền tảng đám mây của công ty họ sẽ phải tăng hơn 100% - tức là phải tăng gấp đôi - trong ba năm tới.
Hình 1. Sáu mươi mốt phần trăm số người được hỏi có công ty chủ yếu sử dụng lưu trữ đám mây để quản lý dữ liệu AI dự kiến sẽ tăng nhu cầu lưu trữ của họ lên 100% hoặc hơn.
Khi các ứng dụng AI thúc đẩy việc tạo ra dữ liệu chưa từng có, các tổ chức càng lưu trữ nhiều dữ liệu, họ càng có thể xác thực rằng AI đang hoạt động đúng như mong đợi. Với quyền truy cập vào dữ liệu hành vi - chẳng hạn như tập dữ liệu đào tạo, điểm kiểm tra mô hình, lời nhắc và câu trả lời - các công ty có thể xem xét kỹ lưỡng các thuật toán, hiểu rõ hơn và tinh chỉnh việc ra quyết định của AI. Nếu không có quy mô và hiệu quả của các trung tâm dữ liệu, tiềm năng của AI sẽ bị hạn chế, bởi khả năng lưu trữ và truy xuất các tập dữ liệu khổng lồ là yếu tố then chốt cho sự thành công của AI.
Không chỉ dung lượng lưu trữ quyết định sự thành công của AI. Thời gian lưu trữ dữ liệu cũng quan trọng không kém.
- Trong số những người được hỏi làm việc tại các doanh nghiệp đã áp dụng công nghệ AI, 90% tin rằng việc lưu giữ dữ liệu lâu hơn sẽ cải thiện chất lượng kết quả AI.
Hình 2. Chín mươi phần trăm các công ty sử dụng AI hiện nay tin rằng việc lưu giữ nhiều dữ liệu lịch sử hơn sẽ cải thiện độ chính xác của mô hình.
Phát hiện này chỉ ra mối tương quan giữa việc lưu trữ dữ liệu trong thời gian dài hơn và những hiểu biết AI đáng tin cậy hơn. Điều này có thể được củng cố bởi một số yếu tố. Thứ nhất, quá trình xử lý lặp lại liên tục là yếu tố cốt lõi trong cách thức hoạt động của các thuật toán AI. Nội dung đầu ra phản hồi lại mô hình, cải thiện độ chính xác của nó và cho phép các mô hình mới. Các tập dữ liệu thô và kết quả trở thành nguồn cho sự phát triển tiếp theo và các quy trình làm việc mới.
Tuy nhiên, việc lưu giữ các tập dữ liệu lâu hơn cũng phục vụ các chức năng kinh doanh quan trọng khác: nó bảo vệ tài sản trí tuệ của công ty. Nó lưu giữ "biên lai" của các tập dữ liệu và quy trình gốc của mô hình, cung cấp giải thích về kết quả khi cần thiết (ví dụ, như một phần của quy trình pháp lý). Những "biên lai" này thiết lập dòng dõi dữ liệu, đảm bảo ghi chép rõ ràng về hành trình dữ liệu từ đầu vào đến đầu ra. Dòng dõi dữ liệu cho phép các tổ chức xác minh nguồn gốc và cách sử dụng các tập dữ liệu, cho phép các mô hình AI dựa trên dữ liệu chính xác. Nó cho phép các hệ thống AI có thể được kiểm toán đầy đủ và hỗ trợ cả việc tuân thủ quy định và trách nhiệm giải trình nội bộ.
Ngoài ra, các công ty có thể chọn lưu trữ dữ liệu lâu hơn vì họ nhận ra rằng hôm nay họ không thể biết được những thông tin chi tiết mới và có giá trị nào mà các thuật toán của ngày mai có thể khám phá từ dữ liệu của ngày hôm qua. Việc lưu trữ dữ liệu lâu hơn cho phép các mô hình AI chưa được phát triển xử lý dữ liệu cũ. Vì những lý do này, việc lưu trữ dữ liệu lâu hơn sẽ thúc đẩy giá trị kinh doanh mà AI có thể mang lại.
Trong một phát hiện liên quan, những người ra quyết định về cơ sở hạ tầng coi việc lưu giữ dữ liệu mở rộng là điều cần thiết để xây dựng lòng tin, một nền tảng quan trọng mà nếu không có nó, những hiểu biết về AI sẽ không có nhiều giá trị.
- 88% số người được hỏi có công ty đang sử dụng AI hiện nay tin rằng việc áp dụng AI đáng tin cậy sẽ làm tăng nhu cầu lưu trữ nhiều dữ liệu hơn trong thời gian dài hơn.
Seagate định nghĩa AI đáng tin cậy là các quy trình làm việc và mô hình dữ liệu AI sử dụng dữ liệu đầu vào đáng tin cậy và tạo ra những hiểu biết đáng tin cậy. AI đáng tin cậy được xây dựng trên dữ liệu đáp ứng các tiêu chí sau:
- Chất lượng cao và độ chính xác
- Tính hợp pháp, quyền sở hữu và nguồn gốc rõ ràng
- Lưu trữ và bảo vệ an toàn
- Các phép biến đổi có thể giải thích và theo dõi được bằng thuật toán
- Đầu ra nhất quán và đáng tin cậy từ quá trình xử lý dữ liệu
Hình 3. Tám mươi tám phần trăm số người được hỏi có công ty sử dụng AI hiện nay cho biết việc áp dụng AI đáng tin cậy đòi hỏi nhu cầu lưu trữ nhiều dữ liệu hơn trong thời gian dài hơn.
Cơ sở hạ tầng lưu trữ có khả năng mở rộng hỗ trợ AI đáng tin cậy vì nó cho phép quản lý, lưu trữ và bảo mật lượng lớn dữ liệu mà các hệ thống AI sử dụng một cách phù hợp.
- Trong quá trình xây dựng AI đáng tin cậy, 80% số người được hỏi nhấn mạnh tầm quan trọng của việc kiểm tra điểm.
Kiểm tra check point là quá trình lưu trạng thái của mô hình AI theo các khoảng thời gian ngắn cụ thể trong quá trình huấn luyện. Các mô hình AI được huấn luyện trên các tập dữ liệu lớn thông qua các quy trình lặp đi lặp lại, có thể mất từ vài phút đến vài tháng. Thời gian huấn luyện mô hình phụ thuộc vào độ phức tạp của mô hình, kích thước tập dữ liệu và khả năng tính toán hiện có. Trong thời gian này, mô hình được cung cấp dữ liệu, các tham số được điều chỉnh và hệ thống học cách dự đoán kết quả dựa trên thông tin được xử lý.
Điểm kiểm tra hoạt động như ảnh chụp nhanh trạng thái hiện tại của mô hình—dữ liệu, tham số và cài đặt—tại nhiều thời điểm trong quá trình đào tạo. Được lưu vào thiết bị lưu trữ mỗi phút hoặc vài phút một lần, ảnh chụp nhanh cho phép các nhà phát triển lưu giữ hồ sơ về tiến trình của mô hình và tránh mất dữ liệu quan trọng do gián đoạn bất ngờ.
Theo khảo sát, các công ty sử dụng hơn 100PB dung lượng lưu trữ đang lưu và sao lưu các điểm kiểm tra theo ngày đến tuần, trong đó 87% lưu trữ các điểm kiểm tra này trên đám mây hoặc kết hợp giữa HDD và SDD.
Lưu trữ: Động lực bí mật cho sự thành công của AI
Tính toán và năng lượng là những chủ đề phổ biến trong các cuộc thảo luận về việc áp dụng AI. Tuy nhiên, khảo sát của Recon Analytics nhấn mạnh lưu trữ là động lực quan trọng.
- Theo quan điểm của người mua cơ sở hạ tầng, lưu trữ dữ liệu được xếp hạng là yếu tố quan trọng thứ hai của cơ sở hạ tầng AI, chỉ sau bảo mật. Bảo mật và lưu trữ được xếp hạng theo thứ tự quan trọng lần lượt là quản lý dữ liệu, dung lượng mạng, tính toán, quy định, khả năng tồn tại của LLM và năng lượng.
- Hai phần ba (66%) số người được hỏi xếp hạng lưu trữ là yếu tố quan trọng thứ hai trong số bốn yếu tố hỗ trợ AI hàng đầu và là rào cản quan trọng thứ tư đối với việc áp dụng.
Hình 4. Sáu mươi sáu phần trăm những người ra quyết định về cơ sở hạ tầng xếp hạng lưu trữ là thành phần quan trọng thứ hai trong số bốn yếu tố hỗ trợ AI hàng đầu của họ. Họ cũng xếp hạng lưu trữ là rào cản quan trọng thứ tư đối với việc triển khai AI.
Người sáng lập Recon và nhà phân tích chính Roger Entner mô tả nội dung chính như sau:
Kết quả khảo sát nhìn chung cho thấy nhu cầu lưu trữ dữ liệu sẽ tăng mạnh, với ổ cứng nổi lên là lựa chọn hàng đầu. Khi xét đến việc các nhà lãnh đạo doanh nghiệp mà chúng tôi khảo sát có ý định lưu trữ ngày càng nhiều dữ liệu AI trên nền tảng đám mây, có vẻ như các dịch vụ đám mây đang có vị thế tốt để đón đầu làn sóng tăng trưởng thứ hai.
Để khai thác tối đa giá trị từ AI, doanh nghiệp phải chuẩn bị hệ thống lưu trữ dữ liệu hiệu quả và có khả năng mở rộng. Dù trực tiếp hay thông qua dịch vụ đám mây, sự phụ thuộc của AI vào dữ liệu phụ thuộc vào ổ cứng - cung cấp dung lượng, hiệu quả chi phí và tính bền vững vượt trội - như xương sống của một AI đáng tin cậy .
Xem thêm