Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Trí tuệ nhân tạo (AI) và máy học (ML) đã thúc đẩy những đột phá mang tính chuyển đổi, từ dự đoán cấu trúc protein đến cho phép dịch ngôn ngữ theo thời gian thực. Trọng tâm của những đổi mới này là nhu cầu không thể thỏa mãn đối với dữ liệu chất lượng cao. Các mô hình AI phát triển mạnh trên các tập dữ liệu khổng lồ, nhưng nếu không có bộ lưu trữ dữ liệu đáng tin cậy và tiết kiệm chi phí, các mô hình này—và những hiểu biết mà chúng tạo ra—sẽ không đạt được tiềm năng của chúng.

Giống như oxy cung cấp nhiên liệu cho trí óc con người, lưu trữ dữ liệu thúc đẩy sự phát triển của AI. Khả năng lưu trữ, truy cập và xử lý dữ liệu hiệu quả quyết định mức độ hiệu quả của việc đào tạo và tinh chỉnh các mô hình AI. Tuy nhiên, khi nhu cầu về các giải pháp do AI thúc đẩy tăng lên, thì thách thức trong việc quản lý vòng đời của dữ liệu AI cũng tăng theo—từ thu thập đến lưu trữ đến xử lý—trong khi vẫn kiểm soát được chi phí và tính phức tạp.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Nhu cầu ngày càng tăng về dữ liệu hỗ trợ AI.

Khoa học dữ liệu đã phát triển từ bảng tính và phân tích đơn giản thành những hiểu biết mạnh mẽ do ML thúc đẩy. Ngày nay, Bộ Lao động Hoa Kỳ báo cáo rằng có hơn 200.000 việc làm khoa học dữ liệu, với mức tăng trưởng dự kiến ​​là 36% trong thập kỷ tới. Các chuyên gia trong nhiều ngành đang kết hợp các công cụ AI vào quy trình làm việc của họ, ngay cả khi không được đào tạo chính thức về khoa học dữ liệu, bằng cách sử dụng các nền tảng không cần mã cho phép họ xây dựng mô hình và phân tích dữ liệu nhanh hơn bao giờ hết.

Nhưng dữ liệu thô không hữu ích khi chỉ sử dụng một mình. Trước khi có thể đưa vào các mô hình AI, dữ liệu phải được cấu trúc, làm sạch và dán nhãn—một quá trình thường được gọi là sắp xếp dữ liệu. Các công cụ nguồn mở như Pandas giúp chuyển đổi các tập dữ liệu lớn thành các định dạng có cấu trúc mà các mô hình AI có thể sử dụng. Tuy nhiên, quá trình này đòi hỏi lưu trữ dữ liệu cục bộ, hiệu quả và nhanh chóng để tránh các nút thắt làm chậm quá trình phát triển mô hình.

Thách thức của việc quản lý dữ liệu AI

Khối lượng lớn dữ liệu đào tạo AI đặt ra những thách thức đáng kể về mặt hậu cần. Việc lưu trữ và quản lý các tập dữ liệu lớn không chỉ liên quan đến năng lực mà còn liên quan đến chi phí, sự tuân thủ và khả năng truy cập.

Một số thách thức lớn nhất trong quản lý dữ liệu AI bao gồm:

• Chủ quyền và bảo mật dữ liệu. Các tổ chức phải tuân thủ các quy định về sở hữu trí tuệ, quyền riêng tư và kiểm soát quyền tài phán.

• Chi phí lưu trữ đám mây. Các tập dữ liệu AI được lưu trữ trên đám mây có thể đắt hơn từ năm đến 10 lần so với việc sử dụng các giải pháp NAS tại chỗ.

• Tắc nghẽn trong việc di chuyển dữ liệu. Việc chuyển các tập dữ liệu lớn qua các mạng diện rộng diễn ra chậm và tốn kém, gây ra sự chậm trễ cho các nhóm phân tán về mặt địa lý.

Các phương pháp lưu trữ tập trung truyền thống đang bị thách thức bởi các nguồn dữ liệu phân tán về mặt địa lý. Ngày càng nhiều chuyên gia AI chuyển sang các giải pháp lưu trữ biên cục bộ cung cấp khả năng kiểm soát tốt hơn, chi phí thấp hơn và độ trễ giảm.

Đưa lưu trữ dữ liệu AI đến gần hơn.

Thay vì chuyển các tập dữ liệu lớn đến các máy chủ đám mây tập trung, các tổ chức có thể xử lý và lưu trữ dữ liệu AI gần hơn với nơi dữ liệu được tạo ra. Phương pháp này, thường được gọi là điện toán biên, giúp giảm thiểu chi phí di chuyển dữ liệu đồng thời cải thiện hiệu suất.

Một giải pháp tiết kiệm chi phí là các hệ thống NAS nhỏ, lai cung cấp bộ lưu trữ cục bộ, hiệu suất cao cho khối lượng công việc AI. Không giống như NAS truyền thống, các hệ thống này tích hợp các công cụ AI được chứa trong container như Jupyter Notebooks, cho phép các chuyên gia trong lĩnh vực và nhà phát triển AI cộng tác trực tiếp trên chính hệ thống lưu trữ. Bằng cách loại bỏ nhu cầu truyền dữ liệu liên tục, các giải pháp NAS này giúp giảm chi phí vận hành đồng thời đẩy nhanh quá trình phát triển AI.

Xử lý dữ liệu AI tại biên cũng giúp các tổ chức kiểm soát tốt hơn các tập dữ liệu của mình. Duy trì chủ quyền đối với dữ liệu đào tạo AI đảm bảo tuân thủ các quy định của ngành và giảm rủi ro liên quan đến lưu trữ của bên thứ ba. Phương pháp này giúp quy trình làm việc của AI hiệu quả hơn bằng cách giữ dữ liệu gần với nơi dữ liệu được thu thập và phân tích.

Điện toán biên mang lại nhiều lợi thế cho quá trình phát triển AI:

• Giảm chi phí. Giảm chi phí lưu trữ đám mây và truyền dữ liệu.

• Phát triển AI nhanh hơn. Giữ dữ liệu đào tạo cục bộ để truy cập nhanh.

• Kiểm soát dữ liệu tốt hơn. Duy trì chủ quyền và sự tuân thủ bằng cách đảm bảo dữ liệu được lưu trữ và xử lý nội bộ.

Phòng thí nghiệm AI Edge: kiến ​​trúc và thiết lập hệ thống.

Để khám phá tính khả thi của việc chạy khối lượng công việc AI trên bộ lưu trữ cục bộ, chúng tôi đã xây dựng một cụm NAS gồm ba nút và đo hiệu suất lưu trữ của cụm này.

Cấu hình hệ thống:

Phần cứng:

• Bộ xử lý Intel N5095 (sử dụng ít điện năng)

• Cổng Ethernet 2.5GE kép

• 4 ổ cứng IronWolf® Pro 24TB (RAID5, 70TB có thể sử dụng cho mỗi nút)

• SSD tùy chọn và bộ xử lý tensor (TPU) để tăng tốc

Phần mềm:

• Các container Jupyter Notebook dành cho phát triển AI dựa trên Python

• NATS Jetstream cho nhắn tin chịu lỗi, lưu trữ khóa-giá trị và lưu trữ đối tượng

• Sao chép dữ liệu đa nút để dự phòng và phục hồi

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Kiểm tra hiệu suất: đánh giá lưu trữ và mạng.

Đầu tiên, chúng tôi đo hiệu suất của một nút đơn để thiết lập đường cơ sở cho thông lượng. Hệ thống đạt 200 MB/giây cho mỗi liên kết 2,5GE để truyền dữ liệu lớn.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Tiếp theo, chúng tôi phân tích cách sao chép đa nút ảnh hưởng đến hiệu suất. Trong khi sao chép dữ liệu làm tăng lưu lượng mạng, nó có tác động tối thiểu đến hiệu suất đọc— một lợi thế quan trọng đối với khối lượng công việc yêu cầu tính nhất quán dữ liệu trên nhiều nút.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Các bài kiểm tra hiệu suất mạng cho thấy việc thêm liên kết 2,5GE thứ hai chỉ mang lại lợi ích ghi nhỏ, trong khi mạng 10GE cải thiện hiệu suất trong một số trường hợp nhất định.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Đào tạo AI thực tế tại biên giới.

Để mô phỏng quy trình làm việc AI, chúng tôi đã thử nghiệm một tác vụ học máy thực tế bằng hệ thống NAS. Chúng tôi đã đào tạo một mô hình phân loại thuyền bằng cách sử dụng tập dữ liệu gồm 500 hình ảnh được gắn nhãn, chạy trích xuất tính năng và đào tạo mô hình cục bộ.

Sau khi lưu trữ hình ảnh trong một thùng lưu trữ đối tượng có nhãn siêu dữ liệu, chúng tôi đã sử dụng PyTorch Img2Vec để trích xuất các tính năng từ mỗi hình ảnh và sau đó đào tạo một bộ phân loại rừng ngẫu nhiên. Mô hình kết quả đạt được độ chính xác 78% trong vòng chưa đầy một phút.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Những quan sát chính từ thử nghiệm này bao gồm:

• Việc trích xuất tính năng tốn nhiều thời gian nhất (81%), làm tăng nhu cầu lưu trữ cục bộ nhanh.

• Việc đào tạo mô hình AI được hoàn thành trong vòng chưa đầy một phút, chứng minh hiệu quả của NAS cục bộ đối với quy trình làm việc AI.

• Các chuyên gia trong lĩnh vực này không được đào tạo chính thức về AI vẫn có thể tiến hành thử nghiệm thành công, chứng minh tính khả thi của phương pháp này.

Thí nghiệm này chứng minh rằng lưu trữ NAS cục bộ có thể đóng vai trò là trung tâm dữ liệu AI tiết kiệm chi phí, giảm sự phụ thuộc vào các dịch vụ đám mây đồng thời cải thiện khả năng truy cập và hiệu suất.

Suy nghĩ cuối cùng: Lưu trữ AI phải phát triển.

Tương lai của AI phụ thuộc vào lưu trữ dữ liệu hiệu quả, tiết kiệm chi phí và có khả năng mở rộng. Khi khối lượng dữ liệu tiếp tục tăng, các tổ chức phải xem xét lại cách họ lưu trữ và quản lý các tập dữ liệu AI.

Các giải pháp NAS cục bộ cung cấp giải pháp thay thế thiết thực cho bộ lưu trữ đám mây đắt tiền, cho phép các nhóm AI:

• Giảm chi phí trong khi vẫn duy trì khả năng truy cập dữ liệu hiệu suất cao.

• Cải thiện hiệu quả quy trình làm việc của AI bằng cách giữ dữ liệu gần với quá trình tính toán.

• Tăng cường tính tuân thủ và chủ quyền bằng cách kiểm soát nơi lưu trữ dữ liệu AI.

Giống như oxy duy trì sự sống, lưu trữ dữ liệu duy trì sự đổi mới AI. Bằng cách làm cho lưu trữ hỗ trợ AI dễ tiếp cận hơn, tiết kiệm chi phí hơn và hiệu suất cao hơn, các tổ chức có thể đẩy nhanh các đột phá do AI thúc đẩy.



Tin tức liên quan

Công Nghệ Ghi Từ Tính Vuông Góc Được Hỗ Trợ Năng Lượng ePMR Của Western Digital
Công Nghệ Ghi Từ Tính Vuông Góc Được Hỗ Trợ Năng Lượng ePMR Của Western Digital

499 Lượt xem

Công Nghệ Ghi Từ Tính Vuông Góc Được Hỗ Trợ Năng Lượng ePMR Của Western Digital

Đôi khi “khoảnh khắc aha” của sự đổi mới xuất hiện khi đang trên đường đến một điểm đến khác.

Màn hình cong gaming ViewSonic 32 inch VX3218-PC-MHD
Màn hình cong gaming ViewSonic 32 inch VX3218-PC-MHD

902 Lượt xem

Màn hình cong gaming ViewSonic 32 inch VX3218-PC-MHD

Nếu như bạn đang tìm kiếm một sản phẩm màn hình gaming kích cỡ lớn thì không thể bỏ qua màn hình cong gaming ViewSonic 32 inch VX3218-PC-MHD.

Tốc độ làm mới 165Hz cho trải nghiệm chơi mượt mà.

Thời gian phản hồi 1ms (MPRT) cho độ chính xác

Màn hình cong 1500R cho hình ảnh sống động

AMD Adaptive ™ Sync ngăn chặn hiện tượng xé màn hình

Độ phân giải Full HD cho chi tiết sắc nét

Lý do nên lắp đặt camera Imou Bullet cho cửa hàng, shop kinh doanh
Lý do nên lắp đặt camera Imou Bullet cho cửa hàng, shop kinh doanh

972 Lượt xem

Vì sao nên lắp đặt camera Imou Bullet cho cửa hàng/shop?

Vấn đề an ninh luôn được các chủ cửa hàng, shop kinh doanh quan tâm. Để đảm bảo an toàn về tài sản, phương án tốt nhất là lựa chọn lắp đặt camera an ninh. Nên lựa chọn camera nào?

Nếu bạn cũng có băn khoăn này, camera Imou Bullet  được xem là một gợi ý rất đáng tham khảo.

Giải Pháp Ảo Hóa Trên NAS Synology
Giải Pháp Ảo Hóa Trên NAS Synology

1007 Lượt xem

Giải Pháp Ảo Hóa Trên NAS Synology

Các giải pháp ảo hóa của Synology khai thác sức mạnh của NAS để chạy các máy ảo hoặc dùng làm bộ nhớ cho môi trường máy ảo, đồng thời vẫn đảm bảo an toàn và tính sẵn sàng cho dữ liệu của bạn.

Seagate - Lợi Ích Của Hệ Thống Lưu Trữ Dữ Liệu Phân Tán
Seagate - Lợi Ích Của Hệ Thống Lưu Trữ Dữ Liệu Phân Tán

612 Lượt xem

Seagate - Lợi Ích Của Hệ Thống Lưu Trữ Dữ Liệu Phân Tán

Khám phá những lợi thế của hệ thống lưu trữ dữ liệu phân tán để nâng cao khả năng mở rộng, độ tin cậy và hiệu suất cho nhu cầu kinh doanh ngày càng phát triển của bạn.

Seagate khởi động chương trình Thu hồi và tái chế ổ cứng tại Việt Nam
Seagate khởi động chương trình Thu hồi và tái chế ổ cứng tại Việt Nam

575 Lượt xem

Seagate khởi động chương trình Thu hồi và Tái chế Ổ cứng tại Việt Nam

Seagate Technology vừa khởi động chương trình Thu hồi và Tái chế Ổ cứng tại Việt Nam. Giờ đây, người dùng có thể tái sinh các ổ cứng cũ thông qua Sáng Kiến Ổ Cứng “Tuần Hoàn” của SeagateĐây là một phần trong sáng kiến bền vững của Seagate với mục tiêu giảm thiểu rác thải sinh hoạt được tạo ra từ các ổ cứng đã qua sử dụng hoặc ngừng hoạt động.

Giải Pháp Đám Mây Lưu Trữ C2 Storage Từ Synology
Giải Pháp Đám Mây Lưu Trữ C2 Storage Từ Synology

457 Lượt xem

Giải Pháp Đám Mây Lưu Trữ C2 Storage Từ Synology

Để đáp ứng nhu cầu lưu trữ và quản lý dữ liệu hiệu quả của các doanh nghiệp, Synology đã cho ra mắt dịch vụ C2 Storage với nhiều tính năng và ưu điểm vượt trội. Hãy cùng MaxLink tìm hiểu thêm về pháp đám mây lưu trữ C2 Storage từ Synology trong bài viết dưới đây.

THÔNG BÁO CẬP NHẬT GIÁ MỚI CHO CÁC SẢN PHẨM NAS SYNOLOGY
THÔNG BÁO CẬP NHẬT GIÁ MỚI CHO CÁC SẢN PHẨM NAS SYNOLOGY

881 Lượt xem

THÔNG BÁO CẬP NHẬT GIÁ MỚI CHO CÁC SẢN PHẨM NAS SYNOLOGY:

DS220J, DS1621+, DS1821+

Công Cụ Nhận Diện Khuôn Mặt Face Recognition Đến Từ Synology
Công Cụ Nhận Diện Khuôn Mặt Face Recognition Đến Từ Synology

697 Lượt xem

Công Cụ Nhận Diện Khuôn Mặt Face Recognition Đến Từ Synology

Công nghệ nhận diện khuôn mặt AI đã tạo nên một bước đột phá mới trong lĩnh vực khoa học kỹ thuật, công nghệ nhận dạng khuôn mặt hiện đang được ứng dụng trong nhiều ngành nghề khác nhau như ngân hàng, y tế, chính trị,... đặc biệt phát triển mạnh trên hệ thống camera giám sát. Vậy công nghệ này hoạt động ra sao? Hãy tìm hiểu cùng MaxLink thông qua bài viết này nhé!

Giải Pháp Giám Sát IP Từ Synology
Giải Pháp Giám Sát IP Từ Synology

591 Lượt xem

Giải Pháp Giám Sát IP Từ Synology

Bạn đang tìm kiếm cảnh quay rõ ràng hơn, tính năng nâng cao và tích hợp thiết bị đa dạng? Synology cung cấp sự chuyển đổi dễ dàng sang hệ thống dựa trên mạng, có thể thích ứng với nhu cầu ngày càng tăng của bạn.


Bình luận
Đã thêm vào giỏ hàng