Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Trí tuệ nhân tạo (AI) và máy học (ML) đã thúc đẩy những đột phá mang tính chuyển đổi, từ dự đoán cấu trúc protein đến cho phép dịch ngôn ngữ theo thời gian thực. Trọng tâm của những đổi mới này là nhu cầu không thể thỏa mãn đối với dữ liệu chất lượng cao. Các mô hình AI phát triển mạnh trên các tập dữ liệu khổng lồ, nhưng nếu không có bộ lưu trữ dữ liệu đáng tin cậy và tiết kiệm chi phí, các mô hình này—và những hiểu biết mà chúng tạo ra—sẽ không đạt được tiềm năng của chúng.

Giống như oxy cung cấp nhiên liệu cho trí óc con người, lưu trữ dữ liệu thúc đẩy sự phát triển của AI. Khả năng lưu trữ, truy cập và xử lý dữ liệu hiệu quả quyết định mức độ hiệu quả của việc đào tạo và tinh chỉnh các mô hình AI. Tuy nhiên, khi nhu cầu về các giải pháp do AI thúc đẩy tăng lên, thì thách thức trong việc quản lý vòng đời của dữ liệu AI cũng tăng theo—từ thu thập đến lưu trữ đến xử lý—trong khi vẫn kiểm soát được chi phí và tính phức tạp.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Nhu cầu ngày càng tăng về dữ liệu hỗ trợ AI.

Khoa học dữ liệu đã phát triển từ bảng tính và phân tích đơn giản thành những hiểu biết mạnh mẽ do ML thúc đẩy. Ngày nay, Bộ Lao động Hoa Kỳ báo cáo rằng có hơn 200.000 việc làm khoa học dữ liệu, với mức tăng trưởng dự kiến ​​là 36% trong thập kỷ tới. Các chuyên gia trong nhiều ngành đang kết hợp các công cụ AI vào quy trình làm việc của họ, ngay cả khi không được đào tạo chính thức về khoa học dữ liệu, bằng cách sử dụng các nền tảng không cần mã cho phép họ xây dựng mô hình và phân tích dữ liệu nhanh hơn bao giờ hết.

Nhưng dữ liệu thô không hữu ích khi chỉ sử dụng một mình. Trước khi có thể đưa vào các mô hình AI, dữ liệu phải được cấu trúc, làm sạch và dán nhãn—một quá trình thường được gọi là sắp xếp dữ liệu. Các công cụ nguồn mở như Pandas giúp chuyển đổi các tập dữ liệu lớn thành các định dạng có cấu trúc mà các mô hình AI có thể sử dụng. Tuy nhiên, quá trình này đòi hỏi lưu trữ dữ liệu cục bộ, hiệu quả và nhanh chóng để tránh các nút thắt làm chậm quá trình phát triển mô hình.

Thách thức của việc quản lý dữ liệu AI

Khối lượng lớn dữ liệu đào tạo AI đặt ra những thách thức đáng kể về mặt hậu cần. Việc lưu trữ và quản lý các tập dữ liệu lớn không chỉ liên quan đến năng lực mà còn liên quan đến chi phí, sự tuân thủ và khả năng truy cập.

Một số thách thức lớn nhất trong quản lý dữ liệu AI bao gồm:

• Chủ quyền và bảo mật dữ liệu. Các tổ chức phải tuân thủ các quy định về sở hữu trí tuệ, quyền riêng tư và kiểm soát quyền tài phán.

• Chi phí lưu trữ đám mây. Các tập dữ liệu AI được lưu trữ trên đám mây có thể đắt hơn từ năm đến 10 lần so với việc sử dụng các giải pháp NAS tại chỗ.

• Tắc nghẽn trong việc di chuyển dữ liệu. Việc chuyển các tập dữ liệu lớn qua các mạng diện rộng diễn ra chậm và tốn kém, gây ra sự chậm trễ cho các nhóm phân tán về mặt địa lý.

Các phương pháp lưu trữ tập trung truyền thống đang bị thách thức bởi các nguồn dữ liệu phân tán về mặt địa lý. Ngày càng nhiều chuyên gia AI chuyển sang các giải pháp lưu trữ biên cục bộ cung cấp khả năng kiểm soát tốt hơn, chi phí thấp hơn và độ trễ giảm.

Đưa lưu trữ dữ liệu AI đến gần hơn.

Thay vì chuyển các tập dữ liệu lớn đến các máy chủ đám mây tập trung, các tổ chức có thể xử lý và lưu trữ dữ liệu AI gần hơn với nơi dữ liệu được tạo ra. Phương pháp này, thường được gọi là điện toán biên, giúp giảm thiểu chi phí di chuyển dữ liệu đồng thời cải thiện hiệu suất.

Một giải pháp tiết kiệm chi phí là các hệ thống NAS nhỏ, lai cung cấp bộ lưu trữ cục bộ, hiệu suất cao cho khối lượng công việc AI. Không giống như NAS truyền thống, các hệ thống này tích hợp các công cụ AI được chứa trong container như Jupyter Notebooks, cho phép các chuyên gia trong lĩnh vực và nhà phát triển AI cộng tác trực tiếp trên chính hệ thống lưu trữ. Bằng cách loại bỏ nhu cầu truyền dữ liệu liên tục, các giải pháp NAS này giúp giảm chi phí vận hành đồng thời đẩy nhanh quá trình phát triển AI.

Xử lý dữ liệu AI tại biên cũng giúp các tổ chức kiểm soát tốt hơn các tập dữ liệu của mình. Duy trì chủ quyền đối với dữ liệu đào tạo AI đảm bảo tuân thủ các quy định của ngành và giảm rủi ro liên quan đến lưu trữ của bên thứ ba. Phương pháp này giúp quy trình làm việc của AI hiệu quả hơn bằng cách giữ dữ liệu gần với nơi dữ liệu được thu thập và phân tích.

Điện toán biên mang lại nhiều lợi thế cho quá trình phát triển AI:

• Giảm chi phí. Giảm chi phí lưu trữ đám mây và truyền dữ liệu.

• Phát triển AI nhanh hơn. Giữ dữ liệu đào tạo cục bộ để truy cập nhanh.

• Kiểm soát dữ liệu tốt hơn. Duy trì chủ quyền và sự tuân thủ bằng cách đảm bảo dữ liệu được lưu trữ và xử lý nội bộ.

Phòng thí nghiệm AI Edge: kiến ​​trúc và thiết lập hệ thống.

Để khám phá tính khả thi của việc chạy khối lượng công việc AI trên bộ lưu trữ cục bộ, chúng tôi đã xây dựng một cụm NAS gồm ba nút và đo hiệu suất lưu trữ của cụm này.

Cấu hình hệ thống:

Phần cứng:

• Bộ xử lý Intel N5095 (sử dụng ít điện năng)

• Cổng Ethernet 2.5GE kép

• 4 ổ cứng IronWolf® Pro 24TB (RAID5, 70TB có thể sử dụng cho mỗi nút)

• SSD tùy chọn và bộ xử lý tensor (TPU) để tăng tốc

Phần mềm:

• Các container Jupyter Notebook dành cho phát triển AI dựa trên Python

• NATS Jetstream cho nhắn tin chịu lỗi, lưu trữ khóa-giá trị và lưu trữ đối tượng

• Sao chép dữ liệu đa nút để dự phòng và phục hồi

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Kiểm tra hiệu suất: đánh giá lưu trữ và mạng.

Đầu tiên, chúng tôi đo hiệu suất của một nút đơn để thiết lập đường cơ sở cho thông lượng. Hệ thống đạt 200 MB/giây cho mỗi liên kết 2,5GE để truyền dữ liệu lớn.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Tiếp theo, chúng tôi phân tích cách sao chép đa nút ảnh hưởng đến hiệu suất. Trong khi sao chép dữ liệu làm tăng lưu lượng mạng, nó có tác động tối thiểu đến hiệu suất đọc— một lợi thế quan trọng đối với khối lượng công việc yêu cầu tính nhất quán dữ liệu trên nhiều nút.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Các bài kiểm tra hiệu suất mạng cho thấy việc thêm liên kết 2,5GE thứ hai chỉ mang lại lợi ích ghi nhỏ, trong khi mạng 10GE cải thiện hiệu suất trong một số trường hợp nhất định.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Đào tạo AI thực tế tại biên giới.

Để mô phỏng quy trình làm việc AI, chúng tôi đã thử nghiệm một tác vụ học máy thực tế bằng hệ thống NAS. Chúng tôi đã đào tạo một mô hình phân loại thuyền bằng cách sử dụng tập dữ liệu gồm 500 hình ảnh được gắn nhãn, chạy trích xuất tính năng và đào tạo mô hình cục bộ.

Sau khi lưu trữ hình ảnh trong một thùng lưu trữ đối tượng có nhãn siêu dữ liệu, chúng tôi đã sử dụng PyTorch Img2Vec để trích xuất các tính năng từ mỗi hình ảnh và sau đó đào tạo một bộ phân loại rừng ngẫu nhiên. Mô hình kết quả đạt được độ chính xác 78% trong vòng chưa đầy một phút.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Những quan sát chính từ thử nghiệm này bao gồm:

• Việc trích xuất tính năng tốn nhiều thời gian nhất (81%), làm tăng nhu cầu lưu trữ cục bộ nhanh.

• Việc đào tạo mô hình AI được hoàn thành trong vòng chưa đầy một phút, chứng minh hiệu quả của NAS cục bộ đối với quy trình làm việc AI.

• Các chuyên gia trong lĩnh vực này không được đào tạo chính thức về AI vẫn có thể tiến hành thử nghiệm thành công, chứng minh tính khả thi của phương pháp này.

Thí nghiệm này chứng minh rằng lưu trữ NAS cục bộ có thể đóng vai trò là trung tâm dữ liệu AI tiết kiệm chi phí, giảm sự phụ thuộc vào các dịch vụ đám mây đồng thời cải thiện khả năng truy cập và hiệu suất.

Suy nghĩ cuối cùng: Lưu trữ AI phải phát triển.

Tương lai của AI phụ thuộc vào lưu trữ dữ liệu hiệu quả, tiết kiệm chi phí và có khả năng mở rộng. Khi khối lượng dữ liệu tiếp tục tăng, các tổ chức phải xem xét lại cách họ lưu trữ và quản lý các tập dữ liệu AI.

Các giải pháp NAS cục bộ cung cấp giải pháp thay thế thiết thực cho bộ lưu trữ đám mây đắt tiền, cho phép các nhóm AI:

• Giảm chi phí trong khi vẫn duy trì khả năng truy cập dữ liệu hiệu suất cao.

• Cải thiện hiệu quả quy trình làm việc của AI bằng cách giữ dữ liệu gần với quá trình tính toán.

• Tăng cường tính tuân thủ và chủ quyền bằng cách kiểm soát nơi lưu trữ dữ liệu AI.

Giống như oxy duy trì sự sống, lưu trữ dữ liệu duy trì sự đổi mới AI. Bằng cách làm cho lưu trữ hỗ trợ AI dễ tiếp cận hơn, tiết kiệm chi phí hơn và hiệu suất cao hơn, các tổ chức có thể đẩy nhanh các đột phá do AI thúc đẩy.



Tin tức liên quan

Camera Imou ngoài trời nào là sự lựa chọn cho bạn năm 2021?
Camera Imou ngoài trời nào là sự lựa chọn cho bạn năm 2021?

806 Lượt xem

Camera Imou ngoài trời nào là sự lựa chọn cho bạn năm 2021?

Camera ngoài trời Imou là dòng sản phẩm thiết thực mà bất cứ hộ gia đình nào cũng cần sử dụng. Không chỉ giúp người dùng kiểm soát các sự việc đang diễn ra ở cửa nhà, ngăn chăn sự xâm nhập của kẻ lạ, camera Imou ngoài trời còn giúp người dùng cung cấp các ghi hình cần thiết cho cơ quan công an khi cần phối hợp điều tra. Hãy cùng MaxLink tìm hiểu 03 sản phẩm camera ngoài trời Imou với nhiều tiện ích mà bạn không nên bỏ lỡ nhé!

Đánh giá ổ cứng 8TB của Toshiba N300
Đánh giá ổ cứng 8TB của Toshiba N300

2171 Lượt xem

Toshiba đang bổ sung vào dòng ổ đĩa X và P300 của mình với dòng sản phẩm N300 mới. Dòng sản phẩm này nhắm đến những người dùng NAS muốn có một giải pháp dung lượng cao, đáng tin cậy với tốc độ 7200 RPM. Sau đây MaxLink gửi bài review về dòng Sản phẩm N300 mới này cho các khách hiểu rõ hơn. 

Dịch Vụ Dữ Liệu Kubernetes Của Synology
Dịch Vụ Dữ Liệu Kubernetes Của Synology

553 Lượt xem

Dịch Vụ Dữ Liệu Kubernetes Của Synology

Với sự bùng nổ mạnh mẽ của các nền tảng ứng dụng nhằm đáp ứng nhu cầu người dùng tăng cao, các công nghệ phục vụ cho việc phát triển ứng dụng ở quy mô lớn với tốc độ ra mắt nhanh chóng trở nên cần thiết hơn bao giờ hết.

Hệ Thống Quản Lý Trung Tâm Synology
Hệ Thống Quản Lý Trung Tâm Synology

805 Lượt xem

Hệ Thống Quản Lý Trung Tâm Synology

Đơn giản hóa việc quản lý triển khai NAS Synology quy mô lớn hoặc phân tán với nền tảng thống nhất và trực quan.

Công Nghệ Truyền Động Kép MACH.2 – Nhân Đôi Hiệu Năng Ổ Cứng
Công Nghệ Truyền Động Kép MACH.2 – Nhân Đôi Hiệu Năng Ổ Cứng

841 Lượt xem

CÔNG NGHỆ TRUYỀN ĐỘNG KÉP MACH.2

NHÂN ĐÔI HIỆU NĂNG Ổ CỨNG

Sức mạnh máy tính, dung lượng và hiệu suất lưu trữ là ba nền tảng công nghệ phải thường xuyên đổi mới và phát triển, nhằm giúp các kỹ sư IT giải quyết những thách thức lớn của nhân loại.

10 Mẹo Sắp Xếp Tệp Và Thư Mục Để Tối Đa Hóa Hiệu Quả Sử Dụng Dữ Liệu
10 Mẹo Sắp Xếp Tệp Và Thư Mục Để Tối Đa Hóa Hiệu Quả Sử Dụng Dữ Liệu

282 Lượt xem

10 Mẹo Sắp Xếp Tệp Và Thư Mục Để Tối Đa Hóa Hiệu Quả Sử Dụng Dữ Liệu

Tìm hiểu các mẹo sắp xếp tệp kỹ thuật số để cấu trúc tệp tốt hơn, sử dụng kiểm soát phiên bản và tận dụng các giải pháp lưu trữ của Seagate để tối đa hóa hiệu quả dữ liệu.

Giải Pháp Bảo Vệ PC Hoặc Mac Của Bạn Bằng Giải Pháp BaaS Từ Synology
Giải Pháp Bảo Vệ PC Hoặc Mac Của Bạn Bằng Giải Pháp BaaS Từ Synology

467 Lượt xem

Giải Pháp Bảo Vệ PC Hoặc Mac Của Bạn Bằng Giải Pháp BaaS Từ Synology

Vì mối đe dọa mất dữ liệu, vi phạm dữ liệu và tấn công ransomware khiến quản trị viên CNTT phải thức đêm, với tư cách là người dùng PC hoặc Mac, bạn có đang thực hiện thẩm định và bảo vệ dữ liệu điểm cuối của mình không? Điều quan trọng là phải thường xuyên sao lưu các tệp, thư mục và dữ liệu khác được lưu trữ trên thiết bị của bạn để đảm bảo bạn yên tâm và dễ dàng khôi phục dữ liệu nếu có sự cố.

Chiến Lược Lưu Trữ Dữ Liệu Cho Bảo Mật Và Khả Năng Mở Rộng
Chiến Lược Lưu Trữ Dữ Liệu Cho Bảo Mật Và Khả Năng Mở Rộng

318 Lượt xem

Chiến Lược Lưu Trữ Dữ Liệu Cho Bảo Mật Và Khả Năng Mở Rộng

Các chiến lược lưu trữ dữ liệu bạn chọn cho doanh nghiệp của mình có thể tạo nên hoặc phá vỡ các nỗ lực quản lý dữ liệu và an ninh mạng của bạn. Nếu dữ liệu của bạn không dễ truy xuất, không thể mở rộng và không an toàn, điều này có thể gây ra tác động tiêu cực đáng kể đến hoạt động kinh doanh.

BẠN CÓ ĐANG LO LẮNG VỀ VẤN ĐỀ LƯU TRỮ DỮ LIỆU? BẠN ĐANG LƯU TRỮ DỮ LIỆU BẰNG CÁCH NÀO?
BẠN CÓ ĐANG LO LẮNG VỀ VẤN ĐỀ LƯU TRỮ DỮ LIỆU? BẠN ĐANG LƯU TRỮ DỮ LIỆU BẰNG CÁCH NÀO?

1001 Lượt xem

LIỆU BẠN CÓ ĐANG LO LẮNG VỀ VẤN ĐỀ LƯU TRỮ DỮ LIỆU? BẠN ĐANG LƯU TRỮ DỮ LIỆU BẰNG CÁCH NÀO?

Thiết bị lưu trữ NAS là gì? Tại sao cần sử dụng ổ cứng mạng NAS cho cá nhân gia đình hay doanh nghiệp của bạn?

Bí Quyết Bảo Vệ Dữ Liệu Lâu Dài Với Toshiba N300
Bí Quyết Bảo Vệ Dữ Liệu Lâu Dài Với Toshiba N300

335 Lượt xem

Trong kỷ nguyên số, dữ liệu là tài sản quý giá nhất. Việc lưu trữ an toàn và bền vững là yêu cầu hàng đầu của cá nhân và doanh nghiệp. Toshiba N300 – dòng ổ cứng được thiết kế riêng cho hệ thống NAS – mang đến giải pháp hoàn hảo, giúp bảo vệ dữ liệu lâu dài và tối ưu hóa hiệu suất lưu trữ.


Bình luận
Đã thêm vào giỏ hàng