Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Trí tuệ nhân tạo (AI) và máy học (ML) đã thúc đẩy những đột phá mang tính chuyển đổi, từ dự đoán cấu trúc protein đến cho phép dịch ngôn ngữ theo thời gian thực. Trọng tâm của những đổi mới này là nhu cầu không thể thỏa mãn đối với dữ liệu chất lượng cao. Các mô hình AI phát triển mạnh trên các tập dữ liệu khổng lồ, nhưng nếu không có bộ lưu trữ dữ liệu đáng tin cậy và tiết kiệm chi phí, các mô hình này—và những hiểu biết mà chúng tạo ra—sẽ không đạt được tiềm năng của chúng.

Giống như oxy cung cấp nhiên liệu cho trí óc con người, lưu trữ dữ liệu thúc đẩy sự phát triển của AI. Khả năng lưu trữ, truy cập và xử lý dữ liệu hiệu quả quyết định mức độ hiệu quả của việc đào tạo và tinh chỉnh các mô hình AI. Tuy nhiên, khi nhu cầu về các giải pháp do AI thúc đẩy tăng lên, thì thách thức trong việc quản lý vòng đời của dữ liệu AI cũng tăng theo—từ thu thập đến lưu trữ đến xử lý—trong khi vẫn kiểm soát được chi phí và tính phức tạp.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Nhu cầu ngày càng tăng về dữ liệu hỗ trợ AI.

Khoa học dữ liệu đã phát triển từ bảng tính và phân tích đơn giản thành những hiểu biết mạnh mẽ do ML thúc đẩy. Ngày nay, Bộ Lao động Hoa Kỳ báo cáo rằng có hơn 200.000 việc làm khoa học dữ liệu, với mức tăng trưởng dự kiến ​​là 36% trong thập kỷ tới. Các chuyên gia trong nhiều ngành đang kết hợp các công cụ AI vào quy trình làm việc của họ, ngay cả khi không được đào tạo chính thức về khoa học dữ liệu, bằng cách sử dụng các nền tảng không cần mã cho phép họ xây dựng mô hình và phân tích dữ liệu nhanh hơn bao giờ hết.

Nhưng dữ liệu thô không hữu ích khi chỉ sử dụng một mình. Trước khi có thể đưa vào các mô hình AI, dữ liệu phải được cấu trúc, làm sạch và dán nhãn—một quá trình thường được gọi là sắp xếp dữ liệu. Các công cụ nguồn mở như Pandas giúp chuyển đổi các tập dữ liệu lớn thành các định dạng có cấu trúc mà các mô hình AI có thể sử dụng. Tuy nhiên, quá trình này đòi hỏi lưu trữ dữ liệu cục bộ, hiệu quả và nhanh chóng để tránh các nút thắt làm chậm quá trình phát triển mô hình.

Thách thức của việc quản lý dữ liệu AI

Khối lượng lớn dữ liệu đào tạo AI đặt ra những thách thức đáng kể về mặt hậu cần. Việc lưu trữ và quản lý các tập dữ liệu lớn không chỉ liên quan đến năng lực mà còn liên quan đến chi phí, sự tuân thủ và khả năng truy cập.

Một số thách thức lớn nhất trong quản lý dữ liệu AI bao gồm:

• Chủ quyền và bảo mật dữ liệu. Các tổ chức phải tuân thủ các quy định về sở hữu trí tuệ, quyền riêng tư và kiểm soát quyền tài phán.

• Chi phí lưu trữ đám mây. Các tập dữ liệu AI được lưu trữ trên đám mây có thể đắt hơn từ năm đến 10 lần so với việc sử dụng các giải pháp NAS tại chỗ.

• Tắc nghẽn trong việc di chuyển dữ liệu. Việc chuyển các tập dữ liệu lớn qua các mạng diện rộng diễn ra chậm và tốn kém, gây ra sự chậm trễ cho các nhóm phân tán về mặt địa lý.

Các phương pháp lưu trữ tập trung truyền thống đang bị thách thức bởi các nguồn dữ liệu phân tán về mặt địa lý. Ngày càng nhiều chuyên gia AI chuyển sang các giải pháp lưu trữ biên cục bộ cung cấp khả năng kiểm soát tốt hơn, chi phí thấp hơn và độ trễ giảm.

Đưa lưu trữ dữ liệu AI đến gần hơn.

Thay vì chuyển các tập dữ liệu lớn đến các máy chủ đám mây tập trung, các tổ chức có thể xử lý và lưu trữ dữ liệu AI gần hơn với nơi dữ liệu được tạo ra. Phương pháp này, thường được gọi là điện toán biên, giúp giảm thiểu chi phí di chuyển dữ liệu đồng thời cải thiện hiệu suất.

Một giải pháp tiết kiệm chi phí là các hệ thống NAS nhỏ, lai cung cấp bộ lưu trữ cục bộ, hiệu suất cao cho khối lượng công việc AI. Không giống như NAS truyền thống, các hệ thống này tích hợp các công cụ AI được chứa trong container như Jupyter Notebooks, cho phép các chuyên gia trong lĩnh vực và nhà phát triển AI cộng tác trực tiếp trên chính hệ thống lưu trữ. Bằng cách loại bỏ nhu cầu truyền dữ liệu liên tục, các giải pháp NAS này giúp giảm chi phí vận hành đồng thời đẩy nhanh quá trình phát triển AI.

Xử lý dữ liệu AI tại biên cũng giúp các tổ chức kiểm soát tốt hơn các tập dữ liệu của mình. Duy trì chủ quyền đối với dữ liệu đào tạo AI đảm bảo tuân thủ các quy định của ngành và giảm rủi ro liên quan đến lưu trữ của bên thứ ba. Phương pháp này giúp quy trình làm việc của AI hiệu quả hơn bằng cách giữ dữ liệu gần với nơi dữ liệu được thu thập và phân tích.

Điện toán biên mang lại nhiều lợi thế cho quá trình phát triển AI:

• Giảm chi phí. Giảm chi phí lưu trữ đám mây và truyền dữ liệu.

• Phát triển AI nhanh hơn. Giữ dữ liệu đào tạo cục bộ để truy cập nhanh.

• Kiểm soát dữ liệu tốt hơn. Duy trì chủ quyền và sự tuân thủ bằng cách đảm bảo dữ liệu được lưu trữ và xử lý nội bộ.

Phòng thí nghiệm AI Edge: kiến ​​trúc và thiết lập hệ thống.

Để khám phá tính khả thi của việc chạy khối lượng công việc AI trên bộ lưu trữ cục bộ, chúng tôi đã xây dựng một cụm NAS gồm ba nút và đo hiệu suất lưu trữ của cụm này.

Cấu hình hệ thống:

Phần cứng:

• Bộ xử lý Intel N5095 (sử dụng ít điện năng)

• Cổng Ethernet 2.5GE kép

• 4 ổ cứng IronWolf® Pro 24TB (RAID5, 70TB có thể sử dụng cho mỗi nút)

• SSD tùy chọn và bộ xử lý tensor (TPU) để tăng tốc

Phần mềm:

• Các container Jupyter Notebook dành cho phát triển AI dựa trên Python

• NATS Jetstream cho nhắn tin chịu lỗi, lưu trữ khóa-giá trị và lưu trữ đối tượng

• Sao chép dữ liệu đa nút để dự phòng và phục hồi

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Kiểm tra hiệu suất: đánh giá lưu trữ và mạng.

Đầu tiên, chúng tôi đo hiệu suất của một nút đơn để thiết lập đường cơ sở cho thông lượng. Hệ thống đạt 200 MB/giây cho mỗi liên kết 2,5GE để truyền dữ liệu lớn.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Tiếp theo, chúng tôi phân tích cách sao chép đa nút ảnh hưởng đến hiệu suất. Trong khi sao chép dữ liệu làm tăng lưu lượng mạng, nó có tác động tối thiểu đến hiệu suất đọc— một lợi thế quan trọng đối với khối lượng công việc yêu cầu tính nhất quán dữ liệu trên nhiều nút.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Các bài kiểm tra hiệu suất mạng cho thấy việc thêm liên kết 2,5GE thứ hai chỉ mang lại lợi ích ghi nhỏ, trong khi mạng 10GE cải thiện hiệu suất trong một số trường hợp nhất định.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Đào tạo AI thực tế tại biên giới.

Để mô phỏng quy trình làm việc AI, chúng tôi đã thử nghiệm một tác vụ học máy thực tế bằng hệ thống NAS. Chúng tôi đã đào tạo một mô hình phân loại thuyền bằng cách sử dụng tập dữ liệu gồm 500 hình ảnh được gắn nhãn, chạy trích xuất tính năng và đào tạo mô hình cục bộ.

Sau khi lưu trữ hình ảnh trong một thùng lưu trữ đối tượng có nhãn siêu dữ liệu, chúng tôi đã sử dụng PyTorch Img2Vec để trích xuất các tính năng từ mỗi hình ảnh và sau đó đào tạo một bộ phân loại rừng ngẫu nhiên. Mô hình kết quả đạt được độ chính xác 78% trong vòng chưa đầy một phút.

Lưu Trữ Dữ Liệu Chính Là Oxy Của Máy Học Và AI

Những quan sát chính từ thử nghiệm này bao gồm:

• Việc trích xuất tính năng tốn nhiều thời gian nhất (81%), làm tăng nhu cầu lưu trữ cục bộ nhanh.

• Việc đào tạo mô hình AI được hoàn thành trong vòng chưa đầy một phút, chứng minh hiệu quả của NAS cục bộ đối với quy trình làm việc AI.

• Các chuyên gia trong lĩnh vực này không được đào tạo chính thức về AI vẫn có thể tiến hành thử nghiệm thành công, chứng minh tính khả thi của phương pháp này.

Thí nghiệm này chứng minh rằng lưu trữ NAS cục bộ có thể đóng vai trò là trung tâm dữ liệu AI tiết kiệm chi phí, giảm sự phụ thuộc vào các dịch vụ đám mây đồng thời cải thiện khả năng truy cập và hiệu suất.

Suy nghĩ cuối cùng: Lưu trữ AI phải phát triển.

Tương lai của AI phụ thuộc vào lưu trữ dữ liệu hiệu quả, tiết kiệm chi phí và có khả năng mở rộng. Khi khối lượng dữ liệu tiếp tục tăng, các tổ chức phải xem xét lại cách họ lưu trữ và quản lý các tập dữ liệu AI.

Các giải pháp NAS cục bộ cung cấp giải pháp thay thế thiết thực cho bộ lưu trữ đám mây đắt tiền, cho phép các nhóm AI:

• Giảm chi phí trong khi vẫn duy trì khả năng truy cập dữ liệu hiệu suất cao.

• Cải thiện hiệu quả quy trình làm việc của AI bằng cách giữ dữ liệu gần với quá trình tính toán.

• Tăng cường tính tuân thủ và chủ quyền bằng cách kiểm soát nơi lưu trữ dữ liệu AI.

Giống như oxy duy trì sự sống, lưu trữ dữ liệu duy trì sự đổi mới AI. Bằng cách làm cho lưu trữ hỗ trợ AI dễ tiếp cận hơn, tiết kiệm chi phí hơn và hiệu suất cao hơn, các tổ chức có thể đẩy nhanh các đột phá do AI thúc đẩy.



Tin tức liên quan

Phương Pháp Khôi Phục Và Bảo Vệ Tệp Video Từ Seagate
Phương Pháp Khôi Phục Và Bảo Vệ Tệp Video Từ Seagate

533 Lượt xem

Phương Pháp Khôi Phục Và Bảo Vệ Tệp Video Từ Seagate

Khám phá các chiến lược chính để bảo vệ các tệp video và khôi phục các tệp bị hỏng, đảm bảo doanh nghiệp của bạn vẫn hoạt động ổn định.

MACH.2 – Công Nghệ Ổ Cứng Đa Bộ Truyền Động Của Seagate
MACH.2 – Công Nghệ Ổ Cứng Đa Bộ Truyền Động Của Seagate

482 Lượt xem

MACH.2 – Công Nghệ Ổ Cứng Đa Bộ Truyền Động Của Seagate

Trên con đường không ngừng phát triển của công nghệ, MACH.2 – công nghệ ổ cứng đa bộ truyền động của Seagate đã làm nổi bật tầm vóc của ngành lưu trữ dữ liệu hiện đại. Với tốc độ và sự tin cậy vượt trội, MACH.2 đã chứng minh vai trò quan trọng của mình trong việc đáp ứng nhu cầu lưu trữ ngày càng tăng của thế giới kỹ thuật số.

Các tính năng trên điện thoại di động cho Surveillance Station của bạn
Các tính năng trên điện thoại di động cho Surveillance Station của bạn

441 Lượt xem

Các tính năng trên điện thoại di động cho Surveillance Station của bạn
Xây dựng các giải pháp giám sát di động với Synology DS cam và Synology LiveCam, kiểm soát tất cả các hoạt động mọi lúc mọi nơi
.

Synology giới thiệu thiết bị NAS DiskStation DS223 hai khay để quản lý tập tin đơn giản và hiệu quả
Synology giới thiệu thiết bị NAS DiskStation DS223 hai khay để quản lý tập tin đơn giản và hiệu quả

667 Lượt xem

Synology giới thiệu thiết bị NAS DiskStation DS223 hai khay để quản lý tập tin đơn giản và hiệu quả

Vào ngày 11/01/2023, Synology đã khởi động năm 2023 bằng cách cho ra mắt sản phẩm mới, đó chính là Diskstation DS233 2-bay, đây là thiết bị NAS mới nhất của dòng sản phẩm máy chủ lưu trữ được thiết kế dành cho nhu cầu sử dụng gia đình và SOHO.

Hôm nay MaxLink có gì!!!
Hôm nay MaxLink có gì!!!

997 Lượt xem

Hôm nay MaxLink có gì!!!

Combo siêu HOT Nas QNAP Giải pháp mở rộng dung lượng lưu trữ an toàn, nhanh chóng cho NAS đi kèm ổ cứng có dung lượng lớn nhất nhì thế giới Seagate EXOS 18TB cùng với hệ thống giám sát an toàn camera IMOU. Hãy cùng MaxLink đi tìm hiểu những điểm nổi bật, những công nghệ được trang bị cho những sản phẩm này nhé!! tìm hiểu về các dòng sản phẩm trên nhé!

Lưu Trữ Được Đề Xuất Cho PC Chơi Game
Lưu Trữ Được Đề Xuất Cho PC Chơi Game

418 Lượt xem

Lưu Trữ Được Đề Xuất Cho PC Chơi Game

Hiểu được các tùy chọn lưu trữ được khuyến nghị nhiều nhất cho PC chơi game là chìa khóa để đảm bảo hiệu suất, tốc độ và độ tin cậy tối ưu, đồng thời mang lại trải nghiệm chơi game liền mạch và hấp dẫn.

Công Nghệ Triple Stage Actuator Trên Ổ Cứng Của Western Digital
Công Nghệ Triple Stage Actuator Trên Ổ Cứng Của Western Digital

603 Lượt xem

Công Nghệ Triple Stage Actuator Trên Ổ Cứng Của Western Digital

Công nghệ Triple Stage Actuator trên ổ cứng của Western Digital không chỉ là một bước tiến quan trọng mà còn là minh chứng cho sự cam kết của hãng trong việc nâng cao hiệu suất và độ tin cậy của sản phẩm. Công nghệ Triple Stage Actuator sử dụng đến 3 điểm trục để điều khiển chính xác vị trí của đầu đọc/ghi và là một cải tiến nâng cấp từ công nghệ Dual Stage Actuator hiện tại của Western Digital.

Western Digital - Mật Độ Vùng Ổ Cứng Là Gì?
Western Digital - Mật Độ Vùng Ổ Cứng Là Gì?

479 Lượt xem

1. Mật độ diện tích là gì?

Mật độ vùng là lượng dữ liệu có thể được lưu trữ trên mỗi inch vuông trên bề mặt đĩa. 

Với mật độ vùng tăng lên, nhiều dữ liệu hơn có thể được lưu trữ trong một không gian vật lý nhỏ hơn.

Công Nghệ Ổ Cứng Helium Của Western Digital
Công Nghệ Ổ Cứng Helium Của Western Digital

831 Lượt xem

Công Nghệ Ổ Cứng Helium Của Western Digital

Helium là một trong những bước đột phá lớn nhất đối với ổ cứng dung lượng cao (HDD). Nhẹ hơn không khí bảy lần, khí heli tạo ra ít lực cản và nhiễu loạn hơn khi đĩa cứng quay. Nó chạy ở nhiệt độ mát hơn và khi bịt kín, nó sẽ giữ được độ ẩm. Tất cả những lợi ích đó giúp tăng đáng kể dung lượng lưu trữ dữ liệu, tiêu thụ điện năng thấp hơn và độ tin cậy cao hơn.

Giải Pháp Bảo Mật Dữ Liệu Cho Các Cơ Sở Chăm Sóc Sức Khỏe Cùng NAS Synology
Giải Pháp Bảo Mật Dữ Liệu Cho Các Cơ Sở Chăm Sóc Sức Khỏe Cùng NAS Synology

559 Lượt xem

Giải Pháp Bảo Mật Dữ Liệu Cho Các Cơ Sở Chăm Sóc Sức Khỏe Cùng NAS Synology

Vì dữ liệu chăm sóc sức khỏe được dự đoán sẽ tăng theo cấp số nhân trong những năm tới, các bệnh viện, cơ sở chăm sóc sức khỏe và tổ chức chăm sóc sức khỏe phải đảm bảo dữ liệu bệnh nhân được lưu trữ an toàn để mang lại sự an tâm cho bệnh nhân và đáp ứng tuân thủ quy định.


Bình luận
Đã thêm vào giỏ hàng