Hiện Thực Hóa Lời Hứa Big Data Bằng Gen AI
Hiện Thực Hóa Lời Hứa Big Data Bằng Gen AI
Nhà bình luận Bob O'Donnell của Bloomberg và CNBC về việc dân chủ hóa phân tích dữ liệu và ý nghĩa của việc lưu trữ
Những ai đã theo dõi các xu hướng của ngành công nghệ lớn trong một thời gian chắc hẳn sẽ nhớ đến khái niệm "dữ liệu lớn". Ý tưởng là các công ty sẽ tập hợp tất cả các nguồn dữ liệu khác nhau mà họ có thể truy cập — tài liệu văn phòng và email truyền thống, dữ liệu quy trình kinh doanh, kết quả bán hàng, cơ sở dữ liệu khách hàng, video, nhật ký trò chuyện, v.v. — và sau đó khai thác tất cả dữ liệu đó để thu thập thông tin chi tiết có ý nghĩa nhằm hỗ trợ tổ chức của họ.
Về lý thuyết, khái niệm này khá vững chắc và kỳ vọng vào nó rất cao. Chắc chắn sẽ có những thông tin hữu ích tiềm ẩn và rất nhiều hiểu biết bất ngờ bắt đầu xuất hiện khi tất cả các nguồn dữ liệu khác nhau được kết hợp thành thứ mà những người ủng hộ tin rằng sẽ là một hỗn hợp ý nghĩa mạnh mẽ. Nhưng thật không may, trên thực tế, kết quả lại hoàn toàn khác.
Những thách thức ban đầu đối với dữ liệu lớn
Đầu tiên, việc tổ chức dữ liệu của một công ty thành một cấu trúc cho phép kết hợp hoặc so sánh các nguồn dữ liệu khác nhau một cách có ý nghĩa trở nên khó khăn hơn đáng kể. Không chỉ gặp khó khăn trong việc tổng hợp dữ liệu có cấu trúc và phi cấu trúc, mà còn gặp khó khăn trong việc định dạng lại, nhập, liên kết và thực hiện các hình thức xử lý dữ liệu khác.
Tuy nhiên, điều thậm chí còn khó khăn hơn là việc cố gắng phân tích các kho dữ liệu mà họ có quyền truy cập. Hóa ra chỉ những người được đào tạo chuyên sâu về các công cụ phân tích dữ liệu nâng cao — tức là các chuyên gia SQL — mới có thể kết hợp các lệnh rất phức tạp cần thiết để khai thác kho dữ liệu khổng lồ này. Thật không may, nhiều người trong số họ không biết loại truy vấn nào có thể tạo ra những hiểu biết bất ngờ mà dữ liệu lớn hứa hẹn. Những doanh nhân bình thường có hiểu biết về những câu hỏi đó không thể dễ dàng tạo ra các truy vấn, và rất nhiều nỗ lực cuối cùng đã bị lãng phí trong quá trình chuyển đổi giữa hai nhóm.
Biến lời hứa thành hiện thực với GenAI
Với việc sử dụng GenAI ngày càng rộng rãi - cực kỳ tốt trong việc tìm kiếm các mẫu và tạo ra ý tưởng từ một cơ sở dữ liệu khổng lồ - tình hình đã bắt đầu thay đổi. Bằng cách đưa dữ liệu của một tổ chức vào một mô hình AI - bằng cách đào tạo một mô hình tùy chỉnh hoặc tùy chỉnh một mô hình ngôn ngữ lớn (LLM) hiện có - các tổ chức hiện có thể tạo ra kho dữ liệu khổng lồ vốn luôn được dự định là trung tâm của các truy vấn dữ liệu lớn. Thêm vào đó, các giao diện kiểu chatbot đơn giản khai thác các mô hình này hiện có sẵn cho mọi người ở mọi cấp độ của tổ chức để dễ dàng sử dụng. Kết quả cuối cùng là lời hứa ban đầu về dữ liệu lớn cuối cùng cũng trở thành hiện thực. Từ những nhân viên bán hàng mới vào nghề đào sâu vào linh cảm về một xu hướng mà họ nghĩ rằng họ bắt đầu nhìn thấy trong lĩnh vực này, cho đến các giám đốc điều hành cấp C đang tìm kiếm bảng điều khiển toàn cảnh kết hợp một số số liệu quan trọng nhất định, mọi người trong các tổ chức hiện có thể tận dụng GenAI để có được phạm vi hiểu biết sâu sắc to lớn về doanh nghiệp.
Ý nghĩa đối với việc lưu trữ dữ liệu
Tác động của điều này đối với việc lưu trữ dữ liệu trong một tổ chức là rất lớn. Mặc dù trước đây một số tổ chức có thể đã loại bỏ hoặc đưa một số nguồn dữ liệu nhất định ra khỏi mạng do giá trị nhận thức hạn chế của chúng, nhưng ngày càng có nhiều nhận thức rằng bất kỳ nguồn dữ liệu nào cũng có thể giúp khám phá những hiểu biết và xu hướng mới, chưa từng thấy. Kết quả là, các công ty không chỉ đảm bảo lưu giữ tất cả dữ liệu họ tạo ra mà còn cung cấp tất cả dữ liệu đó.
Một trong những yếu tố then chốt thúc đẩy xu hướng này chính là ổ cứng từ tính truyền thống. Nhờ những tiến bộ công nghệ như Seagate Mozaic ™ , giờ đây có thể chứa 3TB dữ liệu trên một đĩa duy nhất bên trong ổ cứng. Việc mở rộng hệ thống này thành hệ thống lưu trữ dạng rack trong trung tâm dữ liệu doanh nghiệp hoặc địa điểm đặt máy chủ chung có thể chuyển đổi thành dung lượng lưu trữ lên đến 32PB trong một không gian rack rộng 19 inch và cao 73 inch (42U). Bằng cách hỗ trợ các loại dung lượng lưu trữ này, các tổ chức có thể lưu trữ lượng dữ liệu khổng lồ một cách hiệu quả, cho phép họ hợp nhất nhiều ổ đĩa dung lượng thấp hơn thành các hệ thống nhỏ hơn, tiết kiệm điện năng hơn và đảm bảo có đủ không gian để phát triển hơn nữa.
Nhìn vào bức tranh tổng thể, các loại ổ cứng dung lượng cao này phù hợp hoàn hảo với kiến trúc lưu trữ tổng thể. Các tổ chức sẽ tiếp tục sử dụng ổ SSD tốc độ cao để lưu trữ các phiên bản mới nhất của mô hình GenAI và các ứng dụng khác, nơi tốc độ truy cập bộ nhớ quan trọng hơn nhu cầu về dung lượng. Tương tự, các loại SSD khác có thể sẽ được tận dụng cho các ứng dụng như chatbot AI, lưu trữ truy vấn nhanh và các ứng dụng có yêu cầu trung bình khác. Tuy nhiên, đối với việc lưu trữ dữ liệu mục đích chung của nhiều nguồn cung cấp cho các mô hình AI tùy chỉnh này, ổ cứng dung lượng cao cung cấp một bộ đặc điểm tối ưu rất phù hợp với ứng dụng.
Sự trỗi dậy trong việc xây dựng cơ sở hạ tầng AI nội bộ
Một yếu tố quan trọng khác là vị trí của các thiết bị lưu trữ dữ liệu này. Vì lý do chi phí và bảo mật, hầu hết các tổ chức lưu trữ phần lớn dữ liệu của họ sau tường lửa của riêng họ thay vì trên đám mây. Điều này đặc biệt đúng đối với một số nguồn dữ liệu ít được truy cập hơn, hiện có thể dễ dàng tích hợp hơn vào các mô hình AI với các công cụ đào tạo và tùy chỉnh mô hình mới. Khi các tổ chức bắt đầu xây dựng các mô hình AI của riêng mình, đã có sự hồi sinh mạnh mẽ trong việc xây dựng cơ sở hạ tầng AI nội bộ của riêng họ để đào tạo, tùy chỉnh và lưu trữ một số mô hình đó. Các công ty như Dell, HPE, Lenovo và Cisco đang chứng kiến nhu cầu về máy chủ được trang bị GPU được thiết kế cho doanh nghiệp tăng mạnh và Nvidia đã nói về sự gia tăng của các nhà máy AI doanh nghiệp trong một thời gian. Kết quả là sự quan tâm mới trong việc xây dựng các trung tâm dữ liệu của công ty với tất cả các tài nguyên tính toán, mạng và lưu trữ mà điều này đòi hỏi.
Với tất cả các yếu tố phần cứng này đang dần đi vào hoạt động, kết hợp với khả năng mở rộng nhanh chóng và việc sử dụng ngày càng rộng rãi các mô hình và công cụ GenAI, tiềm năng cho tầm nhìn dữ liệu lớn với những hiểu biết sâu sắc có ý nghĩa mà chúng ta từng được hứa hẹn ban đầu cuối cùng cũng đã đến. Mặc dù không phải mọi nỗ lực đều nhất thiết sẽ dẫn đến những hiểu biết "à ha" kỳ diệu, nhưng rõ ràng một trong những kết quả đáng ngạc nhiên và có lợi nhất của việc sử dụng GenAI - sự dân chủ hóa thực sự của phân tích dữ liệu - đã đến và bắt đầu cho thấy tác động của nó.

Xem thêm