Những Cân Nhắc Khi Quản Lý Dữ Liệu Ở Quy Mô Lớn
Những Cân Nhắc Khi Quản Lý Dữ Liệu Ở Quy Mô Lớn
Trong thế giới CNTT 4.0—nơi dữ liệu được tạo ra nhiều hơn ở các ranh giới vi mô, đô thị và vĩ mô bằng các thiết bị như máy ảnh, máy bay không người lái và xe tự hành—quy mô dữ liệu do một tổ chức tạo ra hoặc thu thập có thể dễ dàng tăng lên đến nhiều petabyte. Quy mô thay đổi mọi thứ—từ tính kinh tế của việc lưu trữ dữ liệu và tính linh hoạt khi di chuyển dữ liệu, đến nhu cầu cơ bản về bảo mật dữ liệu.
Những cân nhắc chính để quản lý dữ liệu ở quy mô lớn
Dữ liệu ở quy mô lớn không còn giới hạn ở các trung tâm dữ liệu riêng tư hay đám mây công cộng tập trung nữa, mà đang trở nên phổ biến. Một loạt các tùy chọn lưu trữ dữ liệu trước đây đã cho phép các doanh nghiệp đa dạng hóa các giải pháp lưu trữ dữ liệu của mình theo mô hình kết hợp giữa các trung tâm dữ liệu và đám mây công cộng, nhưng các ứng dụng di động và IoT cũng đang thúc đẩy các tổ chức lưu trữ dữ liệu và tài nguyên điện toán ở biên và đa dạng hóa hơn nữa nơi dữ liệu di chuyển và tồn tại tại bất kỳ thời điểm nào trong vòng đời của nó.
Khối lượng dữ liệu sẽ tiếp tục tăng và các giải pháp lưu trữ cần phải thích ứng và có khả năng mở rộng cao với thế giới dữ liệu phân tán cao. Theo báo cáo Rethink Data của Seagate, lượng dữ liệu mới được tạo ra mỗi năm hiện đang tăng với tốc độ tăng trưởng kép hàng năm khoảng 26% . Tổng cộng, nhà phân tích ngành IDC dự kiến 175,8ZB dữ liệu mới sẽ được tạo ra vào năm 2025, so với 18,2ZB vào năm 2015. Phần lớn dữ liệu này sẽ không được quản lý nội bộ mà trên nhiều đám mây công cộng, đám mây riêng và thiết bị biên.
Kinh tế quản lý dữ liệu
Trung tâm dữ liệu và nền kinh tế đám mây truyền thống dựa trên khả năng mở rộng siêu cao, năng lượng giá rẻ và bất động sản giá rẻ. Theo truyền thống, vị trí vật lý của trung tâm dữ liệu là nền tảng của nền kinh tế lưu trữ. Nhưng các cơ hội do điện toán biên mang lại đã phá vỡ phương trình đơn giản đó đối với người tiêu dùng dữ liệu. Để tạo ra giá trị lớn nhất có thể, doanh nghiệp hiện phải lưu giữ, quản lý và tận dụng dữ liệu của mình.
Các thiết bị và cảm biến biên tạo ra dữ liệu yêu cầu phân tích độ trễ thấp, khiến việc giữ các tài nguyên điện toán gần biên trở nên quan trọng hơn. Các mạng cục bộ được đặc trưng bởi băng thông cao, độ trễ thấp và độ trễ thấp, khiến chúng phù hợp với nhiều khối lượng công việc điện toán biên. Chúng cũng cung cấp khả năng phục hồi cho các sự cố mạng diện rộng và trung tâm dữ liệu đám mây. Khối lượng dữ liệu được tạo ra ở biên có thể làm tăng chi phí truyền mạng nếu tất cả dữ liệu đó chỉ được lưu trữ ở một vị trí tập trung. Do đó, chiến lược lưu trữ tối ưu nhất về chi phí ngày càng phân phối dữ liệu vượt ra ngoài các trung tâm lưu trữ đám mây và tại chỗ truyền thống.
Khi nói đến kinh tế quy mô, cần lưu ý đến một số khía cạnh của dữ liệu ở quy mô lớn: tạo dữ liệu, lưu trữ dữ liệu, dữ liệu đang chuyển động và kích hoạt dữ liệu.
Các cân nhắc về việc tạo dữ liệu tập trung vào thời điểm và nơi dữ liệu bắt nguồn. Điều này có thể bao gồm mọi thứ từ các thiết bị IoT cung cấp thông tin kinh doanh quan trọng không thường xuyên từ biên đến luồng dữ liệu giám sát hiệu suất liên tục trên sàn nhà máy và mọi thứ ở giữa.
Lưu trữ dữ liệu tập trung vào tính bền bỉ, độ tin cậy và độ bền của dữ liệu. Các quyết định ở đây tập trung vào nơi và cách lưu trữ dữ liệu. Các chiến lược dữ liệu chuyển động nên hướng đến sự dễ dàng, tốc độ và hiệu quả về chi phí. Bằng cách triển khai các quy trình đủ linh hoạt để phù hợp với nhiều lý do khác nhau khiến doanh nghiệp di chuyển dữ liệu của mình—từ phục hồi sau thảm họa đến nâng và chuyển dữ liệu khối lượng lớn để đưa dữ liệu đến nơi mang lại giá trị cao nhất.
Kích hoạt dữ liệu là cách dữ liệu được tận dụng để thúc đẩy các mục tiêu kinh doanh. Điều này bao gồm các cân nhắc như khi nào, ở đâu và như thế nào dữ liệu nên được lưu trữ và sử dụng. Ví dụ, khi nào sử dụng máy học để suy rộng xu hướng hoặc khi nào chỉ cần lưu trữ dữ liệu để sử dụng sau. Chìa khóa ở đây là "sử dụng". Quá thường xuyên, dữ liệu được thu thập có thể bị bỏ qua, gạt sang một bên và sử dụng không hết, làm lệch hướng kinh tế lưu trữ theo hướng lợi nhuận đầu tư trung bình hoặc tệ hơn.
Tạo dữ liệu
Theo truyền thống, hầu hết việc tạo dữ liệu diễn ra trong trung tâm dữ liệu hoặc thông qua việc tạo ra công việc chảy trực tiếp đến trung tâm dữ liệu. Nhưng điều này đã thay đổi. Mỗi năm, ngày càng có nhiều dữ liệu được tạo ra bên ngoài trung tâm dữ liệu với sự mở rộng của IoT và điện toán biên, và dữ liệu này sẽ sớm chiếm phần lớn.
Lấy sự gia tăng của các ứng dụng phân tích lỗi làm ví dụ. Việc giám sát video phổ biến các khu vực sản xuất cho phép các nhà sản xuất phát hiện lỗi trong máy móc sản xuất hoặc chính sản phẩm. Quá trình này đòi hỏi phải tạo video liên tục, thường được ghi lại ở độ phân giải 1080p trở lên, nhờ vào sự ra đời của các camera 20 đến 80 megapixel. Các luồng video có độ phân giải cao nhanh chóng tạo ra hàng petabyte dữ liệu phải di chuyển dọc theo các đường ống lưu trữ hiệu quả để được kích hoạt và tận dụng.
Trong một số trường hợp, các nhà quản lý dữ liệu tại biên có thể bị cám dỗ tìm kiếm hiệu quả bằng cách giảm lượng dữ liệu video được thu thập tại mỗi điểm thu thập, nhằm mục đích thu thập và truyền dữ liệu video quan trọng. Nhưng có thể không khôn ngoan khi cố gắng giảm việc thu thập dữ liệu video tại điểm thu thập, vì thường không thể hiểu trước tất cả các cách dữ liệu này có thể cung cấp giá trị và được sử dụng hiệu quả. Bản thân dữ liệu video chứa nhiều thông tin mà con người không phải lúc nào cũng có thể nhận ra và các hành động và mẫu được cảm biến và camera ghi lại cũng có thể phức tạp hơn những gì con người hiểu lúc đầu. Ngày nay, AI và máy học có thể tìm, phân tích và sử dụng lại các mẫu được tìm thấy trong dữ liệu video mà các nhà quản lý dữ liệu không tìm kiếm hoặc chưa hiểu và điều này có thể mang lại giá trị không lường trước cho công ty. Khi cân nhắc toàn bộ chi phí dài hạn so với lợi ích, giải pháp kinh tế nhất là ghi lại mọi thứ đang diễn ra trong không gian sản xuất.
Ngoài ra, việc xử lý ban đầu bộ nhớ đệm đầy đủ dữ liệu video tại vị trí biên (ví dụ, trong nhà máy) đang trở nên phổ biến hơn. Điều này cho phép người quản lý dữ liệu giữ lại toàn bộ dữ liệu trong khi giảm kích thước tệp trước khi chuyển đến trung tâm dữ liệu. Xử lý dữ liệu cục bộ cũng giúp giảm nguy cơ mất dữ liệu trong quá trình truyền.
Dữ liệu video phát trực tuyến rất phức tạp và chi phí di chuyển khối lượng dữ liệu lớn như vậy trước khi phân tích trước đây là rất cao. Trong trường hợp như vậy, dữ liệu sẽ được phân tích cục bộ để chỉ những phát hiện quan trọng mới có thể được truyền đến cơ sở hạ tầng điện toán tập trung tại chỗ hoặc trên đám mây. Ngày nay, có những chế độ vận chuyển dữ liệu mới có thể giúp việc truyền dữ liệu hàng loạt trở nên hợp lý (xem phần dữ liệu chuyển động bên dưới) và cũng có những mô hình mới để lưu trữ dữ liệu trong các dịch vụ đám mây công cộng gần hơn về mặt địa lý với nguồn dữ liệu. Cả hai sự thay đổi này đều thay đổi phép tính về lượng dữ liệu có thể được phân tích ngay lập tức, do đó mở ra nhiều cơ hội hơn để tăng cường học hỏi từ các tập dữ liệu lớn hơn nhiều trong thời gian ngắn và giảm nhu cầu lịch sử phải loại bỏ dữ liệu trước khi hiểu đầy đủ.
Một giải pháp chính cho những thách thức về khối lượng dữ liệu lớn ở biên là di chuyển một số khả năng tính toán và lưu trữ gần hơn với nơi diễn ra quá trình tạo dữ liệu. Hình thức chiến lược đa đám mây có thể cấu hình này có thể đạt được bằng cách triển khai kiến trúc đám mây riêng hoặc bằng cách chọn một dịch vụ đám mây công cộng cụ thể nằm ở biên gần dữ liệu. Điều này có thể dẫn đến mất một số lợi thế kinh tế vận hành đơn giản của cơ sở hạ tầng lưu trữ tập trung, nhưng lợi thế kinh doanh của việc phân tích và tận dụng dữ liệu hiệu quả nhanh hơn mang lại lợi ích kinh tế to lớn.
Lưu trữ dữ liệu
Chi phí lưu trữ doanh nghiệp và sự ràng buộc của nhà cung cấp theo truyền thống đã buộc các doanh nghiệp phải hạn chế khối lượng dữ liệu họ lưu trữ và kích hoạt. Ngày nay, dữ liệu có giá trị rất lớn và các doanh nghiệp không thể không lưu trữ hầu hết hoặc toàn bộ dữ liệu họ tạo ra.
Trong nhiều năm, lưu trữ dữ liệu hàng loạt nhằm đáp ứng một phạm vi hẹp các nhu cầu trong kinh doanh, đôi khi chỉ giới hạn ở dữ liệu có cấu trúc đã sẵn sàng để sử dụng ngay cũng như sao lưu và hoạt động phục hồi sau thảm họa. Hiện nay, do vai trò thiết yếu của dữ liệu là tài sản cốt lõi của mọi doanh nghiệp, nhu cầu lưu giữ, truy cập và kích hoạt dữ liệu hàng loạt là trọng tâm của quan điểm rộng hơn về tính liên tục của doanh nghiệp.
Sao lưu độc lập đang được thay thế bằng sao chép ở nhiều vị trí đám mây. Sao chép là cách phổ biến để đảm bảo tính khả dụng và độ bền, với việc tách biệt địa lý các bản sao cung cấp khả năng bảo vệ bổ sung chống lại sự gián đoạn cục bộ.
Các mô hình quản lý dữ liệu dài hạn đang được phát triển với ít sự tập trung hơn vào lưu trữ khối lượng lớn cho dữ liệu ít được truy cập và tập trung hơn vào việc làm cho dữ liệu ở quy mô lớn có thể truy cập dễ dàng—với mục tiêu giúp tổ chức tận dụng và tận dụng tối đa dữ liệu thu thập được.
Khi ngày càng có nhiều dữ liệu được thu thập và lưu trữ trên biên, nhu cầu quản lý tự động, dựa trên chính sách để xác định dữ liệu đó được lưu trữ ở đâu và như thế nào ngày càng tăng. Điều này có nghĩa là mỗi tổ chức phải xác định nhiều vị trí khác nhau mà dữ liệu sẽ lưu trú tại các thời điểm khác nhau trong vòng đời của nó và những dịch vụ nào sẽ được thực hiện trên bất kỳ dữ liệu nào tại một thời điểm nhất định. Điều này thường được thực hiện như một phần của chiến lược đa đám mây có thể cấu hình trong đó nhiều ứng dụng và dịch vụ khác nhau—phần mềm dưới dạng dịch vụ (SaaS), điện toán dưới dạng dịch vụ (CaaS), lưu trữ dưới dạng dịch vụ (StaaS), cơ sở hạ tầng dưới dạng dịch vụ (IaaS) và nền tảng dưới dạng dịch vụ (PaaS)—đóng vai trò trong việc tận dụng toàn bộ giá trị của dữ liệu.
Quản lý vòng đời dữ liệu, quyền riêng tư và các lĩnh vực quản lý khác là động lực chính thúc đẩy việc xác định và tự động hóa việc áp dụng các chính sách quản lý dữ liệu.
Dữ liệu chuyển động
Có nhiều lý do khác nhau khiến một doanh nghiệp cần di chuyển dữ liệu.
Các tổ chức có thể cần hợp nhất dữ liệu lớn vào một kho lưu trữ duy nhất để phân tích toàn cảnh và cải thiện tính khả dụng, bảo mật và khả năng truy cập của dữ liệu.
Các doanh nghiệp thường triển khai kế hoạch phục hồi sau thảm họa để đảm bảo tính liên tục của hoạt động kinh doanh trong trường hợp dữ liệu chính bị lỗi với bản sao lưu toàn bộ doanh nghiệp. Một cách tiếp cận lý tưởng là chuyển dữ liệu đến một trung tâm dữ liệu đồng định vị có khả năng chuyển dữ liệu trở lại trong trường hợp xảy ra thảm họa hoặc lỗi dữ liệu.
Các nhà quản lý dữ liệu ngày nay cũng thường quản lý việc di chuyển dữ liệu hàng loạt đến các vị trí đám mây khác nhau, nâng và chuyển dữ liệu hàng loạt từ nơi dữ liệu được tạo ra đến nơi dữ liệu có giá trị nhất đối với doanh nghiệp—tốt nhất là không bị hạn chế bởi sự phụ thuộc vào mạng.
Các chính sách lưu trữ và di chuyển dữ liệu phải được thiết kế để tránh tình trạng phụ thuộc vào nhà cung cấp dịch vụ đám mây và tránh để các tập dữ liệu cụ thể và dữ liệu hàng loạt bị mắc kẹt trong các kho lưu trữ riêng biệt, để có thể truy cập và di chuyển dữ liệu một cách tự do khi cần đến các dịch vụ đám mây cụ thể hoặc các khu vực địa lý cụ thể, nơi giá trị của dữ liệu có thể được tận dụng tại bất kỳ thời điểm nào.
Điều quan trọng là các nhà quản lý dữ liệu phải hiểu các chế độ mới để di chuyển dữ liệu, giúp tăng cường khả năng duy trì dữ liệu chuyển động để nhận ra giá trị tiềm năng của dữ liệu. Mục tiêu là di chuyển dữ liệu đến bất kỳ nơi nào tạo ra nhiều giá trị nhất, bằng cách sử dụng mô hình hỗ trợ truyền dữ liệu nhanh chóng qua các môi trường lưu trữ đám mây và biên trong khi hạn chế phí truy cập và phí thoát.
Các nhà quản lý dữ liệu nên tìm kiếm các công cụ và dịch vụ cho phép tổ chức chuyển lượng lớn dữ liệu trong vài ngày, thay vì mất hàng tuần hoặc hàng tháng như khi dựa vào internet. Một loại thiết bị và dịch vụ lưu trữ di động cấp doanh nghiệp mới hiện có thể đóng vai trò là giải pháp lưu trữ biên dung lượng cao cho phép các doanh nghiệp tổng hợp, lưu trữ, di chuyển và kích hoạt dữ liệu của họ. Các giải pháp lý tưởng là có khả năng mở rộng, mô-đun và không phụ thuộc vào nhà cung cấp—các giải pháp tích hợp giúp loại bỏ sự phụ thuộc vào mạng để các tổ chức có thể chuyển các tập dữ liệu hàng loạt theo cách nhanh chóng, an toàn và hiệu quả.
Các công cụ như vậy là tối ưu cho các chiến lược dữ liệu dựa trên việc kích hoạt dữ liệu tại biên, cho phép các công ty triển khai lưu trữ tại hiện trường một cách nhanh chóng và thu thập dữ liệu tại nguồn. Chúng có thể tạo điều kiện cho việc chuyển dữ liệu nhanh chóng, đơn giản và an toàn để các tổ chức có thể dễ dàng di chuyển dữ liệu lên đám mây để đưa vào hoạt động.
Lưu trữ di động dưới dạng dịch vụ cũng có thể đơn giản hóa việc truyền dữ liệu đúng kích cỡ để dễ dàng hơn trong việc mở rộng hoặc thu hẹp quy mô khi nhu cầu truyền dữ liệu thay đổi. Các doanh nghiệp có thể thấy được khoản tiết kiệm dài hạn khi chuyển phần cơ sở hạ tầng này từ CapEx sang OpEx vì họ sử dụng dịch vụ truyền dữ liệu hiệu quả về mặt chi phí, cho phép các doanh nghiệp chỉ đặt hàng và thanh toán cho các thiết bị họ cần, khi họ cần.
Kích hoạt dữ liệu
Với dữ liệu được tạo ra, lưu trữ và đưa vào chuyển động, vẫn còn vấn đề về việc trích xuất giá trị từ dữ liệu. Cho đến gần đây, dữ liệu thường được thu thập cho các mục đích kinh doanh đã biết, chẳng hạn như thực hiện giao dịch bán hàng. Có những nhu cầu cụ thể có thể được đáp ứng bằng cách thu thập thông tin. Bây giờ, phân tích dữ liệu, trí tuệ nhân tạo (AI) và học máy (ML) có thể rút ra thông tin chi tiết từ dữ liệu phi cấu trúc dẫn đến những khám phá mới và mở ra các cơ hội kinh doanh mới.
Các tổ chức đang tìm thêm nhiều cách để sử dụng và tái sử dụng dữ liệu xa điểm tạo ra dữ liệu—ví dụ, kết hợp lợi ích của cảm biến để thu thập dữ liệu toàn diện với AI để phân tích dữ liệu đó. Phân tích do AI thúc đẩy nói riêng là một cách mạnh mẽ để trích xuất những hiểu biết mới từ dữ liệu phi cấu trúc mà nếu không có thể sẽ không được khai thác.
Các hình thức phân tích mới cũng phụ thuộc vào khả năng phân tích các đặc điểm cụ thể của dữ liệu. Ví dụ, dữ liệu video phát trực tuyến có thể cung cấp số lượng ô tô di chuyển theo các hướng nhất định tại một giao lộ nhất định mỗi giờ hoặc số lượng người ở một địa điểm cụ thể liên quan đến các sự kiện đồng thời có vẻ không liên quan hoặc theo thời gian trong ngày. Nhiều phương pháp phân tích dựa trên đặc điểm mới này nêu ra các vấn đề về tuân thủ và quyền riêng tư có thể khác nhau tùy theo khu vực pháp lý và ngành. Điều này nhấn mạnh tầm quan trọng của việc quản lý dữ liệu theo chính sách đối với các biện pháp kiểm soát quyền riêng tư quan trọng đối với doanh nghiệp.
Các kỹ thuật kích hoạt dữ liệu mới này yêu cầu một mô hình lưu trữ thống nhất có thể quản lý và hiểu dữ liệu không có cấu trúc. Lưu trữ đối tượng đám mây là một định dạng và kiến trúc lưu trữ dữ liệu giúp đơn giản hóa việc lưu trữ và quản lý lượng lớn dữ liệu không có cấu trúc. Lưu trữ đối tượng đám mây coi các đơn vị dữ liệu rời rạc là "đối tượng" có thể được lưu trữ ở định dạng dữ liệu gốc của chúng. Các đối tượng đám mây độc lập bao gồm ba thành phần: đối tượng dữ liệu, siêu dữ liệu mô tả của đối tượng đó và một mã định danh duy nhất cho phép API tìm và truy xuất dữ liệu đã lưu trữ. So với các hệ thống lưu trữ cơ sở dữ liệu dựa trên tệp và khối truyền thống, bản chất độc lập của từng đơn vị dữ liệu rời rạc hoặc "đối tượng" trong mô hình lưu trữ đối tượng đám mây giúp việc theo dõi, quản lý và tận dụng trở nên đơn giản, hiệu quả, đáng tin cậy và tiết kiệm chi phí hơn.
Khi sử dụng mô hình thống nhất để kích hoạt dữ liệu trên cơ sở hạ tầng đa đám mây, người quản trị phải luôn theo dõi các tác động bất lợi như sự xuất hiện vô tình của các silo dữ liệu do trọng lực dữ liệu. Ngoài ra, nếu dữ liệu được kích hoạt từ bên trong nhà cung cấp đám mây công cộng truyền thống và được di chuyển qua mạng, tính khả dụng của dữ liệu và thời gian phân tích sẽ bị ảnh hưởng và người quản trị có thể cần lập kế hoạch cho các khoản phí thoát tùy thuộc vào chính sách của nhà cung cấp đám mây.
Xem thêm