Tin tức và phân tích của tất cả các thiết bị di động

Nhà lưu trữ dữ liệu: chỉ là một từ thông dụng điên rồ khác?

Các chuyên gia dữ liệu từ lâu đã tranh luận về giá trị của hồ dữ liệu so với kho dữ liệu. Nhưng cuộc tranh luận này ngày càng trở nên gay gắt trong thời gian gần đây với sự phổ biến của khối lượng công việc dữ liệu và phân tích trên đám mây, sự thất vọng ngày càng tăng đối với tính dễ vỡ của Hadoop và sự cường điệu xung quanh một mô hình kiến ​​trúc mới – “nhà kho dữ liệu”.

Kho dữ liệu là một mô hình tương đối mới đề cập đến kiến ​​trúc dữ liệu kết hợp nhằm mục đích kết hợp những gì tốt nhất của kho dữ liệu và hồ dữ liệu. Nếu thuật ngữ này là mới đối với bạn, bạn không đơn độc.

Các điều khoản được giải thích

Để hiểu đầy đủ cách các thuật ngữ này phù hợp với bối cảnh dữ liệu tổng thể, cần bỏ qua những điểm tương đồng và khác biệt của chúng.

Trước hết, tất cả đều được sử dụng để quản lý dữ liệu vận hành và giao dịch, hỗ trợ khối lượng công việc kinh doanh thông minh (BI) và phân tích trên cả bộ phận kinh doanh và chức năng của nhà phát triển. Đi sâu vào các định nghĩa cụ thể của chúng cũng cho thấy các mục tiêu khác nhau mà chúng phục vụ.

Kho dữ liệuchẳng hạn, được tối ưu hóa cho các truy vấn phân tích được xác định trước và có thể lặp lại, trong đó dữ liệu có cấu trúc có thể được mở rộng quy mô trong toàn tổ chức. Bởi vì chúng thường được sử dụng để báo cáo hiệu suất kinh doanh và theo quy định, kho dữ liệu là môi trường dữ liệu được quản lý chặt chẽ và phù hợp với các truy vấn hiệu suất cao, đôi khi phức tạp và mức độ truy cập đồng thời cao.

Hồ dữ liệu đối chiếu dữ liệu có cấu trúc và bán cấu trúc chưa tinh chỉnh từ nhiều nguồn khác nhau và tuân theo chế độ quản trị dữ liệu ít nghiêm ngặt hơn. Họ thường sử dụng bộ lưu trữ rẻ hơn và có khả năng mở rộng, nơi hỗ trợ các kiểu và phương pháp xử lý khác nhau, bao gồm cả máy học (ML) và khối lượng công việc theo định hướng hàng loạt. Tuy nhiên, các hồ dữ liệu hiếm khi được tối ưu hóa cho nhu cầu phân phối sản xuất – chẳng hạn như quản lý đồng thời, độ trễ và khối lượng công việc.

Mặc dù có một số khác biệt rõ ràng nhưng vẫn tồn tại sự chồng chéo giữa hai mô hình kiến ​​trúc. Ví dụ: hồ dữ liệu có thể sử dụng các phương pháp tiếp cận sử dụng lược đồ sao cho các truy vấn theo định hướng hàng loạt và kho dữ liệu có thể được tận dụng để vận hành khoa học dữ liệu với các mô hình ML chạy dựa trên dữ liệu được quản lý.

Vượt qua sự cường điệu của dữ liệu Lakehouse

Về mặt khái niệm, một kho dữ liệu được thiết kế để kết hợp các yếu tố cốt lõi của kho dữ liệu với các khái niệm cốt lõi của hồ dữ liệu, chẳng hạn như bằng cách cung cấp chi phí lưu trữ đám mây thấp hơn cho dữ liệu thô với sự hỗ trợ xử lý ML, BI hiệu suất cao, khối lượng công việc phân tích và quản trị dữ liệu.

Điều này nghe có vẻ là một ý tưởng hay, nhưng ngôi nhà bên hồ là một khái niệm mới nổi vẫn bị nhiều người hiểu lầm và bị cường điệu hóa cũng như đồn đoán.

Mặc dù vậy, vẫn có những người ủng hộ mạnh mẽ ở cả hai phía về sự phân chia kiến ​​trúc dữ liệu. Những người có kiến ​​thức nền tảng về kho dữ liệu sẽ định vị nhà hồ xung quanh các khái niệm công nghệ quan hệ. Những người ở phía hồ dữ liệu có nguồn gốc từ xử lý ML và Spark, trong đó ưu tiên cao hơn là hỗ trợ khối lượng công việc Java, Python và R. Tuy nhiên, cả hai đều thúc đẩy việc sử dụng đám mây để lưu trữ và xử lý phân tích.

Đó hiếm khi là một quyết định hoặc/hoặc

Trong khi cuộc tranh luận vẫn tiếp tục, Lakehouse khó có thể loại bỏ nhu cầu về hồ dữ liệu hoặc kho dữ liệu, ít nhất là trong ngắn hạn, đặc biệt đối với những tổ chức đã đầu tư đáng kể vào một trong hai hoặc cả hai. Tương tự như vậy, là một khái niệm mới nổi, nó vẫn còn nhiều điều phải làm trong những thập kỷ đổi mới mà chúng ta đã thấy trong các lĩnh vực như phân tích trong cơ sở dữ liệu, tối ưu hóa hiệu suất và truy vấn cũng như lưu trữ và nén theo cột.

Vẫn còn một lập luận hợp lý về sự tồn tại chung của kho dữ liệu và hồ dữ liệu, nơi nó cung cấp cơ sở cho các doanh nghiệp mở rộng quy mô và dân chủ hóa dữ liệu cũng như hợp lý hóa hệ sinh thái dữ liệu. Cách tiếp cận cùng tồn tại, trong bất kỳ sự kết hợp nào, đều dựa trên điểm mạnh của từng thiết kế kiến ​​trúc để phục vụ số lượng trường hợp sử dụng rộng hơn bất kỳ kiến ​​trúc nào trong số này có thể hỗ trợ độc lập.

Ưu tiên tính linh hoạt

Với bối cảnh dữ liệu phức tạp và luôn thay đổi, các chuyên gia dữ liệu cần đảm bảo môi trường hiện tại của họ sử dụng kho dữ liệu và/hoặc hồ dữ liệu hoạt động cùng nhau thay vì chống lại nhau. Ví dụ: kho dữ liệu có thể cung cấp các phân tích dữ liệu được xác định rõ ràng và có thể lặp lại trong khi hồ dữ liệu hỗ trợ nhiều trường hợp sử dụng ML do nhà phát triển hoặc thử nghiệm hơn bằng cách sử dụng nhóm dữ liệu rộng hơn. Việc kết hợp cả hai mang lại cho tổ chức khả năng hỗ trợ các trường hợp sử dụng khác nhau và các đối tượng khác nhau – chẳng hạn như người dùng doanh nghiệp và nhà khoa học dữ liệu, đồng thời áp dụng các phương pháp xử lý quản trị dữ liệu, quản lý dữ liệu và chất lượng dữ liệu khác nhau.

Vẫn còn phải xem chính xác vị trí và cách thức một kho lưu trữ dữ liệu phù hợp với môi trường này. Khái niệm này vẫn chưa được thị trường thử nghiệm nói chung, với lời hứa về cách tiếp cận một kích cỡ phù hợp với tất cả có thể là một bước đi quá xa đối với những tổ chức đã đầu tư đáng kể vào hồ dữ liệu và kho dữ liệu. Tuy nhiên, đây là một cuộc tranh luận quan trọng trong một thị trường cơ sở hạ tầng dữ liệu đổi mới và phát triển nhanh chóng đang tiếp tục phát triển.

Mục lục