Tin tức và phân tích của tất cả các thiết bị di động

Kho dữ liệu là tương lai của kho dữ liệu như thế nào[+5 Learning Resources]

Khi các công ty tạo ra ngày càng nhiều dữ liệu, cách tiếp cận truyền thống về lưu trữ dữ liệu ngày càng trở nên khó khăn và tốn kém hơn để duy trì. Data Vault, một cách tiếp cận tương đối mới về lưu trữ dữ liệu, đưa ra giải pháp cho vấn đề này bằng cách cung cấp một cách có thể mở rộng, linh hoạt và tiết kiệm chi phí để quản lý lượng lớn dữ liệu.

Trong bài đăng này, chúng ta sẽ khám phá kho dữ liệu là tương lai của kho dữ liệu như thế nào và tại sao ngày càng có nhiều công ty áp dụng phương pháp này. Chúng tôi cũng sẽ cung cấp tài nguyên giáo dục cho những ai muốn khám phá chủ đề này!

Kho dữ liệu là gì?

Data Vault là một kỹ thuật lập mô hình kho dữ liệu đặc biệt phù hợp với kho dữ liệu linh hoạt. Nó cung cấp mức độ linh hoạt cao về mặt mở rộng, lịch sử hóa hoàn toàn dữ liệu theo đơn vị thời gian và cho phép tính song song mạnh mẽ của quá trình tải dữ liệu. Dan Linstedt đã phát triển mô hình Data Vault vào những năm 1990.

Sau khi được xuất bản lần đầu vào năm 2000, nó đã được chú ý nhiều hơn vào năm 2002 với một loạt bài báo. Năm 2007, Linstedt đã giành được sự tán thành của Bill Inmon, người đã mô tả nó là “sự lựa chọn tối ưu” cho kiến ​​trúc Data Vault của mình. 2.0.

Bất kỳ ai bắt gặp thuật ngữ kho dữ liệu linh hoạt sẽ nhanh chóng kết thúc với Data Vault. Đặc điểm của công nghệ này là nó hướng đến nhu cầu của các công ty, vì nó cho phép tùy chỉnh kho dữ liệu một cách linh hoạt và với khối lượng thấp.

DateVault 2.0 nó xem xét toàn bộ quá trình phát triển và kiến ​​trúc và bao gồm một phương pháp thành phần (triển khai), kiến ​​trúc và mô hình. Ưu điểm của phương pháp này là tất cả các khía cạnh của nghiệp vụ thông minh đều được xem xét cùng với kho dữ liệu cơ bản trong quá trình phát triển.

Mô hình Data Vault cung cấp giải pháp hiện đại để khắc phục những hạn chế của cách tiếp cận truyền thống đối với mô hình hóa dữ liệu. Nhờ khả năng mở rộng, tính linh hoạt và nhanh nhẹn, nó cung cấp nền tảng vững chắc để xây dựng nền tảng dữ liệu có thể đáp ứng được sự phức tạp và đa dạng của môi trường dữ liệu hiện đại.

Kiến trúc trung tâm và nan hoa của Data Vault cũng như sự phân tách các thực thể và thuộc tính cho phép tích hợp và hài hòa dữ liệu trên nhiều hệ thống và miền, tạo điều kiện cho sự phát triển gia tăng và linh hoạt.

Vai trò chính của Data Vault trong việc xây dựng nền tảng dữ liệu là thiết lập một nguồn đáng tin cậy duy nhất cho tất cả dữ liệu. Một cái nhìn thống nhất về dữ liệu và hỗ trợ để nắm bắt và theo dõi các thay đổi đối với dữ liệu lịch sử bằng cách sử dụng bảng vệ tinh cho phép tuân thủ, kiểm tra, yêu cầu pháp lý cũng như phân tích và báo cáo toàn diện.

Khả năng tích hợp dữ liệu gần như thời gian thực của Data Vault thông qua tải delta giúp dễ dàng xử lý lượng lớn dữ liệu trong các môi trường thay đổi nhanh chóng như dữ liệu lớn và ứng dụng IoT.

Kho dữ liệu và mô hình kho dữ liệu truyền thống

Dạng thông thường thứ ba (3NF) là một trong những mô hình lưu trữ dữ liệu truyền thống quen thuộc nhất và thường được ưa thích trong nhiều triển khai lớn. Nhân tiện, điều này tương ứng với ý tưởng của Bill Inmon, một trong những “cha đẻ” của khái niệm kho dữ liệu.

Kiến trúc của Inmon dựa trên mô hình cơ sở dữ liệu quan hệ và loại bỏ sự dư thừa dữ liệu bằng cách chia nguồn dữ liệu thành các bảng nhỏ hơn được lưu trữ trong kho dữ liệu và liên kết với nhau bằng khóa chính và khóa ngoài. Đảm bảo tính nhất quán và chính xác của dữ liệu bằng cách thực thi các chính sách toàn vẹn tham chiếu.

Mục tiêu của biểu mẫu thông thường là xây dựng mô hình dữ liệu toàn diện, toàn công ty cho kho dữ liệu cơ bản; tuy nhiên, nó có vấn đề về khả năng mở rộng và tính linh hoạt do kho dữ liệu có tính liên kết cao, khó khăn khi tải gần thời gian thực, yêu cầu tốn nhiều công sức cũng như thiết kế và triển khai từ trên xuống.

Mô hình Kimbal, được sử dụng trong OLAP (xử lý phân tích trực tuyến) và lưu trữ dữ liệu, là một mô hình lưu trữ dữ liệu nổi tiếng khác trong đó các bảng dữ kiện chứa dữ liệu tổng hợp và các bảng thứ nguyên mô tả dữ liệu được lưu trữ trong lược đồ hình sao hoặc lược đồ bông tuyết. Trong kiến ​​trúc này, dữ liệu được tổ chức thành các bảng thực tế và thứ nguyên không được chuẩn hóa để đơn giản hóa việc truy vấn và phân tích.

Kimbal dựa trên mô hình thứ nguyên được tối ưu hóa cho truy vấn và báo cáo, lý tưởng cho các ứng dụng Business Intelligence. Tuy nhiên, nó có vấn đề với việc cô lập thông tin theo chủ đề, dư thừa dữ liệu, cấu trúc truy vấn không tương thích, khó khăn về khả năng mở rộng, độ chi tiết không nhất quán của các bảng dữ kiện, vấn đề đồng bộ hóa và nhu cầu thiết kế từ trên xuống với triển khai từ dưới lên.

Ngược lại, kiến ​​trúc kho dữ liệu là một phương pháp lai kết hợp các khía cạnh của kiến ​​trúc 3NF và Kimball. Đây là một mô hình dựa trên các nguyên tắc quan hệ, chuẩn hóa dữ liệu và toán học về sự dư thừa, thể hiện mối quan hệ giữa các thực thể một cách khác nhau và xây dựng các trường bảng cũng như dấu thời gian khác nhau.

Trong kiến ​​trúc này, tất cả dữ liệu được lưu trữ trong kho dữ liệu thô hoặc hồ dữ liệu, trong khi dữ liệu thường sử dụng được lưu trữ ở định dạng chuẩn hóa trong cửa hàng doanh nghiệp chứa dữ liệu lịch sử và ngữ cảnh có thể được sử dụng để báo cáo.

Data Vault giải quyết các vấn đề của mô hình truyền thống bằng cách hiệu quả hơn, có thể mở rộng và linh hoạt hơn. Nó cho phép tải gần thời gian thực, cải thiện tính toàn vẹn dữ liệu và mở rộng dễ dàng mà không ảnh hưởng đến cấu trúc hiện có. Mô hình cũng có thể được mở rộng mà không cần di chuyển các bảng hiện có.

Phương pháp lập mô hình Cấu trúc dữ liệuPhương pháp thiết kếMô hình 3NFBảng trong 3NFTừ dưới lênMô hình KimbalLược đồ hình sao hoặc Lược đồ bông tuyếtTừ trên xuốngDữ liệu VaultHub-and-SpokeTừ dưới lên

Kiến trúc kho dữ liệu

Data Vault có kiến ​​trúc hub-and-spoke và về cơ bản bao gồm ba tầng:

Lớp dàn dựng: thu thập dữ liệu thô từ các hệ thống nguồn như CRM hoặc ERP

Lớp kho dữ liệu: Khi được mô hình hóa dưới dạng mô hình Data Vault, lớp này bao gồm:

  • Kho dữ liệu thô: Lưu trữ dữ liệu thô.
  • Kho dữ liệu doanh nghiệp: Chứa dữ liệu được hài hòa và chuyển đổi dựa trên các quy tắc kinh doanh (tùy chọn).
  • Kho số liệu: Lưu trữ thông tin thời gian chạy (tùy chọn).
  • Cửa hàng hoạt động: Lưu trữ dữ liệu truyền trực tiếp từ hệ điều hành đến kho dữ liệu (tùy chọn).

Lớp Data Mart: Lớp này mô hình hóa dữ liệu dưới dạng lược đồ sao và/hoặc các kỹ thuật mô hình hóa khác. Cung cấp thông tin để phân tích và báo cáo.

Nguồn hình ảnh: Lamia Yessad

Data Vault không yêu cầu thay đổi kiến ​​trúc. Các tính năng mới có thể được xây dựng song song trực tiếp bằng cách sử dụng các khái niệm và phương pháp Data Vault và các thành phần hiện có sẽ không bị mất. Các khung có thể giúp công việc của bạn dễ dàng hơn nhiều: chúng tạo ra một lớp giữa kho dữ liệu và nhà phát triển và do đó làm giảm độ phức tạp của việc triển khai.

Thành phần kho dữ liệu

Khi lập mô hình, Data Vault chia tất cả thông tin thuộc về một đối tượng thành ba loại – không giống như mô hình biểu mẫu thông thường thứ ba cổ điển. Thông tin này sau đó được giữ tách biệt hoàn toàn với nhau. Các khu vực chức năng có thể được ánh xạ trong Data Vault theo cái gọi là trung tâm, liên kết và vệ tinh:

# 1. Trung tâm

Các trung tâm là trung tâm của một khái niệm kinh doanh cốt lõi chẳng hạn như khách hàng, nhà cung cấp, hoạt động bán hàng hoặc sản phẩm. Bảng trung tâm được tạo xung quanh khóa doanh nghiệp (tên cửa hàng hoặc vị trí) khi phiên bản mới của khóa doanh nghiệp đó được đưa vào kho dữ liệu lần đầu tiên.

Hub không chứa thông tin mô tả hoặc FK. Nó chỉ bao gồm một khóa kinh doanh với một chuỗi các mã định danh hoặc hàm băm do kho tạo ra, dấu ngày/giờ tải và nguồn hồ sơ.

#2. khuy măng sét

Các ràng buộc thiết lập mối quan hệ giữa các khóa kinh doanh. Mỗi mục liên kết mô hình hóa các mối quan hệ nm của bất kỳ số lượng trung tâm nào. Điều này cho phép kho dữ liệu phản ứng linh hoạt với những thay đổi trong logic kinh doanh của hệ thống nguồn, chẳng hạn như những thay đổi về tính thân mật của mối quan hệ. Giống như một trung tâm, một liên kết không chứa bất kỳ thông tin mô tả nào. Nó bao gồm ID trình tự của các trung tâm được tham chiếu, ID trình tự do kho tạo ra, dấu ngày/giờ tải và nguồn bản ghi.

#3. Vệ tinh

Vệ tinh chứa thông tin mô tả (ngữ cảnh) cho khóa doanh nghiệp được lưu trữ trong trung tâm hoặc mối quan hệ được lưu trữ trong một liên kết. Vệ tinh hoạt động “chỉ chèn”, nghĩa là tất cả lịch sử dữ liệu được lưu trữ trong vệ tinh. Nhiều vệ tinh có thể mô tả một khóa kinh doanh (hoặc mối quan hệ) duy nhất. Tuy nhiên, vệ tinh chỉ có thể mô tả một khóa (trung tâm hoặc liên kết).

Tín dụng hình ảnh: Carbidfischer

Cách xây dựng mô hình kho dữ liệu

Việc xây dựng mô hình Data Vault bao gồm một số bước, mỗi bước đều quan trọng để đảm bảo rằng mô hình có khả năng mở rộng, linh hoạt và có thể đáp ứng nhu cầu kinh doanh của mô hình:

# 1. Xác định các thực thể và thuộc tính

Xác định các đơn vị kinh doanh và các thuộc tính tương ứng của chúng. Nó liên quan đến việc hợp tác chặt chẽ với các bên liên quan trong kinh doanh để hiểu yêu cầu của họ và dữ liệu họ cần thu thập. Khi bạn đã xác định được các thực thể và thuộc tính này, hãy chia chúng thành các trung tâm, liên kết và vệ tinh.

#2. Xác định mối quan hệ thực thể và tạo liên kết

Khi các thực thể và thuộc tính được xác định, mối quan hệ giữa các thực thể được xác định và các liên kết được tạo để thể hiện các mối quan hệ đó. Mỗi liên kết được gán một khóa nghiệp vụ xác định mối quan hệ giữa các thực thể. Các vệ tinh sau đó được thêm vào để nắm bắt các thuộc tính và mối quan hệ của các thực thể.

#3. Đặt ra các quy tắc và tiêu chuẩn

Sau khi tạo liên kết, bạn phải thiết lập một bộ quy tắc và tiêu chuẩn lập mô hình kho dữ liệu để đảm bảo tính linh hoạt của mô hình và khả năng xử lý các thay đổi theo thời gian. Các chính sách và tiêu chuẩn này cần được xem xét và cập nhật thường xuyên để đảm bảo chúng luôn cập nhật và phù hợp với nhu cầu kinh doanh.

#4. Điền vào mô hình

Sau khi mô hình được tạo, mô hình cần được điền dữ liệu bằng phương pháp tải tăng dần. Nó bao gồm việc tải dữ liệu tới các trung tâm, liên kết và vệ tinh bằng cách sử dụng tải delta. Tải vi sai đảm bảo rằng chỉ những thay đổi được thực hiện đối với dữ liệu mới được tải, giúp giảm thời gian và tài nguyên cần thiết cho việc tích hợp dữ liệu.

#5. Kiểm tra và xác nhận mô hình

Cuối cùng, mô hình cần được kiểm tra và xác nhận để đảm bảo nó đáp ứng các yêu cầu kinh doanh, có khả năng mở rộng và đủ linh hoạt để xử lý các thay đổi trong tương lai. Cần thực hiện bảo trì và cập nhật thường xuyên để đảm bảo rằng mô hình vẫn tuân thủ nhu cầu kinh doanh và tiếp tục cung cấp chế độ xem thống nhất về dữ liệu.

Tài nguyên đào tạo kho dữ liệu

Làm chủ Data Vault có thể cung cấp các kỹ năng và kiến ​​thức có giá trị đang có nhu cầu cao trong các ngành công nghiệp dựa trên dữ liệu ngày nay. Dưới đây là danh sách đầy đủ các tài nguyên, bao gồm các khóa học và sách, có thể giúp bạn tìm hiểu sự phức tạp của Data Vault:

# 1. Lập mô hình kho dữ liệu với Data Vault 2.0

Khóa học Udemy này là phần giới thiệu toàn diện về phương pháp lập mô hình Data Vault 2.0, quản lý dự án linh hoạt và tích hợp Dữ liệu lớn. Khóa học bao gồm các nguyên tắc cơ bản và cơ bản về Data Vault 2.0bao gồm kiến ​​trúc và các lớp của nó, kho thông tin và kinh doanh cũng như các kỹ thuật lập mô hình nâng cao.

Nó hướng dẫn bạn cách thiết kế mô hình Data Vault từ đầu, chuyển đổi các mô hình truyền thống như 3NF và mô hình thứ nguyên sang Data Vault, đồng thời hiểu các nguyên tắc lập mô hình thứ nguyên trong Data Vault. Khóa học yêu cầu kiến ​​thức cơ bản về cơ sở dữ liệu và những điều cơ bản về SQL.

Với thứ hạng cao 4,4 TRÊN 5 và hơn 1.700 bài đánh giá, khóa học bán chạy nhất này phù hợp cho bất kỳ ai muốn xây dựng nền tảng Data Vault vững chắc 2.0 và tích hợp Dữ liệu lớn.

#2. Giải thích mô hình kho dữ liệu với các trường hợp sử dụng

Khóa học Udemy này được thiết kế để giúp bạn xây dựng mô hình kho dữ liệu từ một trường hợp kinh doanh thực tế. Nó đóng vai trò là hướng dẫn dành cho người mới bắt đầu về lập mô hình kho dữ liệu, bao gồm các khái niệm chính như các kịch bản liên quan để sử dụng mô hình kho dữ liệu, các hạn chế của mô hình OLAP thông thường và cách tiếp cận có hệ thống để xây dựng mô hình kho dữ liệu. Khóa học dành cho những người có kiến ​​thức tối thiểu về cơ sở dữ liệu.

#3. Data Vault Guru: Hướng dẫn thực dụng

Data Vault Guru của Patrick Kuba là hướng dẫn toàn diện về phương pháp lưu trữ dữ liệu mang đến cơ hội duy nhất để lập mô hình kho dữ liệu doanh nghiệp bằng cách sử dụng các nguyên tắc tự động hóa tương tự như các nguyên tắc được sử dụng trong phân phối phần mềm.

Cuốn sách cung cấp cái nhìn tổng quan về kiến ​​trúc hiện đại, sau đó đưa ra hướng dẫn kỹ lưỡng về cách cung cấp mô hình dữ liệu linh hoạt thích ứng với những thay đổi trong doanh nghiệp, kho dữ liệu.

Ngoài ra, cuốn sách còn mở rộng phương pháp lưu giữ dữ liệu bằng cách cung cấp tính năng chỉnh sửa dòng thời gian tự động, theo dõi kiểm tra, kiểm soát siêu dữ liệu và tích hợp với các công cụ phân phối linh hoạt.

#4. Xây dựng kho dữ liệu có thể mở rộng với Data Vault 2.0

Cuốn sách này cung cấp hướng dẫn toàn diện để xây dựng kho dữ liệu có thể mở rộng từ đầu đến cuối bằng phương pháp Data Vault 2.0.

Cuốn sách này đề cập đến tất cả các khía cạnh quan trọng của việc xây dựng kho dữ liệu có thể mở rộng, bao gồm kỹ thuật lập mô hình Data Vault để ngăn ngừa các lỗi kho dữ liệu phổ biến.

Cuốn sách bao gồm nhiều ví dụ để giúp người đọc hiểu rõ các khái niệm. Với những hiểu biết thực tế và ví dụ thực tế, cuốn sách này là nguồn tài nguyên cần thiết cho bất kỳ ai quan tâm đến việc lưu trữ dữ liệu.

#5. Con voi trong tủ lạnh: hướng dẫn từng bước để thành công với kho dữ liệu

Con voi trong tủ lạnh của John Giles là một hướng dẫn thực tế được thiết kế để giúp người đọc thành công trong Kho dữ liệu, từ doanh nghiệp này sang doanh nghiệp khác.

Cuốn sách tập trung vào tầm quan trọng của bản thể luận doanh nghiệp và mô hình hóa khái niệm kinh doanh, đồng thời cung cấp hướng dẫn từng bước về cách áp dụng các khái niệm này để tạo ra một mô hình dữ liệu mạnh mẽ.

Với lời khuyên thực tế và các mẫu ví dụ, tác giả đưa ra lời giải thích rõ ràng và không phức tạp về các chủ đề phức tạp, khiến cuốn sách trở thành hướng dẫn tuyệt vời cho những người mới làm quen với Data Vault.

những từ cuối

Data Vault đại diện cho tương lai của kho dữ liệu, mang đến cho các công ty những lợi thế đáng kể về tính linh hoạt, khả năng mở rộng và hiệu suất. Nó đặc biệt phù hợp với các công ty cần tải lượng lớn dữ liệu một cách nhanh chóng và những công ty muốn phát triển ứng dụng Business Intelligence của mình một cách linh hoạt.

Ngoài ra, các công ty có kiến ​​trúc silo hiện có có thể hưởng lợi rất nhiều từ việc triển khai kho dữ liệu tổng thể bằng Data Vault.

Bạn cũng có thể quan tâm đến việc biết phả hệ của dữ liệu.