Thiết kế kiến trúc dữ liệu trong Data Lake
Last updated
Was this helpful?
Last updated
Was this helpful?
Thiết kế kiến trúc dữ liệu trong Data LakeNhư các bạn đã biết ở Phần 1, Data Lake là một cách tiếp cận hoàn toàn mới giữa sự kết hợp sức mạnh của Big Data và khả năng Self-service. Nhiều doanh nghiệp hiện nay đã phát triển hoặc triển khai hệ thống này trong hoạt động điều hành, sản xuất kinh doanh.Vậy cách thiết kế hệ thống và tổ chức dữ liệu trong Data Lake như thế nào?1. Khái niệm cơ bảnData Lake là một khái niệm tương đối mới, vì vậy để xác định được các kiến trúc xây dựng bạn có thể tham khảo một số định nghĩa sau đây:
Data Puddle là một vùng dữ liệu, cơ bản như một Data Mart với một mục đích hoặc phục vụ cho một dự án. Áp dụng trong những bước đầu tiên áp dụng công nghệ Big Data.
Data Pond là một tập hợp các vùng dữ liệu, có thể coi như một kho dữ liệu nhưng được thiết kế chưa tối ưu, giúp giảm tải kho dữ liệu truyền thống hiện có. Tuy có chi phí công nghệ thấp hơn, khả năng mở rộng tốt nhưng lại đòi hỏi chi phí CNTT lớn, kèm theo việc hạn chế trong tính khả dụng của dữ liệu nên nó không thực sự giúp tối ưu khả năng Self-service và Data-driven hỗ trợ ra quyết định cho người dùng doanh nghiệp.
Data Lake khác với Data Pond ở 2 đặc điểm quan trọng: đầu tiên, nó hỗ trợ khả năng Self-Service, nơi mà người dùng có thể tìm và sử dụng các dữ liệu mà họ muốn mà không cần nhờ tới sự trợ giúp của bộ phận CNTT. Hai là nó nhằm mục đích chứa các dữ liệu mà ngay hiện tại doanh nghiệp hay các cá nhân cũng chưa có nhu cầu sử dụng.
Data Ocean mở rộng khả năng self-service dữ liệu và data-driven hỗ trợ ra quyết định dữ liệu, bất cứ nơi nào có thể, bất kể nó có có tải vào hệ thống Data Lake hay không.
Hình 1: Minh hoạ sự khác biệt giữa các khái niệm trên. Khi mở rộng từ Puddle tới Pond, Lake và Ocean, lượng dữ liệu và số người cũng tăng theo kèm theo đó là mở rộng khả năng Self-service📷 Vậy cần làm gì để xây dựng thành công một Data Lake? Tương tự như bất kỳ dự án nào, bắt buộc phải có việc liên kết nó với chiến lược của công ty kèm theo việc đầu tư và điều hành xuyên suốt. Ngoài ra, cần xác định 3 điều kiện chính trước khi bắt đầu:· Nền tảng phù hợp: đánh giá và lựa chọn giữa Hadoop, Amazon Web Service, Microsoft Azure,..· Dữ liệu : mục đích lưu càng nhiều dữ liệu càng tốt với định dạng gốc· Giao diện tương tác: Khả năng cung cấp Self-service ở mức độ đơn giản cho người dùng, đảm bảo người dùng có thể tự tìm kiếm và khai thác2. Thiết kế kiến trúc hạ tầngRoap map: Chúng ta đã có các điều kiện cần, vậy các bước chính cần thực hiện là gì?1. Triển khai cơ sở hạ tầng cho lưu trữ (Hadoop là một lựa chọn không tồi)2. Tổ chức Data Lake (tạo các Zone để phân vùng cho các người dùng, dữ liệu khác nhau).3. Thiết lập Self-service (tạo các danh mục quản lý dữ liệu, thiết lập queyefn và cung cấp các công cụ khai thác, phân tích dữ liệu).4. Vận hành và cung cấp Data Lake cho người dùngVào năm 2015, hầu hết các doanh nghiệp xây dựng Data Lake trên hạ tầng On-Premises với Hadoop bản nguồn mở hoặc thương mai. Nhưng từ 2018, ít nhất một nửa số doanh nghiệp đã chuyển sang Cloud hoặc dạng Hybrid sử dụng cả On-Premises và Cloud. Nhiều công ty đã xây dựng nhanh chóng các Data Lake, sự đa dạng trong kiến trúc khiến các công ty cần phải xem xét lại các hướng tiếp cận phù hợp.Hình 2: So sánh 3 cách tiếp cận khác nhau đều với một mục đích cung cấp danh mục và khả năng khai thác dữ liệu cho người dùng📷 3. Thiết kế lưu trữ
· Raw hay Landing Zone là nơi dữ liệu được đưa vào và xử lý, làm chuẩn với mục tiêu giống với hiện trạng ban đầu tối đa nhất.· Gold hay Production Zone là nơi lưu trữ dữ liệu đã được xử lý, tổng hợp sạch sẽ.· Dev hay Work Zone là nơi có nhiều nhân sự phát triển, phân tích, khai phá làm việc và được tổ chức theo nhu cầu của người dùng, theo dự án hoặc theo chủ đề, khi hoàn thành sản phẩm triển khai, dữ liệu sẽ được chuyển lên Gold Zone.· Sensitive Zone là nơi chưa dữ liệu nhạy cảm, dữ liệu mã hóa phục vụ để trao đổi với các hệ thống ngoài Data Lake.Hình 3 minh họa cho tổ chức này Trong những năm gần đây, các nhà phân tích dữ liệu từ Gartner đã thúc đẩy khái niệm Multi-Modal IT (CNTT đa phương thức) , về cơ bản ý tưởng này là việc quản trị dữ liệu sẽ phản ánh việc sử dụng và yêu cầu của cộng đồng người dùng. Với các Zone khác nhau, sẽ có cách chính sách quản lý và phân quyền phù hợp. Ví dụ, dữ liệu trong Gold Zone thường được tổ chức chặt chẽ, đảm bảo chất lượng và độ chính xác. Những người dùng khác nhau sẽ có nhu cầu với từng vùng, những người phân tích kinh doanh sẽ sử dụng chủ yếu Gold Zone để khai thác, các nhân viên phát triển, vận hành hệ thống sẽ đưa và xử lý dữ liệu vào Raw Zone sau đó chuyển sang Gold Zone, những người thử nghiệm hoặc xây dựng bài toán học máy sẽ sử dụng Work Zone để làm việc trước khi triển khai sản phẩm.Hình 4 minh họa các cấp quản trị khác nhau cho các Zone khác nhau📷 Tham khảo https://learning.oreilly.com/library/view/the-enterprise-big/9781491931547/