Hệ thống Data Lake là gì ?
Last updated
Was this helpful?
Last updated
Was this helpful?
Data Lake là một kho lưu trữ tập trung mà nó có khả năng lưu trữ dữ liệu có cấu trúc (Structured Data – hang cột), phi cấu trúc (Unstructured Data – video, hình ảnh, file nhị phân) và bán cấu trúc (Semi-Structured Data – comment, email, ..). Data Lake tận dụng được các phần cứng chi phí thấp và nhiều định dạng để cho phép nhiều ứng dụng tương tác dữ liệu. Data Lake thường được sử dụng để lưu trữ tập trung tất cả các dữ liệu của một tổ chức tại một vị trí hay một hệ thống duy nhất. Nơi mà dữ liệu có thể được lưu nguyên định dạng ban đầu mà không cần tiền xử lý trước. Dữ liệu trong tất cả các giai đoạn của quá trình làm sạch, filter được lưu trữ tại Lake , dữ liệu thô có thể được trữ trực tiếp cùng với dữ liệu đã xử lý thành cấu trúc.Không giống như hầu hết các Database truyền thống, Data Lake có thể xử lý và lưu trữ được tất cả các loại dữ liệu bao gồm hình ảnh, video , âm thanh, văn bản, ..Vậy tại sao bạn cần Data Lake ?Ngày nay, các công ty, tập đoàn có rất nhiều dữ liệu, nhưng nó thường được lưu trữ ở nhiều nơi trên nhưng hệ thống khác nhau. Data Lake chia nhỏ những dữ liệu này, tập trung và hợp nhật tất cả các dữ liệu thành các Bussiness Domain, Streaming Data hoặc Batch Data để tạo thành các phân vùng lưu trữ, phân quyền, truy cập giúp việc quản lý, khai thác được tối ưu.Tập trung toàn bộ dữ liệu vào Data Lake là bước đầu tiên mà các công ty mong muốn khai thác sức mạnh của Machine Learning và Data Analytics và giành chiến thắng trong thập kỷ tới.Kiến trúc linh hoạt và hoàn chỉnh của một Data Lake cho phép mở ra nhiều cơ hội cho các bài toán hay các hệ thống BI, dự án Machine Learning giúp lại những giá trị từ khả năng kinh doanh mới. Những nhà phân tích dữ liệu (Data Analyst) có thể tham gia trực tiếp vào hệ thống, truy vấn khai thác dữ liệu và thu thập thông tin bằng cách sử dụng SQL, nhà khoa học dữ liệu (Data Scientist có thể tham gia và làm giầu các tập dữ liệu để tạo ra các mô hình học máy (Machine Learning) với độ chính xác cao hơn bao giờ hết, các kỹ sư xử lý dữ liệu (Data Engineer) có thể xây dựng các luồng ETL xử lý dữ liệu (Data Pipeline) tự động và chạy tuần tự theo một lịch cài đặt và cuối cùng những nhân sự báo cáo có thể chủ động sử dụng các công cụ báo cáo động để dễ dàng xây dựng cho mình các hệ thống báo cáo phức tạp và chuyên sâu. Tất cả các vai trò này đều có thể thực hiện đồng thời trên Data Lake mà không cần phải di chuyển dữ liệu giữa các hệ thống, ngay cả khi luồng dữ liệu Online vẫn liên tục được đưa vào hệ thống. Khi được thiết kế phù hợp, Data Lake cho phép:- Sức mạnh cho Data Science và Machine Learning- Tập trung, hợp nhất và khả năng quản trị dữ liệu- Dễ dàng tích hợp và đa dạng hóa các nguồn dữ liệu đầu vào- Khả năng khai thác, trình diễn và chủ động cho người dùng cuốiNguồn: https://databricks.com/discover/data-lakes/introduction