NHỮNG THÁCH THỨC VỚI DATA LAKES ?
Last updated
Was this helpful?
Last updated
Was this helpful?
Khó khăn đầu tiên: Độ tin cậy của dataNếu không có các công cụ thích hợp, Data Lakes có thể gặp phải các vấn đề về độ tin cậy, khiến các nhà khoa học và phân tích data gặp khó khăn trong việc lập luận về data. Trong kì này, chúng ta sẽ khám phá một số nguyên nhân gốc rễ trong các vấn đề về độ tin cậy của dữ liệu trên Data lakes. Xử lý lại data do luồng dữ liệu (Data Pipeline) phát sinh lỗi ?Với Data lakes truyền thống, nhu cầu liên tục xử lý lại data bị thiếu hoặc bị hỏng có thể trở thành một vấn đề lớn. Nó thường xảy ra khi ai đó đang ghi data vào Data lakes, nhưng do lỗi phần cứng hoặc phần mềm, công việc ghi không hoàn thành. Trong trường hợp này, Data engineers phải dành thời gian và công sức để xóa mọi data bị hỏng, kiểm tra phần còn lại của data xem có đúng không và thiết lập công việc ghi mới để lấp đầy bất kỳ lỗ hổng nào trong data. Delta Lake giải quyết vấn đề tái xử lý bằng cách làm cho Data lakes của bạn có thể giao dịch, có nghĩa là mọi hoạt động được thực hiện trên nó đều có tính chất atomic: nó sẽ thành công hoàn toàn hoặc thất bại hoàn toàn. Kết quả là, Data scientists sẽ không phải mất thời gian xử lý lại data một cách phức tạp do ghi lỗi. Thay vào đó, họ có thể dành thời gian đó để tìm hiểu thông tin chi tiết về data và xây dựng mô hình học máy để thúc đẩy kết quả kinh doanh tốt hơn. Xác thực data và thực thi chất lượngVới các ứng dụng phần mềm truyền thống, thật dễ dàng biết khi nào có vấn đề - ví dụ: bạn có thể thấy nút trên trang web của mình không ở đúng vị trí. Tuy nhiên, với các ứng dụng data, các vấn đề về chất lượng data có thể dễ dàng không bị phát hiện. Các trường hợp data bị hỏng hoặc loại dữ liệu không phù hợp có thể xuất hiện vào những thời điểm quan trọng và phá vỡ Data pipeline của bạn. Tệ hơn nữa, các lỗi data như thế này có thể không bị phát hiện và làm sai lệch data của bạn, khiến bạn đưa ra các quyết định kinh doanh kém.Giải pháp là sử dụng các công cụ thực thi chất lượng data như thực thi schema của Delta Lake và nâng cấp schema để quản lý chất lượng data của bạn. Những công cụ này, cùng với các giao dịch của Delta Lake, giúp bạn có thể hoàn toàn tin tưởng vào data của mình, ngay cả khi data phát triển và thay đổi trong suốt vòng đời của nó. Kết hợp hàng loạt và truyền trực tuyến dataVới số lượng data được thu thập theo thời gian thực ngày càng tăng, Data lakes cần khả năng dễ dàng nắm bắt và kết hợp data truyền trực tuyến với lịch sử và data dây chuyền để chúng luôn được cập nhật.Với Delta Lake, mọi bảng đều có thể dễ dàng tích hợp các loại data này, đóng vai trò là một nguồn hàng loạt và nguồn phát trực tuyến. Cập nhật hàng loạt, hợp nhất và xóa bỏData Lakes có thể chứa một lượng lớn data và các công ty cần có cách để thực hiện các thao tác cập nhật, hợp nhất và xóa một cách đáng tin cậy trên data đó để data đó luôn được cập nhật.Một cách phổ biến khiến cập nhật, hợp nhất và xóa bỏ trên data lakes trở thành một điểm khó khăn cho các công ty là liên quan đến các quy định về data như CCPA (California Consumer Privacy Act) và GDPR (General Data Protection Regulation). Theo các quy định này, các công ty có nghĩa vụ xóa tất cả thông tin của khách hàng theo yêu cầu của họ. Với Data lake truyền thống, có hai thách thức khi thực hiện yêu cầu này. Các công ty cần có khả năng:1. Truy vấn tất cả Data trong data lakes bằng SQL.2. Xóa bất kỳ data nào liên quan đến khách hàng đó trên cơ sở từng hàng, điều mà các công cụ phân tích truyền thống không được trang bị để làm.Delta Lake giải quyết vấn đề này bằng cách cho phép các data analysts dễ dàng truy vấn tất cả data trong Data lakes của họ bằng cách sử dụng SQL. Sau đó, các nhà phân tích có thể thực hiện cập nhật, hợp nhất hoặc xóa data bằng một lệnh duy nhất. Khó khăn thứ hai: Hiệu suất truy vấnHiệu suất truy vấn là yếu tố chính thúc đẩy sự hài lòng của người dùng đối với các công cụ phân tích data lakes. Đối với người dùng thực hiện phân tích data tương tác, khám phá bằng SQL, phản hồi nhanh chóng cho các truy vấn phổ biến là điều cần thiết.Data lakes có thể chứa hàng triệu tệp và bảng, vì vậy, điều quan trọng là công cụ truy vấn data lakes của bạn phải được tối ưu hóa để đạt hiệu suất trên quy mô lớn. Một số tắc nghẽn hiệu suất chính có thể xảy ra với data lakes được thảo luận dưới đây: Những tệp tin nhỏ Có một số lượng lớn các tệp nhỏ trong data lake (thay vì các tệp lớn hơn được tối ưu hóa cho phân tích) có thể làm chậm hiệu suất đáng kể do các hạn chế với thông lượng I / O. Delta Lake sử dụng tính năng nén tệp nhỏ để hợp nhất tệp nhỏ thành tệp lớn hơn được tối ưu hóa cho quyền truy cập đọc.📷 Những việc đọc data không cần thiết từ đĩa:Việc truy cập data liên tục từ bộ nhớ có thể làm chậm hiệu suất truy vấn đáng kể. Delta Lake sử dụng bộ nhớ đệm để lưu giữ có chọn lọc các bảng quan trọng trong bộ nhớ, để chúng có thể được lấy lại nhanh hơn. Nó cũng sử dụng tính năng bỏ qua data để tăng thông lượng đọc lên đến 15 lần, để tránh xử lý data không liên quan đến một truy vấn nhất định.📷 Những tệp tin đã bị xóaTrên data lakes hiện đại sử dụng lưu trữ đám mây, các tệp bị "xóa" thực sự có thể vẫn còn trong data lakes trong tối đa 30 ngày, tạo ra chi phí không cần thiết làm chậm hiệu suất truy vấn. Delta Lake cung cấp lệnh “VACUUM” để xóa vĩnh viễn các tệp không còn cần thiết.Lập chỉ mục và phân vùng dataĐể có hiệu suất truy vấn thích hợp, data lakes phải được lập chỉ mục và phân vùng đúng cách dọc theo các không gian mà nó có nhiều khả năng được nhóm lại. Delta Lake có thể tạo và duy trì các chỉ mục và phân vùng được tối ưu hóa cho phân tích. Quản lý metadata:Data lakes phát triển để trở thành nhiều petabyte hoặc nhiều hơn có thể bị tắc nghẽn không phải do data mà do metadata đi kèm với nó. Delta Lake sử dụng Spark để cung cấp phiên bản mở rộng của việc quản lý metadata, phân phối quá trình xử lý của nó giống như chính bản thân data.Nguồn: https://databricks.com/discover/data-lakes/challenges