LỊCH SỬ VÀ SỰ PHÁT TRIỂN CỦA DATA LAKE (HỒ DỮ LIỆU)
Last updated
Was this helpful?
Last updated
Was this helpful?
Trong khi nhiều tổ chức đã nhận ra sự cần thiết của Data Lake để cho phép lưu trữ dữ liệu, phục vụ xử lý, khai thác tập trung và làm đầu vào cần thiết cho Machine Learning, nhưng trong khi đó một số tổ chức lại gặp khó khăn trong việc xây dựng và duy trì chúng. Vậy lịch sử hình thành của việc Quản lý dữ liệu và Data Lake như thế nào ? Hãy bắt đầu thử tìm hiểu.Những ngày đầu của Quản lý dữ liệu: cơ sở dữ liệu (Databases)Trong những ngày đầu của việc quản lý dữ liệu, cơ sở dữ liệu quan hệ (relational database)là phương pháp chính mà các công ty sử dụng để thu thập, lưu trữ và phân tích dữ liệu.Relational Databases, hay được gọi là RDBMS (Relational Database Management Systems: Hệ thống quản lý cơ sở dữ liệu quan hệ), cung cấp một cách để các công ty lưu trữ và phân tích dữ liệu có cấu trúc cao (High structured data)về khách hàng của họ bằng cách sử dụng Ngôn ngữ Truy vấn có cấu Trúc (SQL: Structured Query Language). Sự phát triển của Internet và các kho chứa dữ liệu (data silos) Với sự phát triển của Internet, các công ty nhận thấy rằng mình tràn ngập dữ liệu khách hàng. Để lưu trữ tất cả dữ liệu này, một database duy nhất không còn đủ nữa. Các công ty thường xây dựng nhiều databases được tổ chức theo ngành nghề kinh doanh để thay thế dữ liệu. Khi khối lượng dữ liệu ngày càng lớn, các công ty thường có thể dẫn đến việc hàng chục databases bị ngắt kết nối với những người dùng và mục đích khác nhau. Một mặt, đây là một may mắn: với ngày càng nhiều dữ liệu tốt hơn, các công ty có thể nhắm mục tiêu chính xác hơn đến khách hàng và quản lý hoạt động của họ hơn bao giờ hết. Mặt khác, điều này dẫn đến các kho chứa dữ liệu (data silos): các kho lưu trữ dữ liệu phân tán, phân tán trong toàn tổ chức. Vì không có cách tập trung và tổng hợp dữ liệu của họ, nhiều công ty đã không thể tổng hợp nó thành những thông tin chi tiết hữu ích. Sự việc này dẫn đến sự trỗi dậy của kho dữ liệu (data warehouses).Database Warehouses được sinh ra để hợp nhất structured data của các công ty dưới một mái nhà: Với rất nhiều dữ liệu được lưu trữ trong các hệ thống nguồn khác nhau, các công ty cần một cách để tích hợp chúng. Ý tưởng về “cái nhìn 360 độ về khách hàng – customer 360” đã trở thành ý tưởng của thời đại và các kho dữ liệu ra đời để đáp ứng nhu cầu này và hợp nhất các cơ sở dữ liệu khác nhau trong tổ chức. Kho dữ liệu (Data warehouses) nổi lên như một công nghệ tập hợp bộ sưu tập cơ sở dữ liệu quan hệ của một tổ chức lại trong một chiếc ô duy nhất, cho phép dữ liệu được truy vấn và xem xét một cách tổng thể. Lúc đầu, kho dữ liệu thường được chạy trên phần cứng dựa trên thiết bị tại chỗ, đắt tiền của các nhà cung cấp như Teradata và Vertica, và sau đó được cung cấp trên đám mây. Kho dữ liệu đã trở thành kiến trúc dữ liệu thống trị nhất đối với các công ty lớn bắt đầu từ cuối những năm 90. Những ưu điểm chính của công nghệ này bao gồm:• Sự tích hợp của nhiều nguồn dữ liệu• Dữ liệu được tối ưu hóa cho quyền truy cập đọc• Khả năng cho chạy các truy vấn phân tích một cách nhanh chóng• Kiểm toán, quản trị dữ liệu và nguồn gốcKho dữ liệu đã làm tốt vai trò của nó, nhưng theo thời gian, những mặt trái củacông nghệ này đã trở nên rõ rệt hơn:• Không có khả năng lưu trữ dữ liệu chưa được xử lý, thô• Đắt tiền, phần cứng và phần mềm độc quyền• Khó mở rộng quy mô do sự kết hợp chặt chẽ giữa bộ nhớ và sức mạnh tính toánSự vươn lên của Internet và Big Data tiền đề cho Data Lake: Với sự gia tăng của “Big Data” vào đầu những năm 2000, các công ty nhận thấy rằng họ cần phải thực hiện phân tích trên các tập dữ liệu mà không thể phù hợp khi hình dung trên một máy tính. Hơn nữa, loại dữ liệu họ cần để phân tích không phải lúc nào cũng có cấu trúc gọn gàng - các công ty cũng cần những cách để sử dụng dữ liệu phi cấu trúc (unstructured data). Để có thể thực hiện phân tích Big Data và giải quyết mối lo ngại về chi phí và việc nhà cung cấp khóa độc quyền Data Warehouses, Apache Hadoop ™ nổi lên như một công nghệ xử lý dữ liệu phân tán mã nguồn mở. Sự ra đời của Hadoop là một bước ngoặt cho phân tích Big Data vì hai lý do chính. Đầu tiên, nó có nghĩa là một số công ty có thể hình dung được việc chuyển từ phần mềm kho dữ liệu độc quyền, đắt tiền sang các cụm máy tính nội bộ chạy Hadoop mã nguồn mở và miễn phí. Thứ hai, nó cho phép các công ty phân tích một lượng lớn structured data theo cách mà trước đây không thể thực hiện được. Trước Hadoop, các công ty có data warehouses thường chỉ có thể phân tích dữ liệu có cấu trúc cao (highly structured data), nhưng giờ đây, họ có thể trích xuất giá trị từ một nhóm dữ liệu lớn hơn nhiều bao gồm dữ liệu bán cấu trúc (semi structured data) và không có cấu trúc (structured data). Một khi các công ty có khả năng phân tích raw data, việc thu thập và lưu trữ dữ liệu này ngày càng trở nên quan trọng - tạo tiền đề cho data lakes hiện đại. Data Lake ban đầu được xây dựng trên Hadoop MapReduce và HDFS đã đạt được mức độ thành công khác nhau. Nhiều Data Lake ban đầu này đã sử dụng Apache Hive ™ để cho phép người dùng truy vấn dữ liệu của họ bằng công cụ SQL để tương tác với Hadoop. Một số Data Lake ban đầu đã thành công, trong khi những Data Lake khác không thành công do độ phức tạp của Hadoop và các yếu tố khác. Cho đến ngày nay, nhiều người vẫn liên kết thuật ngữ “Data Lake” với Hadoop vì nó là khuôn khổ đầu tiên cho phép thu thập và phân tích một lượng lớn unstructured data. Tuy nhiên, hiện giờ, nhiều kiến trúc Data Lake hiện đại đã chuyển từ Hadoop Local sang chạy Spark trên Cloud. Nhưng những bước đi ban đầu này rất quan trọng vì những Data Lake từ Hadoop này là tiền thân của Data Lake hiện đại ngày nay.