CCA175
Last updated
Was this helpful?
Last updated
Was this helpful?
Chào mọi người,Đối với những bạn đang đi săn chứng chỉ về mảng Data Engineer (DE) thì chắc hẳn các bạn cũng biết tới chứng chỉ CCA175 (Cloudera Certified Associate) của Cloudera. Theo trang CIO (https://www.cio.com/article/3395879/top-14-data-engineer-and-data-architect-certifications.html), CCA175 thì cũng thuộc top những chứng chỉ đáng giá trong mảng DE mà theo mình thấy đây là chứng chỉ không quá khó để đạt được. Trong bài viết này mình sẽ chia sẻ cho các bạn cách để lấy được cert này nhé.CCA175 (CCA Spark and Hadoop Developer Exam) là chứng chỉ được cấp bởi Cloudera, Đề thi có từ 8-12 câu (Đợt vừa rồi mình thi là 9 câu). Thời gian làm bài là 120 phút, Đúng trên 70% sẽ được cấp chứng chỉ. Tất cả hoàn toàn bằng tiếng Anh. Trong bài thi, mọi người sẽ được remote thẳng vào cluster bài thi (các component như SPARK, Hadoop, Impala, Hive) đã được cài sẵn. Tài liệu về Spark đã có sẵn trên cluster.Về bản chất, CCA175 sẽ hỏi bề các tình huống thực tế (hands-on excercises) của một DE developer (Import và Export từ Data Source này sang Data Source khác, sử dụng các hàm agg cơ bản, sort, và save output theo đúng định dạng yêu cầu), sẽ không liên quan đến việc cài đặt hoặc maintain cluster.Chính vì là các bài tập tình huống cụ thể, thế nên mọi người có thể giải quyết bài toán theo ý muốn của mình, không theo một khuôn mẫu nào cả (VD: bạn có thể dùng SPARK để đọc dữ liệu input parquet (nén snappy) rồi save ra orc nén gzip. Tuy nhiên bạn cũng có thể dùng HIVE để làm điều này). Miễn là output của bạn thỏa mãn các tiêu chí sau:1. Save output ra đúng location.2. Output đúng định dạng file yêu cầu.3. Dấu phân cách trường (Delimiter) đối với file text và schema file (đối với parquet và các định dạng khác) phải đúng.4. Số lượng bản ghi phải đúng.5. Dữ liệu phải đúng (sort đúng thứ tự, con số agg phải đúng, ….).Bạn đúng đến đâu, họ sẽ chấm điểm bạn đến đấy. Ở trong kỳ thi của mình vừa rồi mình có rơi vào trường hợp output bắt save ra parquet định dạng nén gzip. Thông thường khi mọi người dùng SPARK để save ra thì file sẽ có định dạng xxx.gzip.parquet. Tuy nhiên hôm đó mình lại sử dụng HIVE để save ra nên file có định dạng (00000_0, ….). Mặc dù trên kết quả báo sau khi thi xong là “Incorrect file format”, tuy nhiên mình vẫn được tính đúng (Do các điều kiện khác vẫn đúng, vẫn là file gzip.parquet, chẳng qua lên tên file không có .gzip.parquet mà thôi 😊).Theo mình, CCA175 là chứng chỉ không khó để mọi người đạt được vì nó sẽ không hỏi quá sâu về lập trình hay hiểu biết hết các Confirguration như chứng chỉ Spark DataBricks (VD: Sẽ không phải code UDF phức tạp cho DataFrame). Cái bạn cần chỉ là luyện tập quen tay mà thôi :DVề phần tài liệu ôn tập cũng như resrouces để ôn tập. Mình sử dụng môi trường máy ảo của cloudera cài trên virtual box (Không biết vì sao bây giờ không tìm thấy link download package trên trang chủ của cloudera nữa, mình sẽ gửi lại link down ở bên dưới). Bạn chỉ việc down về rồi import lên luyện tập thôi, sẽ không mất công phải cài cắm nữa (Đối với những ai thích mày mò cài cắm thì có thể làm cách khác nhưng mình nghĩ việc đấy ko phải là trọng tâm, mục tiêu của mình là cert cơ mà 😊). Còn document ôn tập, mình có mua tài liệu câu hỏi và bài tập của bên certkiller.net (giá $40) bây giờ share cho mọi người. Trong tài liệu đấy có các bài tập mẫu và lời giải mà mọi người có thể làm theo. Cữ luyện quen tay rồi book lịch kiếm cert thôi.
Link mình để tại đây nhé:
Cloudera Package: tại đây
CertKiller: tại đây
Chúc mọi người thành công.