Data Engineering
[TIL/240520] Data Engineering on Databricks
minjiwoo
2024. 5. 20. 23:12
728x90
1. 테이블 적재 (전체 적재)
- Bronze - Silver - Gold 레이어를 두는 메달리언 아키텍처를 기반으로 ETL 파이프라인을 설계하고 있다.
- Bronze -> Silver 로 테이블 데이터 적재를 완료했다.
- SQL 문은 주로 union 을 사용하여 Target Table count 와 Source Table count 를 확인하고 있다.
2. Databricks 에서의 timezone 설정을 KST로 하도록 알아보는 중이다.
- Spark Cluster 설정을 아예 configuration 값으로 주는게 최선의 방법인 것 같다.
- Spark Cluster maven install 시에 구글 크롬 브라우저에서 잘 보이지 않는 이슈 & single cluster 는 설치 되는데 shared cluster 에서는 실행이 되지 않는 이슈가 있었다.
3. schema 와 일치하지 않는 컬럼 검증
- column 존재 여부 확인, column null 값 여부 확인을 위해 information_schema 의 system table 들을 활용했다.
- delta table
- schema (테이블 명세서) 와 실제 적재된 테이블의 컬럼들이 매칭되는지 pyspark 로 구현하여 검증
- but, 중첩된 for 문 사용으로 연산이 느리는 이슈가 있음 -> 살펴보기
4. MLFlow opensource 에서 설치 & deploy 해보기
5. 알고리즘 / sql 스터디 시작..!
728x90