Data Engineering

[TIL/240520] Data Engineering on Databricks

minjiwoo 2024. 5. 20. 23:12
728x90

1. 테이블 적재 (전체 적재)

  • Bronze - Silver - Gold 레이어를 두는 메달리언 아키텍처를 기반으로 ETL 파이프라인을 설계하고 있다. 
  • Bronze -> Silver 로 테이블 데이터 적재를 완료했다. 
  • SQL 문은 주로 union 을 사용하여 Target Table count 와 Source Table count 를 확인하고 있다. 

 2. Databricks 에서의 timezone 설정을 KST로 하도록 알아보는 중이다. 

  • Spark Cluster 설정을 아예 configuration 값으로 주는게 최선의 방법인 것 같다. 
  • Spark Cluster maven install 시에 구글 크롬 브라우저에서 잘 보이지 않는 이슈 & single cluster 는 설치 되는데 shared cluster 에서는 실행이 되지 않는 이슈가 있었다. 

3. schema 와 일치하지 않는 컬럼 검증 

  • column 존재 여부 확인, column null 값 여부 확인을 위해 information_schema 의 system table 들을 활용했다. 
    • delta table 
  • schema (테이블 명세서) 와 실제 적재된 테이블의 컬럼들이 매칭되는지 pyspark 로 구현하여 검증 
    • but, 중첩된 for 문 사용으로 연산이 느리는 이슈가 있음 -> 살펴보기

4. MLFlow opensource 에서 설치 & deploy 해보기 

 5. 알고리즘 / sql 스터디 시작..!

728x90