[TIL/240520] Data Engineering on Databricks

Data Engineering

minjiwoo 2024. 5. 20. 23:12

728x90

1. 테이블 적재 (전체 적재)

2. Databricks 에서의 timezone 설정을 KST로 하도록 알아보는 중이다.

Spark Cluster 설정을 아예 configuration 값으로 주는게 최선의 방법인 것 같다.
Spark Cluster maven install 시에 구글 크롬 브라우저에서 잘 보이지 않는 이슈 & single cluster 는 설치 되는데 shared cluster 에서는 실행이 되지 않는 이슈가 있었다.

3. schema 와 일치하지 않는 컬럼 검증

column 존재 여부 확인, column null 값 여부 확인을 위해 information_schema 의 system table 들을 활용했다.
- delta table
schema (테이블 명세서) 와 실제 적재된 테이블의 컬럼들이 매칭되는지 pyspark 로 구현하여 검증
- but, 중첩된 for 문 사용으로 연산이 느리는 이슈가 있음 -> 살펴보기

4. MLFlow opensource 에서 설치 & deploy 해보기

5. 알고리즘 / sql 스터디 시작..!

728x90