델타테이블

오픈 테이블 포맷오픈 테이블 포맷 (Open Table Formats) 는 데이터 레이크(Data Lake) 에 ACID 트랜잭션과, schema 제약조건 강화, time travel 기능 등을 추가한 시스템이다. 기본적으로, 데이터레이크는 빅데이터 패러다임이 등장하면서 확장성, 유연성 그리고 무엇보다 저비용이라는 점에서 장점이 있다. 저렴한 비용으로 정형, 비정형 데이터를 모두 저장할 수 있다는 점에서 널리 쓰인다. 그렇지만 데이터레이크는 데이터베이스와 같은 ACID 트랜잭션을 지원하지 않았다. 데이터 레이크는 csv, json, parquet 과 같은 파일 형식으로 데이터를 저장한다. 따라서 CDC 나 데이터의 일관성 보장에 대해서 처리하기에는 구현하기도 어렵고 파일을 다루다 보니 처리 비용과 시간이..
https://docs.databricks.com/en/delta/merge.html#language-python Databricks documentation docs.databricks.com 데이터를 증분적재해야 하는 경우 merge() 혹은 MERGE INTO sql 문을 사용할 수 있다. [Python Code Snippet] (targetDF.alias("t") # DeltaTable 이 Target이 되어야 한다. .merge(sourceDF.alias("s"), "s.key = t.key") # merge 조건을 정한다. Source는 DataFrame이다. .whenMatchedUpdateAll() # key값이 동일한 경우 모두 변경 반영 .whenNotMatchedInsertAll() ..
minjiwoo
'델타테이블' 태그의 글 목록