전체 글

Data Engineering과 Cloud Native 기술에 대해 Dive Deep 하는 플랫폼 엔지니어가 되는 것을 목표로 하고 있습니다. 경험과 공부한 내용을 기록하며 지속가능한 엔지니어가 되는 것이 꿈입니다.
Delta Live Table 이란? Databricks 에서 데이터 파이프라인을 관리하고 자동화하는 서비스이다. Delta Lake 및 Spark 와 연동되어 스트리밍 방식과 배치 방식을 모두 제공한다. DLT 는 console에서 오토 스케일링, 스케줄링, 알림 기능을 제공한다. Delta Live Table 으로 파이프라인을 구성할 때는 databricks 에서 제공하는 dlt 라이브러리를 사용해야 하며, 일반 spark cluster 가 아닌 Delta Live Table Pipeline 에서 구성 및 실행해야 한다는 특징이 있다. Delta Live Table 가 등장하게된 배경은 Python 뿐만 아니라 SQL 쿼리로도 '스트리밍' 처리를 할 수 있게 한다는 아이디어에서 나왔다고 한다. 엔지니..
·Algorithm (PS)
기업 코딩테스트 준비를 위해 코드트리 플랫폼에서 2달동안 공부해봤습니다. 퇴근 후, 혹은 주말 시간을 이용하여 한주에 2~3문제 정도를 풀이하는 것을 목표로 하였습니다. 단계별 커리큘럼 학습 지난 달에 이어서 꾸준히 '알고리즘 입문' 레벨을 풀이하였습니다. Simulation / Backtracking / DFS / BFS 위주로 공부했습니다. 프로그래머스의 구현 문제들 보다 조금 더 실제 기업 코딩테스트에 나올만한 수준으로 대비가 가능한 것 같아서 좋았습니다. 꾸준히 풀이한 결과 프로그래머스의 구현 LV2정도는 무난하게 풀 수 있게 되었습니다. 기업별 기출문제 제가 개인적으로 목표하는 기업의 기출문제가 코드트리에 있어서 유용했습니다. 코드트리 유저들의 응시후기도 볼 수 있어서 준비에 도움이 되는 것 같..
현 회사에서 데이터 엔지니어링 프로젝트를 위해 Databricks 플랫폼을 구축하고 파이프라인을 개발하는 일을 담당하고 있다. Databricks의 기능에 대해 한국어로 잘 정리된 기술 블로그가 보이지 않아서, Databricks를 어떻게 하면 제대로 쓸 수 있을지 투고해보려고 한다. Databricks 플랫폼에서 데이터 카탈로그에 해당하는 Unity Catalog 에 대해 정리해보려고 한다. 데이터 카탈로그 , 그 이전에 데이터 가버넌스 우선 데이터 가버넌스라는 개념은 조직 내에 데이터 자산의 품질, 보안, 접근성, 일관성을 관리하고 제어하는 정책들을 말한다. 데이터 가버넌스에는 다음과 같은 활동들이 있다. 데이터 표준과 정책 설정 데이터 품질 관리 데이터 및 개인 정보 보호 데이터 관리에 대한 책임 ..
·Algorithm (PS)
배열을 옮기는 방법 # 1. n 번째 원소를 temp 에 저장 temp = a[n-1] # 2. 나머지 원소를 오른쪽으로 shift for i in range(n-1, 0, -1): a[i] = a[i-1] # 3. temp 를 첫번쨰 원소에 기록 a[0] = temp
스트림 처리 vs 배치 처리 Spark 는 Streaming 처리를 지원한다. 우선 Streaming 처리라는 것은 무한히 들어오는 새로운 데이터 셋에 대한 증분 처리라고 정의할 수 있다. 스트림 처리에서 입력되는 데이터는 시작과 끝이라는 개념이 없어서 무한하다고 표현하는 것이다. 스트림 처리와 비교가 되는 데이터 처리 방식으로는 배치 처리가 있다. 배치 처리란 고정된 입력 데이터 셋에 대해 처리하는 방식이다. 데이터가 들어오는 대로 처리하는 것이 아니라 하나의 배치로 만들어서 신규 데이터 레코드를 처리한다. 예를 들어서, A1 시간 부터 A2 까지의 처리를 한 묶음(레코드)로 묶어서 처리하고, A2 시간부터 A3 시간까지의 처리를 한 묶음으로 처리하는 방식이다. 스트림 처리와 배치처리는 다른 성격으로 ..
현재 활동하고 있는 글또에서 코드트리와 협업하여 코드트리를 1달 동안 사용해 볼 수 있었습니다. 개인적으로 코딩테스트를 준비하는 데 있어서, 일정 수준까지는 올렸는데 그 이상을 올리는게 어려웠던 지라 코드트리를 사용해 보고 싶었습니다. 그러던 참에 좋은 기회에 코드트리로 코딩 테스트 공부를 해볼 수 있었습니다. 단계별 커리큘럼 제공 코드트리에서 가장 좋았던 점은 단계별 학습 가이드입니다. 기초 - 연습 - 자료구조,알고리즘 - 알고리즘 입문 - 알고리즘 기본 - 알고리즘 실전 단계로 나뉘어집니다. 저의 경우, 기존에 알고리즘/자료구조 수업을 학부생 때 들은 경험이 있으며 백준이나 프로그래머스같은 플랫폼에서 코딩테스트를 공부해 온 상태였습니다. 그런데 목표하는 기업에서 주로 구현을 까다롭게 내는 편이어서 ..
·Data Engineering
데이터 엔지니어 분들의 이야기를 보면 회사마다 각기 다른 엔진, 서비스로 플랫폼을 구축하여 운영하고 어떤 제품이 가장 적합한지 PoC를 통해 도입하는 것 같다. 예전에 스타트업에서 인턴을 했을 때에도 Avo라는 로깅 + 모니터링 툴에 대해 데이터 엔지니어링 팀원분들과 PoC를 진행하고 실제로 도입했던 경험이 있다. 여러가지 데이터 인프라 구성요소 중에서 가장 흔하게 사용되고, 내가 현재 회사에서 사용하는 Databricks 플랫폼과 관련된 엔진들에 대해 정리해보았다. Spark vs Hadoop 먼저 빅데이터를 관리하고 처리하는데 사용되는 오픈소스 프레임워크로 Spark와 Hadoop이 있다. 현재는 주로 Hadoop에서 Spark로 넘어온 패러다임이라고 한다. Hadoop Map Reduce 연산 Ha..
https://docs.databricks.com/en/delta/merge.html#language-python Databricks documentation docs.databricks.com 데이터를 증분적재해야 하는 경우 merge() 혹은 MERGE INTO sql 문을 사용할 수 있다. [Python Code Snippet] (targetDF.alias("t") # DeltaTable 이 Target이 되어야 한다. .merge(sourceDF.alias("s"), "s.key = t.key") # merge 조건을 정한다. Source는 DataFrame이다. .whenMatchedUpdateAll() # key값이 동일한 경우 모두 변경 반영 .whenNotMatchedInsertAll() ..
minjiwoo
minji's engineering note