hive

·Data Engineering
데이터 엔지니어 분들의 이야기를 보면 회사마다 각기 다른 엔진, 서비스로 플랫폼을 구축하여 운영하고 어떤 제품이 가장 적합한지 PoC를 통해 도입하는 것 같다. 예전에 스타트업에서 인턴을 했을 때에도 Avo라는 로깅 + 모니터링 툴에 대해 데이터 엔지니어링 팀원분들과 PoC를 진행하고 실제로 도입했던 경험이 있다. 여러가지 데이터 인프라 구성요소 중에서 가장 흔하게 사용되고, 내가 현재 회사에서 사용하는 Databricks 플랫폼과 관련된 엔진들에 대해 정리해보았다. Spark vs Hadoop 먼저 빅데이터를 관리하고 처리하는데 사용되는 오픈소스 프레임워크로 Spark와 Hadoop이 있다. 현재는 주로 Hadoop에서 Spark로 넘어온 패러다임이라고 한다. Hadoop Map Reduce 연산 Ha..
minjiwoo
'hive' 태그의 글 목록