전체 글

Data Engineering과 Cloud Native 기술에 대해 Dive Deep 하는 플랫폼 엔지니어가 되는 것을 목표로 하고 있습니다. 경험과 공부한 내용을 기록하며 지속가능한 엔지니어가 되는 것이 꿈입니다.
kakfa의 등장 배경실시간으로 데이터를 처리하는 과정에서, 다수의 producer 와 consumer가 개별적인 연결을 맺는 구조의 경우 하나의 시스템만 추가되어도 통신 구조가 복잡해진다. 이런 문제를 해결하기 위해서 카프카를 통해, 메세지와 데이터의 흐름을 중앙화하여 관리한다.   Kafka 의 구성요소 producer : 정보를 제공하는 processconsumer: 정보를 제공받아서 사용하려는 processconsumer group : 카프카 컨슈머들은 컨슈머 그룹에 속한다. 여러개의 컨슈머가 같은 컨슈머 그룹에 속할 때 각 컨슈머가 해당 토픽의 다른 파티션을 분담해서 메세지를 읽을 수 있다.broker : 데이터를 저장하고 수신 및 전달하는 node (그림은 MQ == Broker 같이 보이는데..
조건에 맞는 아이템들의 가격의 총합 구하기 https://school.programmers.co.kr/learn/courses/30/lessons/273709 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr SELECT SUM(PRICE) AS TOTAL_PRICEFROM ITEM_INFO WHERE RARITY = 'LEGEND' 물고기 종류 별 대어 찾기https://school.programmers.co.kr/learn/courses/30/lessons/293261 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤..
기본이 되는 hadoop cluster docker-compose.yml 은 아래의 repository 를 참고하였으며, presto 엔진을 사용하기 위해 수정하였다.  https://github.com/big-data-europe/docker-hadoop GitHub - big-data-europe/docker-hadoop: Apache Hadoop docker imageApache Hadoop docker image. Contribute to big-data-europe/docker-hadoop development by creating an account on GitHub.github.com docker-compose.yml 파일은 다음과 같다. version: "3"services: nameno..
chrome headless 모드에서 크롤링을 하던 중 아래와 같은 문제가 발생하였다. {logging_mixin.py:188} WARNING - /home/ubuntu/airflow_venv/lib/python3.12/site-packages/airflow/task/task_runner/standard_task_runner.py:61 DeprecationWarning: This process (pid=7115) is multi-threaded,use of fork() may lead to deadlocks in the child. grep 명령어를 사용하여 fork 가 어디에서 사용되는지 해당 파일에서 확인해 보았다. fork() 함수가 _start_by_fork() 라는 함수 내부에서 사용되고 있다...
프로그래머스 유형별 문제 도장깨기 챌린지 ! 1. 조건에 맞는 도서 리스트 출력하기 https://school.programmers.co.kr/learn/courses/30/lessons/144853 프로그래머스코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요.programmers.co.kr-- 조건에 부합하는 도서 리스트 출력하기 SELECT BOOK_ID , DATE_FORMAT(PUBLISHED_DATE, '%Y-%m-%d') AS PUBLISHED_DATEFROM BOOK WHERE 1=1AND PUBLISHED_DATE >= '2021-01-01' AND PUBLISHED_DATE  2. 조건에..
airflow 를 t2.micro (가장 저렴한 프리티어 인스턴스) 로 deploy 하다가 서버가 계속 죽는 현상이 나서 메모리 사용량을 찍어봤더니 인스턴스가 버거워 하는 것을 확인했다..사용중인 인스턴스를 '중지' (절대 종료하면 안된다 인스턴스가 삭제됨) 한 후에, 인스턴스 설정 > 인스턴스 유형 변경을 선택한다. 원하는 인스턴스 유형을 선택하고 적용시킨다. 4GB 정도면 충분하겠지..! 적용이 성공되면 다음과 같다 재부팅 후 airflow 실행을 해보니 이제 인스턴스가 어는 것도 없고 task 가 잘 실행된다!
1. Airflow 의 주요 컴포넌트 Scheduler : workflow 스케줄을 실행시키고 executor 에게 task 를 제출하여 실행시킨다. Executor : task 실행을 관리하는 컴포넌트 Worker : 실제로 task 를 실행시키는 컴포넌트Webserver : DAG의 실행을 UI상에서 확인할 수 있도록 웹 서버를 제공한다. Metadata Database : DAGs 에 대한 정보와 task 의 상태에 대한 정보를 저장한다. Dags (folder) : DAG를 구성하는 코드가 있는 경로이다. airflow.cfg 파일에서 기본 경로를 설정할 수 있다.  2. Airflow Executor 의 종류 Sequential Executor기본 executor 이다.한번에 하나의 task 만..
·Algorithm (PS)
https://leetcode.com/problems/top-k-frequent-words/Given an array of strings words and an integer k, return the k most frequent strings.Return the answer sorted by the frequency from highest to lowest. Sort the words with the same frequency by their lexicographical order.Example 1:Input: words = ["i","love","leetcode","i","love","coding"], k = 2Output: ["i","love"]Explanation: "i" and "love" are..
minjiwoo
minji's engineering note