Structured Streaming

스트림 처리 vs 배치 처리 Spark 는 Streaming 처리를 지원한다. 우선 Streaming 처리라는 것은 무한히 들어오는 새로운 데이터 셋에 대한 증분 처리라고 정의할 수 있다. 스트림 처리에서 입력되는 데이터는 시작과 끝이라는 개념이 없어서 무한하다고 표현하는 것이다. 스트림 처리와 비교가 되는 데이터 처리 방식으로는 배치 처리가 있다. 배치 처리란 고정된 입력 데이터 셋에 대해 처리하는 방식이다. 데이터가 들어오는 대로 처리하는 것이 아니라 하나의 배치로 만들어서 신규 데이터 레코드를 처리한다. 예를 들어서, A1 시간 부터 A2 까지의 처리를 한 묶음(레코드)로 묶어서 처리하고, A2 시간부터 A3 시간까지의 처리를 한 묶음으로 처리하는 방식이다. 스트림 처리와 배치처리는 다른 성격으로 ..
minjiwoo
'Structured Streaming' 태그의 글 목록