'Data Engineering' 태그의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록Data Engineering (15)

지구정복

[Kafka] 2. Kafka Producer

1. What is a Kafka Producer?카프카 프로듀서는 토픽에 메시지를 보내는 주체이다.이때 메시지는 다음과 같은 내용들을 포함한다.-메시지는 어떤 데이터든 될 수 있고, 바이트배열로 직렬화 되어야 한다.-메시지의 키에 따라 토픽에 어느 파티션에 쓰여질 지 정해진다.-프로듀서는 메시지의 타임스탬프를 적는다.(선택적)-압축 타입은 메시지의 크기를 줄인다.(선택적)-메시지의 헤더에는 추가적인 메타데이터가 포함된다.(선택적)-브로커는 메시지를 수신하면 파티션과 offset ID를 추가한다. 프로듀서는 적절한 구조로 메시지를 만들고 메시지를 카프카 토픽에 보내는 역할을 한다. 1.1. Connecting your producer to Kafka프로듀서는 일단 카프카 bootstrap server(카..

데이터 엔지니어링 정복/Kafka 2025. 4. 28. 16:52

[Kafka] 1. Kafka Architecture

해당 글 번역https://www.redpanda.com/guides/kafka-architecture 1. Kafka Architecture카프카는 분산된 이벤트 처리 플랫폼이다.카프카는 메시지의 순서, 메시지 손실 제로, 정확히 한번 처리 등을 보장하는 시스템이다. 이제 카프카의 기본 요소들에 대해서 알아본다. 2. Summary of Key Kafka Architecture ConceptsComponentDescriptionKafka분산 메시지 처리 시스템Event카프카로 들어오는 데이터 혹은 카프카가 작성한 데이터를 의미(=message, =data)Broker데이터(Event)를 받는 카프카 서버이며 브로커들이 모여서 하나의 카프카 시스템을 구성한다.즉, 카프카를 구성하는 서버Produce..

데이터 엔지니어링 정복/Kafka 2025. 4. 27. 23:30

[Spark] Spark Streaming (DStreams) 기본 개념

공식 문서를 번역한 글입니다. 버전은 Spark 3.5.5 기준https://spark.apache.org/docs/latest/streaming-programming-guide.html 1. Note이제는 Spark Streaming은 레거시이고 사용되지 않는다.신 Spark Structured Streaming가 사용된다.프로그래밍 가이드는 아래를 참고한다.https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 2. Overview다양한 소스(ex: Kafka, Kinesis, TCP sockets, ETC)에서 오는 실시간성 데이터들을 복잡한 알고리즘이나 여러가지 Functions들(ex: map, reduc..

데이터 엔지니어링 정복/Spark 2025. 4. 23. 16:56

[Spark] 자주 사용하는 PySpark 코드들을 정리하자!

pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..

데이터 엔지니어링 정복/Spark 2025. 4. 22. 14:03

Prev 1 2 3 4 Next

목록Data Engineering (15)

지구정복

티스토리툴바