일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- Data Engineer
- 프로그래머스
- 맛집
- 삼성역맛집
- Iceberg
- Data Engineering
- 여행
- HIVE
- Kafka
- apache iceberg
- hadoop
- Linux
- bigdata engineering
- 코딩테스트
- 코엑스맛집
- Trino
- java
- Spark
- 영어
- 자바
- 개발
- 코딩
- BigData
- pyspark
- Apache Kafka
- 백준
- 코테
- bigdata engineer
- 용인맛집
- 알고리즘
- Today
- Total
목록Data Engineering (15)
지구정복

1. What is a Kafka Producer?카프카 프로듀서는 토픽에 메시지를 보내는 주체이다.이때 메시지는 다음과 같은 내용들을 포함한다.-메시지는 어떤 데이터든 될 수 있고, 바이트배열로 직렬화 되어야 한다.-메시지의 키에 따라 토픽에 어느 파티션에 쓰여질 지 정해진다.-프로듀서는 메시지의 타임스탬프를 적는다.(선택적)-압축 타입은 메시지의 크기를 줄인다.(선택적)-메시지의 헤더에는 추가적인 메타데이터가 포함된다.(선택적)-브로커는 메시지를 수신하면 파티션과 offset ID를 추가한다. 프로듀서는 적절한 구조로 메시지를 만들고 메시지를 카프카 토픽에 보내는 역할을 한다. 1.1. Connecting your producer to Kafka프로듀서는 일단 카프카 bootstrap server(카..

해당 글 번역https://www.redpanda.com/guides/kafka-architecture 1. Kafka Architecture카프카는 분산된 이벤트 처리 플랫폼이다.카프카는 메시지의 순서, 메시지 손실 제로, 정확히 한번 처리 등을 보장하는 시스템이다. 이제 카프카의 기본 요소들에 대해서 알아본다. 2. Summary of Key Kafka Architecture ConceptsComponentDescriptionKafka분산 메시지 처리 시스템Event카프카로 들어오는 데이터 혹은 카프카가 작성한 데이터를 의미(=message, =data)Broker데이터(Event)를 받는 카프카 서버이며 브로커들이 모여서 하나의 카프카 시스템을 구성한다.즉, 카프카를 구성하는 서버Produce..

공식 문서를 번역한 글입니다. 버전은 Spark 3.5.5 기준https://spark.apache.org/docs/latest/streaming-programming-guide.html 1. Note이제는 Spark Streaming은 레거시이고 사용되지 않는다.신 Spark Structured Streaming가 사용된다.프로그래밍 가이드는 아래를 참고한다.https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 2. Overview다양한 소스(ex: Kafka, Kinesis, TCP sockets, ETC)에서 오는 실시간성 데이터들을 복잡한 알고리즘이나 여러가지 Functions들(ex: map, reduc..
pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..