일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 코딩테스트
- apache iceberg
- 백준
- 자바
- Data Engineer
- 영어
- 삼성역맛집
- 여행
- Apache Kafka
- java
- HIVE
- 코딩
- 개발
- 코엑스맛집
- 코테
- Kafka
- 맛집
- 알고리즘
- Trino
- Iceberg
- 프로그래머스
- BigData
- hadoop
- 용인맛집
- bigdata engineer
- pyspark
- 코엑스
- Spark
- Data Engineering
- bigdata engineering
- Today
- Total
목록데이터 엔지니어링 정복/Spark (8)
지구정복

공식 문서를 번역한 글입니다. 버전은 Spark 3.5.5 기준https://spark.apache.org/docs/latest/streaming-programming-guide.html 1. Note이제는 Spark Streaming은 레거시이고 사용되지 않는다.신 Spark Structured Streaming가 사용된다.프로그래밍 가이드는 아래를 참고한다.https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 2. Overview다양한 소스(ex: Kafka, Kinesis, TCP sockets, ETC)에서 오는 실시간성 데이터들을 복잡한 알고리즘이나 여러가지 Functions들(ex: map, reduc..
pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..
Spark3.4.1, Hive3.1.3사용중. Spark에서 Hive managed table에 쓰기 작업(Insert 등)시 에러가 발생한다.실행한 쿼리는 다음과 같다.spark = SparkSession.builder \ .enableHiveSupport() \ .getOrCreate() #PySpark에서 Hive managed table createq = """CREATE TABLE test.user_info ( id INT, name STRING, age INT)STORED AS PARQUET""" spark.sql(q).show()#Insert쿼리 실행q = """INSERT INTO test.user_info2 (id, name, age)VALUES (1..

Spark 3.4.1 사용중이고 리소스매니저는 Yarn을 사용중이다. Dynamic allocation은 Executor들에게만 적용된다.아래 설정들을 spark-defaults.conf에 해줘야 한다.만약 spark-thrift-sparkconf.conf에 해주면 Thrift server통해서 실행되는 Spark Job에만 적용된다. 공식문서 (3.4.1)https://archive.apache.org/dist/spark/docs/3.4.1/configuration.html#dynamic-allocationhttps://archive.apache.org/dist/spark/docs/3.4.1/job-scheduling.html Dynamic Allocation을 설정하는 방법은 두 가지가 있다.Th..