일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 맛집
- 여행
- apache iceberg
- 코엑스
- dfs
- Trino
- 백준
- bigdata engineering
- 용인맛집
- hadoop
- Spark
- pyspark
- 코테
- 삼성역맛집
- 영어
- 개발
- 프로그래머스
- 자바
- 코딩
- bigdata engineer
- BFS
- Data Engineer
- 알고리즘
- 코엑스맛집
- java
- BigData
- 코딩테스트
- Iceberg
- HIVE
- Data Engineering
- Today
- Total
목록지구정복과정 (502)
지구정복

공식 문서를 번역한 글입니다. 버전은 Spark 3.5.5 기준https://spark.apache.org/docs/latest/streaming-programming-guide.html 1. Note이제는 Spark Streaming이란 용어는 사용되지 않고 Spark Structured Streaming이란 용어로 사용된다.프로그래밍 가이드는 아래를 참고한다.https://spark.apache.org/docs/latest/structured-streaming-programming-guide.html 2. Overview다양한 소스(ex: Kafka, Kinesis, TCP sockets, ETC)에서 오는 실시간성 데이터들을 복잡한 알고리즘이나 여러가지 Functions들(ex: map, redu..

NiFi 1.15.2Spark 3.1.4Iceberg 1.3.1Hive 3.1.3 마지막 HDFS에 저장된 gzip.parquet 파일을 읽어서 Iceberg Table로 적재하는 PySpark Streaming을 실행한다. 미리 Iceberg Table은 생성되어야 있어야 하므로 PySpark로 만들어준다.#iceberg table 생성쿼리q="""CREATE TABLE iceberg_test_db.test_table_name ( data STRING, log_timestamp timestamp_ntz)USING icebergPARTITIONED BY (days(log_timestamp))TBLPROPERTIES ( 'read.parquet.vectorization.enabled..
pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..
Spark3.4.1, Hive3.1.3사용중. Spark에서 Hive managed table에 쓰기 작업(Insert 등)시 에러가 발생한다.실행한 쿼리는 다음과 같다.spark = SparkSession.builder \ .enableHiveSupport() \ .getOrCreate() #PySpark에서 Hive managed table createq = """CREATE TABLE test.user_info ( id INT, name STRING, age INT)STORED AS PARQUET""" spark.sql(q).show()#Insert쿼리 실행q = """INSERT INTO test.user_info2 (id, name, age)VALUES (1..