'pyspark' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록pyspark (4)

지구정복

[NiFi] Data Pipeline | log -> Json -> gzip.parquet -> HDFS -> Iceberg Table

NiFi 1.15.2Spark 3.1.4Iceberg 1.3.1Hive 3.1.3 마지막 HDFS에 저장된 gzip.parquet 파일을 읽어서 Iceberg Table로 적재하는 PySpark Streaming을 실행한다. 미리 Iceberg Table은 생성되어야 있어야 하므로 PySpark로 만들어준다.#iceberg table 생성쿼리q="""CREATE TABLE iceberg_test_db.test_table_name ( data STRING, log_timestamp timestamp_ntz)USING icebergPARTITIONED BY (days(log_timestamp))TBLPROPERTIES ( 'read.parquet.vectorization.enabled..

데이터 엔지니어링 정복/NiFi 2025. 4. 22. 14:42

[Spark] 자주 사용하는 PySpark 코드들을 정리하자!

pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..

데이터 엔지니어링 정복/Spark 2025. 4. 22. 14:03

[Spark] Dynamic partition strict mode requires at least one static partition column Error

Spark를 이용해서 Hive 테이블 쓰기 작업중 아래 에러가 발생했다.com.streamsets.datatransformer.dag.error.OperatorFailureException: Operator Hive_01 failed due to org.apache.spark.SparkException at com.streamsets.datatransformer.dag.BaseBatchDAGRunner.com$streamsets$datatransformer$dag$BaseBatchDAGRunner$$generateOperatorFailure(BaseBatchDAGRunner.scala:664) at com.streamsets.datatransformer.dag.BaseBatchDAGRunner$$anon..

데이터 엔지니어링 정복/Spark 2025. 4. 15. 17:14

[Spark] Hive table저장시 parquet 포맷 관련 설정

spark dataframe을 hive table로 저장하려고 할 때 아래 에러 발생했다.StreamingQueryException: [STREAM_FAILED] Query [id = 212088e9-127b-408d-84fa-bc47345e6f77, runId = 303af654-dffd-4218-a813-2b270be37aa3] terminated with exception: An exception was raised by the Python Proxy. Return Message: Traceback (most recent call last): File "/usr/local/src/miniconda/py38-16/lib/python3.8/site-packages/py4j/clientserver.py..

데이터 엔지니어링 정복/Spark 2025. 4. 13. 15:40

Prev 1 Next

목록pyspark (4)

지구정복

티스토리툴바