'BigData' 태그의 글 목록 (6 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록BigData (39)

지구정복

[Spark] 자주 사용하는 PySpark 코드들을 정리하자!

pyspark3 --master yarn --deploy-mode client \ --executor-memory 20g \ --executor-cores 5 --num-executors 30 \ --conf spark.pyspark.python=/usr/bin/python3.7 \ --conf spark.pyspark.driver.python=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_PYTHON=/usr/bin/python3.7 \ --conf spark.yarn.appMasterEnv.PYSPARK_DRIVER_PYTHON=/usr/bin/python3.7 \ --conf spark.driver.maxResultSize=3g --dr..

데이터 엔지니어링 정복/Spark 2025. 4. 22. 14:03

[Spark & Hive] Spark로 Hive Managed Table에 Write시 Error | org.apache.hadoop.hive.ql.metadata.HiveException: Load Data failed for {임시파일경로} as the file is not owned by hive and load data is also not ran as hive

Spark3.4.1, Hive3.1.3사용중. Spark에서 Hive managed table에 쓰기 작업(Insert 등)시 에러가 발생한다.실행한 쿼리는 다음과 같다.spark = SparkSession.builder \ .enableHiveSupport() \ .getOrCreate() #PySpark에서 Hive managed table createq = """CREATE TABLE test.user_info ( id INT, name STRING, age INT)STORED AS PARQUET""" spark.sql(q).show()#Insert쿼리 실행q = """INSERT INTO test.user_info2 (id, name, age)VALUES (1..

데이터 엔지니어링 정복/Spark 2025. 4. 22. 13:46

[Spark] Dynamic Allocation 사용

Spark 3.4.1 사용중이고 리소스매니저는 Yarn을 사용중이다. Dynamic allocation은 Executor들에게만 적용된다.아래 설정들을 spark-defaults.conf에 해줘야 한다.만약 spark-thrift-sparkconf.conf에 해주면 Thrift server통해서 실행되는 Spark Job에만 적용된다. 공식문서 (3.4.1)https://archive.apache.org/dist/spark/docs/3.4.1/configuration.html#dynamic-allocationhttps://archive.apache.org/dist/spark/docs/3.4.1/job-scheduling.html Dynamic Allocation을 설정하는 방법은 두 가지가 있다.Th..

데이터 엔지니어링 정복/Spark 2025. 4. 18. 16:43

[Spark] Dynamic partition strict mode requires at least one static partition column Error

Spark를 이용해서 Hive 테이블 쓰기 작업중 아래 에러가 발생했다.com.streamsets.datatransformer.dag.error.OperatorFailureException: Operator Hive_01 failed due to org.apache.spark.SparkException at com.streamsets.datatransformer.dag.BaseBatchDAGRunner.com$streamsets$datatransformer$dag$BaseBatchDAGRunner$$generateOperatorFailure(BaseBatchDAGRunner.scala:664) at com.streamsets.datatransformer.dag.BaseBatchDAGRunner$$anon..

데이터 엔지니어링 정복/Spark 2025. 4. 15. 17:14

Prev 1 ··· 3 4 5 6 7 8 9 10 Next

목록BigData (39)

지구정복

티스토리툴바