'데이터 엔지니어링 정복/Spark' 카테고리의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록데이터 엔지니어링 정복/Spark (8)

지구정복

[Spark] Iceberg 테이블 Drop시 Error | [CANNOT_RECOGNIZE_HIVE_TYPE] Cannot recognize hive type string: "TIMESTAMP WITH LOCAL TIME ZONE"

-환경Spark 3.4.1Iceberg 1.3.1 Hive 3.1.3 현재 Iceberg catalog는 Hive metastore로 사용중이다. 아래와 같이 Spark-sql로 Iceberg table을 생성하고 Drop하려니깐 에러가 발생했다.CREATE TABLE iceberg_test_db.test_tbl ( data STRING, log_timestamp TIMESTAMP)USING icebergPARTITIONED BY (days(log_timestamp))TBLPROPERTIES ( 'read.parquet.vectorization.enabled' = 'true', 'write.metadata.delete-after-commit.enabled' = 'true', 'wri..

데이터 엔지니어링 정복/Spark 2025. 4. 18. 14:45

[Spark] Dynamic partition strict mode requires at least one static partition column Error

Spark를 이용해서 Hive 테이블 쓰기 작업중 아래 에러가 발생했다.com.streamsets.datatransformer.dag.error.OperatorFailureException: Operator Hive_01 failed due to org.apache.spark.SparkException at com.streamsets.datatransformer.dag.BaseBatchDAGRunner.com$streamsets$datatransformer$dag$BaseBatchDAGRunner$$generateOperatorFailure(BaseBatchDAGRunner.scala:664) at com.streamsets.datatransformer.dag.BaseBatchDAGRunner$$anon..

데이터 엔지니어링 정복/Spark 2025. 4. 15. 17:14

[Spark] Hive table저장시 parquet 포맷 관련 설정

spark dataframe을 hive table로 저장하려고 할 때 아래 에러 발생했다.StreamingQueryException: [STREAM_FAILED] Query [id = 212088e9-127b-408d-84fa-bc47345e6f77, runId = 303af654-dffd-4218-a813-2b270be37aa3] terminated with exception: An exception was raised by the Python Proxy. Return Message: Traceback (most recent call last): File "/usr/local/src/miniconda/py38-16/lib/python3.8/site-packages/py4j/clientserver.py..

데이터 엔지니어링 정복/Spark 2025. 4. 13. 15:40

[Spark] Spark 개념, 구성요소, 아키텍처

1. 개념 더보기 하이브는 복잡한 맵리듀스를 하이브 QL(Query Language)로 래핑해 접근성을 높일 수 있었지만 맵리듀스 코어를 그대로 사용함으로써 성능면에서는 만족스럽지 못했다. 그로 인해 대화형 연산 작업에서는 하이브가 적합하지 않았다. 이러한 단점을 극복하기 위해 만들어진 것이 Spark이다. 2. 구성요소 더보기 -Spark RDD : 스파크 프로그래밍의 기초 데이터 모델. 가장 중요. 스파크가 데이터를 로드해서 RDD구조 만들고 이 RDD 구조로 만들어진 데이터를 변환하느냐 혹은 얼마나 잘 사용하느냐가 스파크에서 가장 중요한 기술이다. -Spark Driver / Executors : Driver는 RDD프로그램을 분산 노드에서 실행하기 위한 Task의 구성, 할당, 계획 등을 수립하고..

데이터 엔지니어링 정복/Spark 2021. 5. 10. 11:21

Prev 1 2 Next

목록데이터 엔지니어링 정복/Spark (8)

지구정복

티스토리툴바