일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- 용인맛집
- 코엑스
- 알고리즘
- Spark
- 삼성역맛집
- 코딩테스트
- 영어
- 백준
- HIVE
- 맛집
- java
- 개발
- 프로그래머스
- apache iceberg
- Trino
- 코엑스맛집
- bigdata engineering
- Data Engineering
- Iceberg
- pyspark
- 코테
- BigData
- hadoop
- 여행
- Data Engineer
- 자바
- Apache Kafka
- Kafka
- bigdata engineer
- 코딩
- Today
- Total
목록데이터 엔지니어링 정복 (413)
지구정복
Spark3.4.1, Hive3.1.3사용중. Spark에서 Hive managed table에 쓰기 작업(Insert 등)시 에러가 발생한다.실행한 쿼리는 다음과 같다.spark = SparkSession.builder \ .enableHiveSupport() \ .getOrCreate() #PySpark에서 Hive managed table createq = """CREATE TABLE test.user_info ( id INT, name STRING, age INT)STORED AS PARQUET""" spark.sql(q).show()#Insert쿼리 실행q = """INSERT INTO test.user_info2 (id, name, age)VALUES (1..
MobaXterm 으로 서버 ssh 접속하여 사용하다가 가끔 백스페이스 작동안하고 화면 밀리는 현상이 있었다.이때 아래 명령어 실행시켜주면 된다. export TERM= xterm

Spark 3.4.1 사용중이고 리소스매니저는 Yarn을 사용중이다. Dynamic allocation은 Executor들에게만 적용된다.아래 설정들을 spark-defaults.conf에 해줘야 한다.만약 spark-thrift-sparkconf.conf에 해주면 Thrift server통해서 실행되는 Spark Job에만 적용된다. 공식문서 (3.4.1)https://archive.apache.org/dist/spark/docs/3.4.1/configuration.html#dynamic-allocationhttps://archive.apache.org/dist/spark/docs/3.4.1/job-scheduling.html Dynamic Allocation을 설정하는 방법은 두 가지가 있다.Th..
-환경Spark 3.4.1Iceberg 1.3.1 Hive 3.1.3 현재 Iceberg catalog는 Hive metastore로 사용중이다. 아래와 같이 Spark-sql로 Iceberg table을 생성하고 Drop하려니깐 에러가 발생했다.CREATE TABLE iceberg_test_db.test_tbl ( data STRING, log_timestamp TIMESTAMP)USING icebergPARTITIONED BY (days(log_timestamp))TBLPROPERTIES ( 'read.parquet.vectorization.enabled' = 'true', 'write.metadata.delete-after-commit.enabled' = 'true', 'wri..