| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
- 자바
- 코테
- Spark
- apache iceberg
- 프로그래머스
- HDFS
- Trino
- pyspark
- Iceberg
- 영어
- bigdata engineering
- 여행
- 코딩
- bigdata engineer
- 삼성역맛집
- BigData
- Linux
- Apache Kafka
- java
- hadoop
- 개발
- 백준
- Data Engineering
- 맛집
- Kafka
- Data Engineer
- 코딩테스트
- 알고리즘
- 코엑스맛집
- HIVE
- Today
- Total
목록Iceberg (14)
지구정복
안녕하세요! 빅데이터 엔지니어링 분야에서 최근 가장 주목받고 있는 Trino와 Apache Iceberg 연동에 대해 자세히 알아보겠습니다. 데이터 레이크 기술이 급속히 발전하면서, 전통적인 데이터 웨어하우스의 한계를 뛰어넘는 새로운 솔루션들이 등장하고 있어요. 그 중에서도 Trino의 Iceberg Connector는 현대적인 분석 플랫폼의 필수 요소가 되었습니다. 직접 프로덕션에서 운영해본 노하우를 바탕으로, 기본 설정부터 고급 튜닝까지 단계별로 정리해드릴게요! Trino-Iceberg 연동 아키텍처 살펴보기 먼저 이 두 기술이 어떻게 협력하는지 구조부터 파악해보겠습니다. [사진: 1.jpg - Trino Iceberg connector 아키텍처 다이어그램] 주요 컴포넌트 분석 분산 스토리지 접근 방..
iceberg 1.3.1spark 3.4.1hive 3.1.3 rewrite_manifest call procedure사용하다가 아래 에러 발생.25/07/01 00:09:18 INFO BaseMetastoreTableOperations: Refreshing table metadata from new version: hdfs://nameservice1/user/hive/warehouse/iceberg_test_db.db/my_test2/metadata/647318-e501c610-fe41-4a9a-bed0-7f10deec9c2b.metadata.json Traceback (most recent call last): File "/home/airflow_dags/src/pyspark/iceberg/Iceb..
HDFS를 토대의 Hive Catalog를 사용중인 Iceberg table에 스트리밍데이터를 Insert시 아래와 같은 에러로 데이터 적재가 계속 실패Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576 at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyMaxDirItems(FSDirectory..
spark 3.4.1trino 402iceberg 1.3.1 사용중 현재 스트리밍 데이터를 수집중인데 파티션이 초단위로 되어 있어서 HDFS에 small file이 너무 많이 쌓이는 중이다.따라서 파티션에 hours를 적용하여 시간 단위로 데이터가 뭉칠 수 있게 해준다. 결론: 여러가지 방법 해봤는데 실패.. 완전히 치환할 수 있는 방법이 없다.왜냐하면 아래 방법으로 하면1) CREATE TABLE 임시테이블 ()USING iceberg PARTITIONED BY (hours(time_column)) 2) INSERT INTO 임시테이블SELECT * FROM 기존테이블 3) ALTER TABLE 기존테이블 RENAME TO 기존테이블_backup 4) HDFS에서 기존테이블 디렉터리 이름 변경h..