일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 코엑스맛집
- 코테
- 코딩
- 코딩테스트
- Apache Kafka
- 영어
- 자바
- Data Engineering
- 삼성역맛집
- 알고리즘
- BigData
- Spark
- HIVE
- bigdata engineer
- 개발
- 용인맛집
- 백준
- Data Engineer
- Kafka
- java
- hadoop
- apache iceberg
- Linux
- 맛집
- Trino
- 여행
- pyspark
- bigdata engineering
- 프로그래머스
- Iceberg
- Today
- Total
목록데이터 엔지니어링 정복 (428)
지구정복
spark 3.4.1 내부적으로 브로드캐스트 조인시에 브로드캐스트될 테이블이 너무 클 경우 아래 에러가 발생한다.Traceback (most recent call last): File "", line 1, in File "/usr/my/current/spark3-client/python/pyspark/sql/session.py", line 1440, in sql return DataFrame(self._jsparkSession.sql(sqlQuery, litArgs), self) File "..
iceberg 1.3.1spark 3.4.1hive 3.1.3 rewrite_manifest call procedure사용하다가 아래 에러 발생.25/07/01 00:09:18 INFO BaseMetastoreTableOperations: Refreshing table metadata from new version: hdfs://nameservice1/user/hive/warehouse/iceberg_test_db.db/my_test2/metadata/647318-e501c610-fe41-4a9a-bed0-7f10deec9c2b.metadata.json Traceback (most recent call last): File "/home/airflow_dags/src/pyspark/iceberg/Iceb..
HDFS를 토대의 Hive Catalog를 사용중인 Iceberg table에 스트리밍데이터를 Insert시 아래와 같은 에러로 데이터 적재가 계속 실패Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576 at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyMaxDirItems(FSDirectory..
아래 블로그에서 덤프 링크 도움이 많이 됐습니다 ㅎㅎhttps://blog.naver.com/imaokiro/223328925777 1. 개념 정리 EC2 관련AWS Graviton 인스턴스: AWS가 직접 설계한 ARM 아키텍처 기반 프로세서를 탑재한 EC2 인스턴스, Graviton 프로세서는 성능 대비 전력 효율이 뛰어나고 비용 효율성이 매우 높아, 클라우드 컴퓨팅 비용 절감에 큰 도움을 줍니다.일부 워크로드에서 x86 대비 최대 40% 이상 비용 절감 가능, 웹서버, 컨테이너, 마이크로서비스, 빅데이터, 머신러닝 워크로드 등에서 주로 사용 Amazon EBS-EC2 인스턴스에 연결하여 사용할 수 있는 블록 스토리지 볼륨입니다. SSD 기반 성능 옵션(gp2, gp3, io1 등) 및 HDD..