지구정복

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록전체 글 (531)

지구정복

[Airflow] SqoopOperator

먼저 airflow 가 사용하는 Python의 pip로 해당 패키지 설치# /airflow/.pyenv/versions/3.7.11/envs/venv/bin/pip3 install apache-airflow-providepypi repo로 설치가 안되면 수동설치해야한다. 그리고 아래와 같이 사용한다.from airflow import DAGfrom airflow.providers.apache.sqoop.operators.sqoop import SqoopOperatorfrom datetime import datetime default_args = { 'owner': 'airflow', 'start_date': datetime(2022, 1, 1),} with DAG( dag_id='sqoo..

데이터 엔지니어링 정복/Airflow 2025. 7. 2. 14:21

[Spark] org.apache.spark.SparkException: Cannot broadcast the table that is larger than 8.0 GiB: 11.3 GiB.

spark 3.4.1 내부적으로 브로드캐스트 조인시에 브로드캐스트될 테이블이 너무 클 경우 아래 에러가 발생한다.Traceback (most recent call last): File "", line 1, in File "/usr/my/current/spark3-client/python/pyspark/sql/session.py", line 1440, in sql return DataFrame(self._jsparkSession.sql(sqlQuery, litArgs), self) File "..

데이터 엔지니어링 정복/Spark 2025. 7. 1. 11:11

[Iceberg] org.apache.iceberg.exceptions.ValidationException: Manifest is missing

iceberg 1.3.1spark 3.4.1hive 3.1.3 rewrite_manifest call procedure사용하다가 아래 에러 발생.25/07/01 00:09:18 INFO BaseMetastoreTableOperations: Refreshing table metadata from new version: hdfs://nameservice1/user/hive/warehouse/iceberg_test_db.db/my_test2/metadata/647318-e501c610-fe41-4a9a-bed0-7f10deec9c2b.metadata.json Traceback (most recent call last): File "/home/airflow_dags/src/pyspark/iceberg/Iceb..

데이터 엔지니어링 정복/Iceberg 2025. 7. 1. 11:09

The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576

HDFS를 토대의 Hive Catalog를 사용중인 Iceberg table에 스트리밍데이터를 Insert시 아래와 같은 에러로 데이터 적재가 계속 실패Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576 at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyMaxDirItems(FSDirectory..

데이터 엔지니어링 정복/HDFS 2025. 6. 25. 15:36

[AWS] DEA-C01 자격증 준비

아래 블로그에서 덤프 링크 도움이 많이 됐습니다 ㅎㅎhttps://blog.naver.com/imaokiro/223328925777 1. 개념 정리 EC2 관련AWS Graviton 인스턴스: AWS가 직접 설계한 ARM 아키텍처 기반 프로세서를 탑재한 EC2 인스턴스, Graviton 프로세서는 성능 대비 전력 효율이 뛰어나고 비용 효율성이 매우 높아, 클라우드 컴퓨팅 비용 절감에 큰 도움을 줍니다.일부 워크로드에서 x86 대비 최대 40% 이상 비용 절감 가능, 웹서버, 컨테이너, 마이크로서비스, 빅데이터, 머신러닝 워크로드 등에서 주로 사용 Amazon EBS-EC2 인스턴스에 연결하여 사용할 수 있는 블록 스토리지 볼륨입니다. SSD 기반 성능 옵션(gp2, gp3, io1 등) 및 HDD..

데이터 엔지니어링 정복/Cloud(AWS, Ncloud) 2025. 6. 23. 10:30

Prev 1 2 3 4 ··· 107 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지구정복

목록전체 글 (531)

지구정복

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역