'데이터 엔지니어링 정복/HDFS' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

728x90

목록데이터 엔지니어링 정복/HDFS (6)

지구정복

The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576

HDFS를 토대의 Hive Catalog를 사용중인 Iceberg table에 스트리밍데이터를 Insert시 아래와 같은 에러로 데이터 적재가 계속 실패Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576 at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyMaxDirItems(FSDirectory..

데이터 엔지니어링 정복/HDFS 2025. 6. 25. 15:36

[HDFS] 적정 heap memory

아래는 클라우데라에서 제공하는 파일 개수별 메모리 권장 사항입니다.Number of Files , in MillionsTotal Java Heap (Xmx and Xms)Young Generation Size (-XX:NewSize -XX:MaxNewSize)1126m128m1-5 million files3379m512m5-105913m768m10-2010982m1280m20-30 16332m2048m30-4021401m2560m40-5026752m3072m50-7036889m4352m70-10052659m6144m100-12565612m7680m125-15078566m8960m150-200104473m8960m 공식 문서 https://docs.cloudera.com/runtime/7.3.1..

데이터 엔지니어링 정복/HDFS 2025. 6. 5. 17:26

[HDFS] Erasure Coding

출처 https://hadoop.apache.org/docs/r3.3.5/index.html https://www.cnblogs.com/basenet855x/p/7889994.html 목적 기본 복제계수 값은 3이고 이럴 경우 데이터가 HDFS에 저장되면 200%의 공간과 리소스(네트워크 등)를 차지한다. 이때 잘 사용하지 않는 warm 또는 cold데이터의 경우 공간 낭비가 심하다. 따라서 이를 해결하기 위해 Eraser Coding을 HDFS 3버전부터 도입했다. EC를 사용하면 fault-tolerance는 유지하면서 HDFS공간은 더욱 효율적으로 사용할 수 있다. EC를 사용하면 디스크 오버헤드는 50%로 줄어든다. 이때 EC가 적용된 파일들의 경우 복제계수의 값은 사용하지 않는다. EC가 적용된..

데이터 엔지니어링 정복/HDFS 2023. 5. 12. 23:53

[HDFS&MR] (역대급삽질) Execute Hadoop Streaming using Python | 파이썬으로 하둡 스트리밍 실행하기

와 진짜 역대급 삽질이었다. 거의 이틀 동안 죽는줄 알았다...; 하둡 스트리밍 많이하지는 않지만 혹시라도 나처럼 이틀이란 시간을 낭비하는 분이 없기를 바라면서 작성한다. 먼저 에러설명 이후에 올바른 사용법을 설명한다. 1. 내가 만난 에러들 -그런 파일이나 디렉토리를 찾을 수 없습니다. 맵리듀스 실행했는데 이런 에러가 뜨면 정말 경로문제가 맞다. 먼저 하둡 스트리밍 명령어 주요 옵션들의 경로를 확인한다. -file : 매퍼와 리듀스가 있는 로컬 디렉토리이고 매퍼와 리듀스 파일명까지 적어준다. -mapper : 매퍼 파일명만 적어준다. -input : hdfs에서 가져올 input데이터 경로이다. -output : hdfs에 저장될 결과 데이터 경로이다. 하둡 스트리밍 명령어가 이상없으면 혹시 분산환경에..

데이터 엔지니어링 정복/HDFS 2021. 6. 2. 17:27

Prev 1 2 Next

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지구정복

목록데이터 엔지니어링 정복/HDFS (6)

지구정복

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역