일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- java
- 코딩테스트
- 코엑스맛집
- 맛집
- 알고리즘
- BigData
- Spark
- 여행
- 자바
- bigdata engineering
- Data Engineering
- Apache Kafka
- 백준
- 개발
- Data Engineer
- Linux
- 코딩
- 용인맛집
- Kafka
- 영어
- 프로그래머스
- apache iceberg
- 삼성역맛집
- Iceberg
- HIVE
- bigdata engineer
- pyspark
- 코테
- hadoop
- Trino
- Today
- Total
목록데이터 엔지니어링 정복/HDFS (6)
지구정복
HDFS를 토대의 Hive Catalog를 사용중인 Iceberg table에 스트리밍데이터를 Insert시 아래와 같은 에러로 데이터 적재가 계속 실패Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hdfs.protocol.FSLimitException$MaxDirectoryItemsExceededException): The directory item limit of /hdfs/directory/test_data is exceeded: limit=1048576 items=1048576 at org.apache.hadoop.hdfs.server.namenode.FSDirectory.verifyMaxDirItems(FSDirectory..
아래는 클라우데라에서 제공하는 파일 개수별 메모리 권장 사항입니다.Number of Files , in MillionsTotal Java Heap (Xmx and Xms)Young Generation Size (-XX:NewSize -XX:MaxNewSize)1126m128m1-5 million files3379m512m5-105913m768m10-2010982m1280m20-30 16332m2048m30-4021401m2560m40-5026752m3072m50-7036889m4352m70-10052659m6144m100-12565612m7680m125-15078566m8960m150-200104473m8960m 공식 문서 https://docs.cloudera.com/runtime/7.3.1..

출처 https://hadoop.apache.org/docs/r3.3.5/index.html https://www.cnblogs.com/basenet855x/p/7889994.html 목적 기본 복제계수 값은 3이고 이럴 경우 데이터가 HDFS에 저장되면 200%의 공간과 리소스(네트워크 등)를 차지한다. 이때 잘 사용하지 않는 warm 또는 cold데이터의 경우 공간 낭비가 심하다. 따라서 이를 해결하기 위해 Eraser Coding을 HDFS 3버전부터 도입했다. EC를 사용하면 fault-tolerance는 유지하면서 HDFS공간은 더욱 효율적으로 사용할 수 있다. EC를 사용하면 디스크 오버헤드는 50%로 줄어든다. 이때 EC가 적용된 파일들의 경우 복제계수의 값은 사용하지 않는다. EC가 적용된..
와 진짜 역대급 삽질이었다. 거의 이틀 동안 죽는줄 알았다...; 하둡 스트리밍 많이하지는 않지만 혹시라도 나처럼 이틀이란 시간을 낭비하는 분이 없기를 바라면서 작성한다. 먼저 에러설명 이후에 올바른 사용법을 설명한다. 1. 내가 만난 에러들 -그런 파일이나 디렉토리를 찾을 수 없습니다. 맵리듀스 실행했는데 이런 에러가 뜨면 정말 경로문제가 맞다. 먼저 하둡 스트리밍 명령어 주요 옵션들의 경로를 확인한다. -file : 매퍼와 리듀스가 있는 로컬 디렉토리이고 매퍼와 리듀스 파일명까지 적어준다. -mapper : 매퍼 파일명만 적어준다. -input : hdfs에서 가져올 input데이터 경로이다. -output : hdfs에 저장될 결과 데이터 경로이다. 하둡 스트리밍 명령어가 이상없으면 혹시 분산환경에..