목록hadoop (2)
지구정복
출처 https://hadoop.apache.org/docs/r3.3.5/index.html https://www.cnblogs.com/basenet855x/p/7889994.html 목적 기본 복제계수 값은 3이고 이럴 경우 데이터가 HDFS에 저장되면 200%의 공간과 리소스(네트워크 등)를 차지한다. 이때 잘 사용하지 않는 warm 또는 cold데이터의 경우 공간 낭비가 심하다. 따라서 이를 해결하기 위해 Eraser Coding을 HDFS 3버전부터 도입했다. EC를 사용하면 fault-tolerance는 유지하면서 HDFS공간은 더욱 효율적으로 사용할 수 있다. EC를 사용하면 디스크 오버헤드는 50%로 줄어든다. 이때 EC가 적용된 파일들의 경우 복제계수의 값은 사용하지 않는다. EC가 적용된..
* 참고: 빅데이터를 지탱하는 기술(책) * 환경 윈도우10 버추얼박스 5.2.44 리눅스 CentOS 7.9.2009 자바 버전: openjdk version "1.8.0_292" Embulk 버전: Hadoop 버전: Hive 버전:Presto 버전:MongoDB 버전: 4.4 자바는 아래 블로거님 글 참고 https://bamdule.tistory.com/57 [Linux] CentOS 7에 OpenJDK 1.8 설치 1. open-jdk 1.8 설치 # yum install java-1.8.0-openjdk # yum install java-1.8.0-openjdk-devel 설치가 완료되면 /usr/bin/경로에 java가 생성됩니다. 2. 환경변수 등록 /usr/bin/java 경로에 심볼릭링..