목록데이터 엔지니어링 정복/HDFS (4)
지구정복
출처 https://hadoop.apache.org/docs/r3.3.5/index.html https://www.cnblogs.com/basenet855x/p/7889994.html 목적 기본 복제계수 값은 3이고 이럴 경우 데이터가 HDFS에 저장되면 200%의 공간과 리소스(네트워크 등)를 차지한다. 이때 잘 사용하지 않는 warm 또는 cold데이터의 경우 공간 낭비가 심하다. 따라서 이를 해결하기 위해 Eraser Coding을 HDFS 3버전부터 도입했다. EC를 사용하면 fault-tolerance는 유지하면서 HDFS공간은 더욱 효율적으로 사용할 수 있다. EC를 사용하면 디스크 오버헤드는 50%로 줄어든다. 이때 EC가 적용된 파일들의 경우 복제계수의 값은 사용하지 않는다. EC가 적용된..
와 진짜 역대급 삽질이었다. 거의 이틀 동안 죽는줄 알았다...; 하둡 스트리밍 많이하지는 않지만 혹시라도 나처럼 이틀이란 시간을 낭비하는 분이 없기를 바라면서 작성한다. 먼저 에러설명 이후에 올바른 사용법을 설명한다. 1. 내가 만난 에러들 -그런 파일이나 디렉토리를 찾을 수 없습니다. 맵리듀스 실행했는데 이런 에러가 뜨면 정말 경로문제가 맞다. 먼저 하둡 스트리밍 명령어 주요 옵션들의 경로를 확인한다. -file : 매퍼와 리듀스가 있는 로컬 디렉토리이고 매퍼와 리듀스 파일명까지 적어준다. -mapper : 매퍼 파일명만 적어준다. -input : hdfs에서 가져올 input데이터 경로이다. -output : hdfs에 저장될 결과 데이터 경로이다. 하둡 스트리밍 명령어가 이상없으면 혹시 분산환경에..
먼저 리눅스에서 이클립스를 다운받는다. https://www.eclipse.org/downloads/ 압축을 풀고 이클립스를 실행한다. 새로운 프로젝트열고 메이븐 프로젝트를 누른다. 아래처럼 검색하고 quikstart가 써져있는 것을 누른다. 위에는 그룹명, 아래는 프로젝트명이다. 아래처럼 만들어지는데 시간이 좀 걸린다. 다 되면 프로젝트 이름 우클릭 - properties - java bulid path - libraries - add external jars 를 누른다. 그리고 설치되어있는 하둡디렉토리로부터 필요한 jar파일을 가져온다. $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/mapreduce apply and close 클릭 다 빌드..
1. 개념 더보기 빅데이터의 에코시스템들은 대부분 하둡을 위해 존재하고 하둡에 의존해서 발전해 가고 있다 해도 과언이 아니다. 하둡은 크게 두 가지 기능이 있다. 1. 대용량 데이터를 분산 저장하는 기능 2. 분산 저장된 데이터를 가공/분석 처리하는 기능 2. 구성요소 더보기 -DataNode : 블록단위 (64MB or 128MB) 로 분할된 대용량 파일들이 DataNode의 디스크에 저장 및 관리, 하나의 서버이다. -NameNode : DataNode에 저장된 파일들의 메타 정보를 메모리상에서 로드해서 관리, 어떤 데이터가 어떤 DataNode에 있는지 정보를 관리하고 저장한다. -EditsLog : 파일들의 변경 이력(수정, 삭제 등) 정보가 저장되는 로그 파일 -Fslmage : NameNode..