목록데이터 엔지니어링 정복 (374)
지구정복
1. S3란? 더보기 -S3는 Simple Storage Service이다. 인터넷 스토리지 서비스 용량에 관계없이 파일 저장 가능 웹에서 파일에 접근 가능 (HTTP프로토콜을 통해서 파일 다운 및 업로드) 즉 네이버 N박스나 구글 드라이브와 같은 기능 대용량의 파일을 EC2와 EBS를 통해 저장한다면 상당히 많은 비용이 소모된다. 하지만 S3는 저장용량이 무한대이고 파일저장에 최적화되어있기 때문에 용량을 추가하거나 성능을 높이는 작업이 필요없다. -객체 : S3에 데이터가 저장되는 최소단위, 파일과 메타데이터로 구성되어있음 키가 객체의 이름, 값이 객체의 데이터 -버킷: 일종의 최상의 폴더, 버킷의 이름은 모든 S3리전 중에서 유일해야 한다. 버킷안에 객체를 저장. 특정 객체를 확인하려면 버킷명과 객체..
-현재 디렉터리에 저장된 파일을 하둡 tmp디렉터리로 옮기기 hdfs dfs -put Sample.txt /tmp -HDFS tmp에 저장되어 있는 파일들 확인 hdfs dfs -ls /tmp -hdfs tmp디렉터리에 저장되어 있는 파일의 내용확인 hdfs dfs -cat /tmp/Sample.txt -파일의 상태 확인(%b: 파일크기, %o: 파일 블록크기, %r: 복제 계수, %u: 소유자명, %n: 파일명) hdfs dfs -stat '%b %o %r %u %n' /tmp/Sample.txt -파일 이름 변경 hdfs dfs -mv /tmp/Sample.txt /tmp/Sample2.txt -파일 시스템 상태 검사 최상위 디렉터리 / 밑에 있는 모든 파일 상태 검사하기 hdfs fsck / -전체..
1. Hadoop DataNode 추가하기 아래HDFS에서 역할 인스턴스 추가 클릭 아래 창에서 DataNode부분 사용자 지정 아래처럼 추가하고픈 사용자에 체크를 하고 확인을 누른다. 그리고 계속 클릭하면 데이터 노드가 추가된다. 2. 복제계수 변경 복제계수란 만약에 복제계수가 3인 하둡에 200mb의 특정 파일이 저장되면 각 서버에 블록단위로 쪼개져서 서버1에 128mb, 서버2의 72mb씩 저장되고 각각에 저장된 블록들은 다른 서버들에 또 다시 저장된다. 이는 특정 서버 에러시 다른 서버에 저장된 블록을 사용하게끔하기 위함이다. 기본 복제 계수 값은 3이다. HDFS 구성탭에서 복제 계수 검색하고 변경할 수 있다. 그리고 변경사항 저장 변경사항을 저장하면 아래와 같이 표시가 뜬다. 해당 표시를 누르..
1. EBS란? 더보기 Elastic Block Storage로서 확장가능한 저장소이다. EBS를 만든다는 것은 컴퓨터 가게에서 새로운 하드디스크(혹은 SSD)를 구매하는 것과 같다. EBS는 필요한 하드용량에 맞게 생성할 수 있고 사용한만큼 과금된다. 또한 스냅샷 기능으로 EBS를 스냅샷 찍는 순간의 상태를 보존할 수 있고 다른 리전에도 스냅샷을 이용해서 EBS를 복제할 수 있다. EC2를 제거해도 EBS는 유지된다. 실제로 생성하고 운영중인 리눅스 서버에 하드디스크를 추가시켜보자. 사전작업 -서울리전에 프리티어 리눅스 인스턴스 생성 -키페어 puttygen이용해서 .ppk 파일형태로 만들어놓기 EBS를 누른 뒤 생성 클릭 저장소 종류는 아래와 같이 여러가지 있다. 여기서는 마그네틱 10g를 사용해보겠..