목록데이터 엔지니어링 정복 (374)
지구정복
미국규격협회에서 제공하는 미국 항공편 운항 통계 데이터(1987년~2008년)를 하둡의 맵리듀스를 이용하여 항공 출발 및 도착에 관한 데이터 분석을 실시한다. 1. 데이터 준비 미국 규격 협회의 Airline on-time performance 1987~2008년까지의 데이터를 사용한다. 아래 사이트에서 다운로드받을 수 있다. https://community.amstat.org/jointscsg-section/dataexpo/dataexpo2009 -데이터 컬럼 정보 해당 csv 파일들을 모두 HDFS /user/hadoop01/input에 업로드 시킨다. 약 10분정도 걸린다. [hadoop01@hadoop04 ~]$ hdfs dfs -mkdir input [hadoop01@hadoop04 ~]$ hd..
기본적으로 하둡에는 wordcount 맵리듀스가 있지만 이를 직접 구현해보자. 먼저 메이븐프로젝트에 코딩을하고 jar파일로 export 시킨 다음 하둡으로 해당 jar파일을 실행하여 wordcount기능을 수행할 것이다. 이 과정이 궁금하신 분들은 아래 게시글 참고~ https://earthconquest.tistory.com/236 이를위해 이클립스로 메이븐프로젝트를 만들고 매퍼를 정의한다. -WordCountMapper.java package com.exam.chap03; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.i..
먼저 리눅스에서 이클립스를 다운받는다. https://www.eclipse.org/downloads/ 압축을 풀고 이클립스를 실행한다. 새로운 프로젝트열고 메이븐 프로젝트를 누른다. 아래처럼 검색하고 quikstart가 써져있는 것을 누른다. 위에는 그룹명, 아래는 프로젝트명이다. 아래처럼 만들어지는데 시간이 좀 걸린다. 다 되면 프로젝트 이름 우클릭 - properties - java bulid path - libraries - add external jars 를 누른다. 그리고 설치되어있는 하둡디렉토리로부터 필요한 jar파일을 가져온다. $HADOOP_HOME/share/hadoop/common $HADOOP_HOME/share/hadoop/mapreduce apply and close 클릭 다 빌드..
매 단계별로 버추얼박스에서 스냅샷을 잘 찍어놓자. 오류나면 되돌려야 하니깐!! -JDK 8 설치하기 먼저 버추얼박스에 Hadoop1이란 리눅스 centos 7버전의 서버를 만든다. 그리고 해당 서버 설정-네트워크에 들어가서 아래처럼 설정한다. 어댑터 이름은 각자 어댑터 이름이 있을 것이다. 그걸로 설정해준다. 어댑터2부분도 아래처럼 해준다. 이따가 MAC주소는 쓰일 때가 있다. 이제 서버를 실행한다. CentOS 7 을 설치했다고 가정하고 진행한다. CentOS는 개발자용, 네트워크설정만하고 설치 그리고 X-Window를 켜놓은 상태이다. Hadoop1서버를 실행하고 root 계정으로 로그인한다. 미리 yum도 업데이트 시켜준다. 한 5~10분 걸린다. [root@hadoop01 local]# yum u..