목록데이터 엔지니어링 정복/MapReduce (2)
지구정복
미국규격협회에서 제공하는 미국 항공편 운항 통계 데이터(1987년~2008년)를 하둡의 맵리듀스를 이용하여 항공 출발 및 도착에 관한 데이터 분석을 실시한다. 1. 데이터 준비 미국 규격 협회의 Airline on-time performance 1987~2008년까지의 데이터를 사용한다. 아래 사이트에서 다운로드받을 수 있다. https://community.amstat.org/jointscsg-section/dataexpo/dataexpo2009 -데이터 컬럼 정보 해당 csv 파일들을 모두 HDFS /user/hadoop01/input에 업로드 시킨다. 약 10분정도 걸린다. [hadoop01@hadoop04 ~]$ hdfs dfs -mkdir input [hadoop01@hadoop04 ~]$ hd..
기본적으로 하둡에는 wordcount 맵리듀스가 있지만 이를 직접 구현해보자. 먼저 메이븐프로젝트에 코딩을하고 jar파일로 export 시킨 다음 하둡으로 해당 jar파일을 실행하여 wordcount기능을 수행할 것이다. 이 과정이 궁금하신 분들은 아래 게시글 참고~ https://earthconquest.tistory.com/236 이를위해 이클립스로 메이븐프로젝트를 만들고 매퍼를 정의한다. -WordCountMapper.java package com.exam.chap03; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.i..