일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- Data Engineering
- 삼성역맛집
- java
- 영어
- 여행
- Trino
- dfs
- 용인맛집
- 코엑스
- bigdata engineering
- Data Engineer
- 양평
- apache iceberg
- 백준
- 자바
- 개발
- 코테
- 프로그래머스
- 코엑스맛집
- 코딩테스트
- BFS
- 코딩
- 맛집
- Iceberg
- bigdata engineer
- BigData
- hadoop
- HIVE
- 알고리즘
- 파이썬
- Today
- Total
목록데이터 엔지니어링 정복/MapReduce (2)
지구정복

미국규격협회에서 제공하는 미국 항공편 운항 통계 데이터(1987년~2008년)를 하둡의 맵리듀스를 이용하여 항공 출발 및 도착에 관한 데이터 분석을 실시한다. 1. 데이터 준비 미국 규격 협회의 Airline on-time performance 1987~2008년까지의 데이터를 사용한다. 아래 사이트에서 다운로드받을 수 있다. https://community.amstat.org/jointscsg-section/dataexpo/dataexpo2009 -데이터 컬럼 정보 해당 csv 파일들을 모두 HDFS /user/hadoop01/input에 업로드 시킨다. 약 10분정도 걸린다. [hadoop01@hadoop04 ~]$ hdfs dfs -mkdir input [hadoop01@hadoop04 ~]$ hd..
기본적으로 하둡에는 wordcount 맵리듀스가 있지만 이를 직접 구현해보자. 먼저 메이븐프로젝트에 코딩을하고 jar파일로 export 시킨 다음 하둡으로 해당 jar파일을 실행하여 wordcount기능을 수행할 것이다. 이 과정이 궁금하신 분들은 아래 게시글 참고~ https://earthconquest.tistory.com/236 이를위해 이클립스로 메이븐프로젝트를 만들고 매퍼를 정의한다. -WordCountMapper.java package com.exam.chap03; import java.io.IOException; import java.util.StringTokenizer; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.i..