목록데이터 엔지니어링 정복/Hadoop Ecosystem (27)
지구정복
기존에 설치된 버추얼박스를 지우고 기존 버전보다 한 단계 아래 버전을 설치하면된다. 나의 경우 갑자기 제목과 같은 에러뜨면서 실행이 안되었고 기존 내 버전은 5.2.44였는데 5.2.42 버전으로 재설치하니깐 해결됐다. 저런 에러가 뜬 원인은 요새 가상머신 끌 때 너무 강제종료를 많이 해서 그런것 같다... 그 외에는 특별히 건드린게 없었으니깐 다음부터는 항상 정상적인 방법으로 종료시켜야겠다!
매 단계별로 버추얼박스에서 스냅샷을 잘 찍어놓자. 오류나면 되돌려야 하니깐!! -JDK 8 설치하기 먼저 버추얼박스에 Hadoop1이란 리눅스 centos 7버전의 서버를 만든다. 그리고 해당 서버 설정-네트워크에 들어가서 아래처럼 설정한다. 어댑터 이름은 각자 어댑터 이름이 있을 것이다. 그걸로 설정해준다. 어댑터2부분도 아래처럼 해준다. 이따가 MAC주소는 쓰일 때가 있다. 이제 서버를 실행한다. CentOS 7 을 설치했다고 가정하고 진행한다. CentOS는 개발자용, 네트워크설정만하고 설치 그리고 X-Window를 켜놓은 상태이다. Hadoop1서버를 실행하고 root 계정으로 로그인한다. 미리 yum도 업데이트 시켜준다. 한 5~10분 걸린다. [root@hadoop01 local]# yum u..
1. 개념 하둡 생태계에서 머신러닝 기법을 이용해 데이터 마이닝을 수행하는 툴이다. 데이터 마이닝 툴은 R 래피드마이너, 웨카, 파이썬 진영의 사이킷런, 텐서플로 등이 있지만 이들은 대규모의 데이터셋을 분석할 수 있게 설계되지 않았고 분산 환경에서 실행하기가 어렵다. 2. 구성요소 -추천(Recommendation) : 사용자들이 관심을 가졌던 정보나 구매했던 물건의 정보를 분석해서 추천하는 기능, 유사한 사용자를 찾아서 추천하는 '사용자 기반 추천'과 항목 간 유사성을 계산해서 추천 항목을 생성하는 '아이템 기반 추천'등이 존재한다. -분류(Classification) : 데이터셋의 다양한 패턴과 특징을 발견해 레이블을 지정하고 분류하는 기능으로, 주요 알고리즘으로 나이브 베이지안, 랜던 포레스트, 로..
1. 개념 더보기 데이터 탐색 및 분석할 때 가장 잘 알려진 도구는 R 또는 Python이다. 하지만 하둡의 분산 파일을 직접 참조할 수 없고 분산 병렬 처리가 어려워서 이 도구들을 이용해서 대규모 데이터 분석하는데는 어려움이 있다. 이러한 문제를 해결할 수 있는 도구는 Spark이다. 하지만 데이터 노드의 Spark쉘을 이용해야 하므로 분석가나 관리자는 분석에 어려움을 겪는다. 따라서 Spark를 웹에서 사용할 수 있게 해주는 도구가 바로 제플린이다. 2. 구성요소 더보기 -Notebook : 웹 상에서 제플린의 인터프리터 언어를 작성하고 명령을 실행 및 관리할 수 있는 UI -Visualization : 인터프리터의 실행결과를 곧바로 웹 상에서 다양한 시각화 도구로 분석해 볼 수 있는 기능 -Zepp..