지구정복
[Mahout] Mahout 개념, 구성요소, 아키텍처 본문
1. 개념
하둡 생태계에서 머신러닝 기법을 이용해 데이터 마이닝을 수행하는 툴이다. 데이터 마이닝 툴은 R 래피드마이너, 웨카, 파이썬 진영의 사이킷런, 텐서플로 등이 있지만 이들은 대규모의 데이터셋을 분석할 수 있게 설계되지 않았고 분산 환경에서 실행하기가 어렵다.
2. 구성요소
-추천(Recommendation) : 사용자들이 관심을 가졌던 정보나 구매했던 물건의 정보를 분석해서 추천하는 기능, 유사한 사용자를 찾아서 추천하는 '사용자 기반 추천'과 항목 간 유사성을 계산해서 추천 항목을 생성하는 '아이템 기반 추천'등이 존재한다.
-분류(Classification) : 데이터셋의 다양한 패턴과 특징을 발견해 레이블을 지정하고 분류하는 기능으로, 주요 알고리즘으로 나이브 베이지안, 랜던 포레스트, 로지스틱 회귀 등을 지원
-군집(Clustering) : 대규모 데이터셋에서 새로운 특성으로 데이터의 군집들을 발견하는 기능으로, 주요 알고리즘으로 K-Means, Fuzzy C-Means, Canopy 등을 지원
-감독학습(Supervised Learning) : 학습을 위한 데이터셋을 입력해서 분석 모델을 학습시키는 머신러닝 기법으로, 학습된 분석 모델을 이용해 예측하고 최적화하는 데 사용하고, 분류와 회귀 분석 기법이 이에 해당
-비감독학습(Unsupervised Learning) : 학습 데이터셋을 제공하지 않고 데이터의 특징적인 패턴을 발견하는 머신러닝 기법으로서 사람이 구분 및 그루핑하기 어려운 현상들을 자동으로 그루핑하는 데 사용하며, 군집 기법이 여기에 해당한다.
3. 아키텍처
출처 : 실무로 배우는 빅데이터 기술 - 위키북스
'데이터 엔지니어링 정복 > Hadoop Ecosystem' 카테고리의 다른 글
[VirtualBox] 에러 해결 The virtual machine '가상머신이름' has terminated unexpectedly during startup with exit code 1 (0x1). More details may be available in '가상머신 로그디렉토리'. (0) | 2021.06.02 |
---|---|
[Hadoop] 서버 4대 완전분산모드 주키퍼, 하둡설치하기 (3) | 2021.05.22 |
[Zeppelin] Zeppelin 개념, 구성요소, 아키텍처 (0) | 2021.05.11 |
[Impala] Impala 개념, 구성요소, 아키텍처 (0) | 2021.05.11 |
[Hue] Hue 개념, 구성요소, 아키텍처 (0) | 2021.05.10 |