지구정복

[Mahout] Mahout 개념, 구성요소, 아키텍처 본문

데이터 엔지니어링 정복/Hadoop Ecosystem

[Mahout] Mahout 개념, 구성요소, 아키텍처

eeaarrtthh 2021. 5. 11. 11:31
728x90
반응형

1. 개념

하둡 생태계에서 머신러닝 기법을 이용해 데이터 마이닝을 수행하는 툴이다. 데이터 마이닝 툴은 R 래피드마이너, 웨카, 파이썬 진영의 사이킷런, 텐서플로 등이 있지만 이들은 대규모의 데이터셋을 분석할 수 있게 설계되지 않았고 분산 환경에서 실행하기가 어렵다.

 

 


2. 구성요소

 

-추천(Recommendation) : 사용자들이 관심을 가졌던 정보나 구매했던 물건의 정보를 분석해서 추천하는 기능, 유사한 사용자를 찾아서 추천하는 '사용자 기반 추천'과 항목 간 유사성을 계산해서 추천 항목을 생성하는 '아이템 기반 추천'등이 존재한다.

 

-분류(Classification) : 데이터셋의 다양한 패턴과 특징을 발견해 레이블을 지정하고 분류하는 기능으로, 주요 알고리즘으로 나이브 베이지안, 랜던 포레스트, 로지스틱 회귀 등을 지원

 

-군집(Clustering) : 대규모 데이터셋에서 새로운 특성으로 데이터의 군집들을 발견하는 기능으로, 주요 알고리즘으로 K-Means, Fuzzy C-Means, Canopy 등을 지원

 

-감독학습(Supervised Learning) : 학습을 위한 데이터셋을 입력해서 분석 모델을 학습시키는 머신러닝 기법으로, 학습된 분석 모델을 이용해 예측하고 최적화하는 데 사용하고, 분류와 회귀 분석 기법이 이에 해당

 

-비감독학습(Unsupervised Learning) : 학습 데이터셋을 제공하지 않고 데이터의 특징적인 패턴을 발견하는 머신러닝 기법으로서 사람이 구분 및 그루핑하기 어려운 현상들을 자동으로 그루핑하는 데 사용하며, 군집 기법이 여기에 해당한다.

 

 


3. 아키텍처

 

 

 

 

 

 

 

출처 : 실무로 배우는 빅데이터 기술 - 위키북스

728x90
반응형
Comments