지구정복

[Impala] Impala 개념, 구성요소, 아키텍처 본문

데이터 엔지니어링 정복/Hadoop Ecosystem

[Impala] Impala 개념, 구성요소, 아키텍처

eeaarrtthh 2021. 5. 11. 11:01
728x90
반응형

1. 개념

더보기

원래 하이브의 배치성 분석을 사용하면서 데이터를 탐색하고 분석했는데 맵리듀스를 사용하다보니 시간이 너무 오래걸렸다. 특히 인터랙티브한 작업들의 결과를 빠르게 확인해야하는데 하이브는 이를 만족시키지 못했다. 따라서 빅데이터를 온라인으로 빠르게 분석할 수 있는 임팔라를 만들게 됐다. 호튼웍스는 테즈가 있다.

임팔라는 하둡의 데이터 노드 위에서 실행된다.


2. 구성요소

더보기

 

-Imparad : 하둡의 데이터 노드에 설치되어 임팔라의 실행 쿼리에 대한 계획, 스케줄링, 엔진을 관리하는 코어 영역

 

-Query Planner : 임팔라 쿼리에 대한 실행 계획을 수립

 

-Query Coordinator : 임팔라 잡리스트 및 스케줄링 관리

 

-Query Exec Engine : 임팔라 쿼리를 최적화해서 실행하고, 쿼리 결과를 제공

 

-Statestored : 분산 환경에 설치돼있는 Impalad의 설정 정보 및 서비스를 관리

 

-Catalogd : 임팔라에서 실행된 작업 이력들을 관리하며, 필요 시 작업 이력을 제공

 

 


3. 아키텍처

더보기

 

 

 

 

 

 

 

 

출처: 실무로 배우는 빅데이터 기술 - 위키북스

 

728x90
반응형
Comments