목록데이터 엔지니어링 정복 (374)
지구정복
1. 개념 더보기 데이터 탐색 및 분석할 때 가장 잘 알려진 도구는 R 또는 Python이다. 하지만 하둡의 분산 파일을 직접 참조할 수 없고 분산 병렬 처리가 어려워서 이 도구들을 이용해서 대규모 데이터 분석하는데는 어려움이 있다. 이러한 문제를 해결할 수 있는 도구는 Spark이다. 하지만 데이터 노드의 Spark쉘을 이용해야 하므로 분석가나 관리자는 분석에 어려움을 겪는다. 따라서 Spark를 웹에서 사용할 수 있게 해주는 도구가 바로 제플린이다. 2. 구성요소 더보기 -Notebook : 웹 상에서 제플린의 인터프리터 언어를 작성하고 명령을 실행 및 관리할 수 있는 UI -Visualization : 인터프리터의 실행결과를 곧바로 웹 상에서 다양한 시각화 도구로 분석해 볼 수 있는 기능 -Zepp..
1. 개념 더보기 원래 하이브의 배치성 분석을 사용하면서 데이터를 탐색하고 분석했는데 맵리듀스를 사용하다보니 시간이 너무 오래걸렸다. 특히 인터랙티브한 작업들의 결과를 빠르게 확인해야하는데 하이브는 이를 만족시키지 못했다. 따라서 빅데이터를 온라인으로 빠르게 분석할 수 있는 임팔라를 만들게 됐다. 호튼웍스는 테즈가 있다. 임팔라는 하둡의 데이터 노드 위에서 실행된다. 2. 구성요소 더보기 -Imparad : 하둡의 데이터 노드에 설치되어 임팔라의 실행 쿼리에 대한 계획, 스케줄링, 엔진을 관리하는 코어 영역 -Query Planner : 임팔라 쿼리에 대한 실행 계획을 수립 -Query Coordinator : 임팔라 잡리스트 및 스케줄링 관리 -Query Exec Engine : 임팔라 쿼리를 최적화해..
1. 개념 더보기 하둡을 기반으로 하이브, 피그, 우지, 스쿱, 스파크 등은 일반 분석가 또는 업무 담당자들이 직접 사용하기에는 어려움이 많다. 따라서 이러한 기술의 복잡성은 숨기고 간편하게 사용하기 위한 소프트웨어들이 만들어졌는데 그 중 하나가 클라우데라에서 만든 휴이다. 휴는 다양한 하둡의 에코시스템의 기능들을 웹UI로 통합 제공한다. 2. 구성요소 더보기 -Job Designer : 우지의 워크플로 및 Coordinator를 웹 UI에서 디자인 -Job Browser : 등록한 잡의 리스트 및 진행 상황과 결과 등을 조회 -Hive Editor : 하이브 QL을 웹 UI에서 작성, 실행, 관리한다. -Pig Editor : 피그 스크립트를 웹 UI에서 작성, 실행, 관리 -HDFS Browser :..
1. 개념 더보기 하이브, 피그, 스파크 등을 이용해 빅데이터의 처리, 탐색, 분석하는 과정은 복잡한 선후행 관계를 맺는다. 특히 데이터 레이크에서 데이터 웨어하우스 그리고 데이터 마트까지의 데이터 ETL과정은 데이터 간의 의존성을 지켜가며 복잡하게 실행되는데 이러한 작업의 흐름(WorkFlow)들을 관리해주는 것이 우지이다. 2. 구성요소 더보기 -Oozie Workflow : 주요 액션에 대한 작업 규칙과 플로우를 정의 -Oozie Client : 워크플로를 Server에 전송하고 관리하기 위한 환경 -Oozie Server : 워크플로 정보가 잡으로 등록되어 잡의 실행, 중지, 모니터링 등을 관리 -Control 노드 : 워크플로의 흐름을 제어하기 위한 Start, End, Decision 노드 등..