일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 맛집
- java
- pyspark
- 삼성역맛집
- Kafka
- HIVE
- 자바
- 알고리즘
- apache iceberg
- 백준
- bigdata engineering
- 코테
- 코딩
- 용인맛집
- Apache Kafka
- 코딩테스트
- Iceberg
- 영어
- 개발
- Trino
- bigdata engineer
- BigData
- hadoop
- Spark
- 프로그래머스
- 여행
- Data Engineer
- Data Engineering
- Linux
- 코엑스맛집
- Today
- Total
목록데이터 엔지니어링 정복 (429)
지구정복

1. 개념 더보기 원래 하이브의 배치성 분석을 사용하면서 데이터를 탐색하고 분석했는데 맵리듀스를 사용하다보니 시간이 너무 오래걸렸다. 특히 인터랙티브한 작업들의 결과를 빠르게 확인해야하는데 하이브는 이를 만족시키지 못했다. 따라서 빅데이터를 온라인으로 빠르게 분석할 수 있는 임팔라를 만들게 됐다. 호튼웍스는 테즈가 있다. 임팔라는 하둡의 데이터 노드 위에서 실행된다. 2. 구성요소 더보기 -Imparad : 하둡의 데이터 노드에 설치되어 임팔라의 실행 쿼리에 대한 계획, 스케줄링, 엔진을 관리하는 코어 영역 -Query Planner : 임팔라 쿼리에 대한 실행 계획을 수립 -Query Coordinator : 임팔라 잡리스트 및 스케줄링 관리 -Query Exec Engine : 임팔라 쿼리를 최적화해..

1. 개념 더보기 하둡을 기반으로 하이브, 피그, 우지, 스쿱, 스파크 등은 일반 분석가 또는 업무 담당자들이 직접 사용하기에는 어려움이 많다. 따라서 이러한 기술의 복잡성은 숨기고 간편하게 사용하기 위한 소프트웨어들이 만들어졌는데 그 중 하나가 클라우데라에서 만든 휴이다. 휴는 다양한 하둡의 에코시스템의 기능들을 웹UI로 통합 제공한다. 2. 구성요소 더보기 -Job Designer : 우지의 워크플로 및 Coordinator를 웹 UI에서 디자인 -Job Browser : 등록한 잡의 리스트 및 진행 상황과 결과 등을 조회 -Hive Editor : 하이브 QL을 웹 UI에서 작성, 실행, 관리한다. -Pig Editor : 피그 스크립트를 웹 UI에서 작성, 실행, 관리 -HDFS Browser :..

1. 개념 더보기 하이브, 피그, 스파크 등을 이용해 빅데이터의 처리, 탐색, 분석하는 과정은 복잡한 선후행 관계를 맺는다. 특히 데이터 레이크에서 데이터 웨어하우스 그리고 데이터 마트까지의 데이터 ETL과정은 데이터 간의 의존성을 지켜가며 복잡하게 실행되는데 이러한 작업의 흐름(WorkFlow)들을 관리해주는 것이 우지이다. 2. 구성요소 더보기 -Oozie Workflow : 주요 액션에 대한 작업 규칙과 플로우를 정의 -Oozie Client : 워크플로를 Server에 전송하고 관리하기 위한 환경 -Oozie Server : 워크플로 정보가 잡으로 등록되어 잡의 실행, 중지, 모니터링 등을 관리 -Control 노드 : 워크플로의 흐름을 제어하기 위한 Start, End, Decision 노드 등..

1. 개념 더보기 하이브는 복잡한 맵리듀스를 하이브 QL(Query Language)로 래핑해 접근성을 높일 수 있었지만 맵리듀스 코어를 그대로 사용함으로써 성능면에서는 만족스럽지 못했다. 그로 인해 대화형 연산 작업에서는 하이브가 적합하지 않았다. 이러한 단점을 극복하기 위해 만들어진 것이 Spark이다. 2. 구성요소 더보기 -Spark RDD : 스파크 프로그래밍의 기초 데이터 모델. 가장 중요. 스파크가 데이터를 로드해서 RDD구조 만들고 이 RDD 구조로 만들어진 데이터를 변환하느냐 혹은 얼마나 잘 사용하느냐가 스파크에서 가장 중요한 기술이다. -Spark Driver / Executors : Driver는 RDD프로그램을 분산 노드에서 실행하기 위한 Task의 구성, 할당, 계획 등을 수립하고..