목록데이터 엔지니어링 정복 (374)
지구정복
1. 개념 더보기 하이브는 복잡한 맵리듀스를 하이브 QL(Query Language)로 래핑해 접근성을 높일 수 있었지만 맵리듀스 코어를 그대로 사용함으로써 성능면에서는 만족스럽지 못했다. 그로 인해 대화형 연산 작업에서는 하이브가 적합하지 않았다. 이러한 단점을 극복하기 위해 만들어진 것이 Spark이다. 2. 구성요소 더보기 -Spark RDD : 스파크 프로그래밍의 기초 데이터 모델. 가장 중요. 스파크가 데이터를 로드해서 RDD구조 만들고 이 RDD 구조로 만들어진 데이터를 변환하느냐 혹은 얼마나 잘 사용하느냐가 스파크에서 가장 중요한 기술이다. -Spark Driver / Executors : Driver는 RDD프로그램을 분산 노드에서 실행하기 위한 Task의 구성, 할당, 계획 등을 수립하고..
공식사이트 : hive.apache.org/ 1. 개념 더보기 하둡 초창기에는 적재된 데이터를 탐색/분석하기 위해 맵리듀스를 주로 이용했지만 이는 복잡한 프로그래밍 기법이 필요했고, 이는 업무 분석가 및 관리자들에게 빅데이터에 접근하는 것을 어렵게 했다. 이를위해 페이스북에서 SQL과 매우 유사한 방식으로 하둡 데이터에 접근성을 높인 하이브를 개발했다. *참고 하이브 External / Managed 하이브의 데이터 아키텍처는 External 영역과 Managed 영역으로 구분된다. 스키마에 대한 제약조건이 없는 영역이 External영역이고 보통 Data Lake 영역이다. Managed는 스키마에 대한 제약조건이 있고 Data Warehouse 영역이다. External영역에서 데이터 스키마에 대한 ..
1. 개념 더보기 Amazon RDS는 AWS 클라우드에서 관계형 데이터베이스를 더 쉽게 설치하고, 운영 및 확장할 수 있는 웹 서비스이다. 이 서비스는 관계형 데이터베이스를 위해 경제적이고 크기 조절이 가능한 용량을 제공하고 데이터베이스 관리 작업을 가능하게 만들어 준다. Oracle, MariaDB, MS SQL server, MySQL, Postgre SQL, 등 다양한 데이터베이스 엔진을 지원한다. RDS DB 인스턴스 RDS(Relational Database Service)의 줄임말이고 관계형 데이터베이스를 손쉽게 생성하고 확장할 수 있는 서비스이다. 클릭 몇 번만으로 손쉽게 DB인스턴스 생성이 가능하다. 사용량이 늘어나면 스토리지 용량과 IOPS를 증가시켜서 성능을 확장할 수 있다. 장애가 ..
설치할 위치 지정 cd /home/pilot-pjt wget http://archive.apache.org/dist/storm/apache-storm-1.2.3/apache-storm-1.2.3.tar.gz tar -xvf apache-storm-1.2.3.tar.gz ln -s apache-storm-1.2.3 storm#심벌릭링크 설정 이제 스톰의 환경설정 파일을 수정한다. 맨 밑에 입력을 해준다. cd /home/pilot-pjt/storm/conf vi storm.yaml 아래는 입력값이다. 띄어쓰기까지 정확하게 오타없이 입력해야 한다. storm.zookeeper.servers: - "server02.hadoop.com" storm.local.dir: "/home/pilot-pjt/storm/d..