목록데이터 엔지니어링 정복 (374)
지구정복
공식 페이지 : redis.io/ 1. 개념 더보기 Redis는 분산 캐시 시스템이면서 NoSQL 데이터베이스처럼 대규모 데이터 관리 능력도 갖춘 IMDG(In-Memory Data Grid) 소프트웨어이다. 마찬가지로 키-값 형식의 데이터 구조를 분산 서버상의 메모리에 저장하면서 고성능의 응답 속도를 보장한다. HBase와의 차이점은 대규모로 발생되는 메시지성 실시간 데이터들 중에 일부 특정 데이터만 HBase에 저장하기 전에 Redis에 저장할 필요가 있을 경우에 사용된다. 그래서 다양한 데이터 타입을 지원해서 단순히 키-값 형태의 데이터뿐만 아니라 더 복잡한 데이터들도 저장할 수 있다. 또한 인메모리 데이터를 영구적으로 저장할 수 있는 스냅샷 기능을 제공하며, 데이터 유실에 대비해 AOF(Appen..
공식사이트 : hbase.apache.org/ 1. 개념 더보기 빅데이터의 출현으로 관계형 데이터베이스의 한계가 나타나는데 이를 극복하기 위한 NoSQL 소프트웨어 중의 하나이다. 대규모로 발생되는 빅데이터를 관계형 데이터 베이스에 저장할 때는 지켜야 되는 원칙이 있다. Atomic(원자성), Consistency(일관성), Isolation(고립성), Durability(지속성)이 그것이다. 하지만 초당 수천~수만건의 데이터가 생성되는 빅데이터 환경에서는 이러한 원칙을 지키지 않아도 되는 NoSQL 비관계형 분산 데이터베이스를 사용하게 되고 Key-Value 구조를 가지고 있다. MongoDB, 카산드라, HBase가 대표적이다. HBase는 하둡 기반의 칼럼 지향 NoSQL 데이터베이스로서 스키마 변..
1. 개념 더보기 수십에서 수천 대의 서버에 설치돼 있는 빅데이터 분산 환경을 더욱 효율적으로 관리하기 위해서는 서버 간의 정보를 쉽고 안전하게 공유해야 한다. 공유된 정보를 이용해 서버 간의 중요한 이벤트(분산락, 순서제어, 부하 분산, 네임서비스 등)를 관리하면서 상호작용을 조율해 주는 코디네이터 시스템이 필요한데, 이것이 바로 주키퍼이다. 주키퍼는 하둡, HBase, 카프카, 스톰 등의 분산 노드 관리에 사용 중이다. 2. 구성요소 더보기 -Client : 주키퍼의 ZNode에 담긴 데이터에 대한 쓰기, 읽기, 삭제 등의 작업을 요청하는 클라이언트이다. -ZNode : 주키퍼 서버에 생성되는 파일시스템의 디렉터리 개념, 클라이언트의 요청 정보를 계층적으로 관리(버전, 접근권한, 상태, 모니터링 객체..
1. 개념 더보기 빅데이터의 에코시스템들은 대부분 하둡을 위해 존재하고 하둡에 의존해서 발전해 가고 있다 해도 과언이 아니다. 하둡은 크게 두 가지 기능이 있다. 1. 대용량 데이터를 분산 저장하는 기능 2. 분산 저장된 데이터를 가공/분석 처리하는 기능 2. 구성요소 더보기 -DataNode : 블록단위 (64MB or 128MB) 로 분할된 대용량 파일들이 DataNode의 디스크에 저장 및 관리, 하나의 서버이다. -NameNode : DataNode에 저장된 파일들의 메타 정보를 메모리상에서 로드해서 관리, 어떤 데이터가 어떤 DataNode에 있는지 정보를 관리하고 저장한다. -EditsLog : 파일들의 변경 이력(수정, 삭제 등) 정보가 저장되는 로그 파일 -Fslmage : NameNode..