목록데이터 엔지니어링 정복 (374)
지구정복
공식문서 : kafka.apache.org/documentation/#design_pull 1. Topic, Producer, Consumer 생성하고 메시지 보내기 더보기 명령어는 다음과 같다. -토픽의 생성 kafka-topics --create --zookeeper 서버명:2181 --replication-factor 복제할개수 --partitions 파티션할개수 --topic 토픽이름 kafka-topics --create --zookeeper server02.hadoop.com:2181 --replication-factor 1 --partitions 1 --topic Example --replication-factor 1 : 복제본을 생성할 수 있다. 복제본이란 Zookeeper가 메인(lead..
참고 사이트 flume.apache.org/FlumeUserGuide.html#flume-sources Flume 1.9.0 User Guide — Apache Flume The file_roll sink and the hdfs sink both support the EventSerializer interface. Details of the EventSerializers that ship with Flume are provided below. Body Text Serializer Alias: text. This interceptor writes the body of the event to an output stream wi flume.apache.org cyberx.tistory.com/139 데이터 수..
클라우데라 매니저에 접속한 다음 아래와 같이 클릭한다. 그리고 Flume을 클릭, 밑으로 내려서 계속 호스트 지정해주고 계속 클라우데라매니저를 통해 쉽게 설치가 완료되었다. 그리고 Flume을 시작한다. 카프카도 마찬가지이다. 서비스 추가 이후 호스트를 아래와 같이 지정해준다. 변경내용검토에서 디폴트값 유지 -> 계속 클릭 설치가 완료되면 사용하면 끝~
1. Flume 더보기 개념 원천에 있는 데이터들(파일형태, DB형태, 소켓에서 넘어오는 데이터, API를 통해 만들어지는 데이터 등)를 수집할 때 프로토콜, 메시지포맷, 발생주기, 데이터 크기 등을 고려해서 수집하고 적재해야 하는데 이러한 과정들을 자동적으로 편리하게 수집, 적재해주는 기능을 하는 것이 플럼이다. 주요 구성요소는 다음과 같다. -Source(수집담당): 다양한 원천 데이터를 수집하기 위해 Avro, Thrift, JMS, Spool Dir, Kafka 등 여러 주요 컴포넌트를 제공하며 수집한 데이터를 Channel로 전달한다. -Channel(소스와 싱크의 중간다리): Source와 Sink를 연결하며, 데이터를 버퍼링하는 컴포넌트로 메모리, 파일, 데이터베이스를 채널의 저장소로 활용한..