지구정복
[BigData] 개념, 특징, 활용, 빅데이터 프로젝트 본문
출처: 위키북스 - 실무로배우는 빅데이터기술
1. 빅데이터의 개념
1. 개념
-3V
크기(volume): 방대한 양의 데이터
다양성(varity): 정형(DBMS, 전문 등) + 비정형(sns, 동영상, 사진, 음성, 텍스트 등)
속도(velocity): 실시간으로 생산되며, 빠른 속도로 데이터를 처리/분석
-2V
진실성(veracity): 주요 의사결정을 위해 데이터의 품질과 신뢰성 확보
시각화(visualization): 복잡한 대규모 데이터를 시각적으로 표현
-1V
가치(value): 비즈니스 효익을 실현하기 위해 궁극적인 가치를 창출
=>
지금 이 순간에도 방대한 크기(Volume)의 다양한(Varity) 데이터들이 빠른 속도(Velocity)로 발생하고 있다. 빅데이터는
3V(Volume, Varity, Velocity)를 수용하며, 데이터의 진실성(Veracity)을 확보하고, 분석 데이터를 시각화(Visualization)함으로써 새로운 효익을 가져다 줄 가치(Value)를 창출하는 것이다.
2. 목적
빅데이터 시스템을 이용해 의사결정 인사이트를 발견하는 것.
이해 인사이트 | 발견 인사이트 | 예측 인사이트 |
시계열별 회원가입 추이 | 고객이 증가/감소한 원인은? | 상품가입/이탈할 고객은? |
고객별 서비스 평균이용시간 | 매출이 증가/감소한 원인은? | 부정거래 가망 고객은? |
서비스 유입 또는 이용 경로 | 부정적 평판 점수가 높아진 원인은? | 상품 구매력이 높은 고객은? |
3. 활용
4. 빅데이터 기술의 변화 및 구현기술
2. 빅데이터 프로젝트
- 플랫폼 구축형 프로젝트
전형적인 빅데이터 SI 구축형 사업. 빅데이터의 하드웨어와 소프트웨어를 설치 및 구성
수집 -> 적재 -> 처리 -> 탐색 -> 분석의 기능을 구현
3~6개월 추진
- 빅데이터 분석 프로젝트
빅데이터 플랫폼 구축 완료후 수행
빅데이터 탐색으로 데이터의 이해가 높아질 때 시작
조직의 가치사슬 중, 대규모 분석이 필요한 시점에 추진
1~3개월 추진
분석 주제 영역 - 마케팅/고객, 상품/서비스 개발, 리스크 관리
- 빅데이터 운영 프로젝트
구축 완료된 플랫폼을 중장기적으로 유지 관리
대규모 하드웨어/소프트웨어로 운영비용 높음
빅데이터 분야별 전문가 그룹이 확보되어야 함
빅데이터 거버넌스 체계를 수립해야 함
빅데이터 프로젝트의 개요
'데이터 엔지니어링 정복 > Hadoop Ecosystem' 카테고리의 다른 글
[Virtual Machine 구성] CentOS 설치 및 환경구성, 가상서버 복제, 클라우데라 매니저 설치 (0) | 2021.05.03 |
---|---|
[BigData Architecture] 빅데이터 소프트웨어 및 하드웨어 아키텍처 (0) | 2021.05.03 |
[Virtual Machine 구성] VirtualBox 설치하기, 네트워크 설정, 가상서버 이미지 설치, 파일럿PC 호스트 파일 수정, 클라우데라 매니저 접속하기 (0) | 2021.05.02 |
[Hadoop] 02/17 | 하둡과 맵리듀스, yarn의 개념, yarn 사용하기 (0) | 2021.02.17 |
[Hadoop] 02/16 | 빅데이터 개념과 하둡, 하둡설치, 맵리듀스사용(wordcount), 하둡저장소 만들기, 복습 (0) | 2021.02.16 |