목록데이터 엔지니어링 정복/Hadoop Ecosystem (27)
지구정복
* 참고: 빅데이터를 지탱하는 기술(책) * 환경 윈도우10 버추얼박스 5.2.44 리눅스 CentOS 7.9.2009 자바 버전: openjdk version "1.8.0_292" Embulk 버전: Hadoop 버전: Hive 버전:Presto 버전:MongoDB 버전: 4.4 자바는 아래 블로거님 글 참고 https://bamdule.tistory.com/57 [Linux] CentOS 7에 OpenJDK 1.8 설치 1. open-jdk 1.8 설치 # yum install java-1.8.0-openjdk # yum install java-1.8.0-openjdk-devel 설치가 완료되면 /usr/bin/경로에 java가 생성됩니다. 2. 환경변수 등록 /usr/bin/java 경로에 심볼릭링..
출처 : 빅데이터를 지탱하는 기술(책) 아래 실습을 따라하시려면 버전을 모두 맞춰주세요! 안 그러면 에러와 씨름합니다. ㅎ * 환경 윈도우10 버추얼박스 1개 머신에 CentOS 7.9.2009 설치하고 진행 자바 버전: openjdk version "1.8.0_292" 파이썬 버전: Python 3.6.8 jdk1.8설치는 아래 블로거님 글 참고 https://bamdule.tistory.com/57 [Linux] CentOS 7에 OpenJDK 1.8 설치 1. open-jdk 1.8 설치 # yum install java-1.8.0-openjdk # yum install java-1.8.0-openjdk-devel 설치가 완료되면 /usr/bin/경로에 java가 생성됩니다. 2. 환경변수 등록 /..
0. 구축 환경 및 SW 버전 window10 home 20H2 WSL2 ubuntu 18.04 docker 20.10.8 hadoop 2.10.1 1. window10에 WSL2 설치하기 WSL2는 윈도우에서 리눅스를 사용할 수 있게 해준다. 이때 윈도우 home인 경우 버전이 20H1이상이어야 한다. 확인은 시작 -> 'PC 정보' 검색 -> Windows 사양의 버전 확인 * DISM으로 WSL 관련 기능 활성화 시킨다. 시작 -> power shell 관리자권한으로 실행 -> 명령어 입력 $ dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsystem-Linux /all /norestart DISM 명령어로 VirtualMac..
1. 당신이 생각하는 빅데이터란 무엇인가요? 제가 생각하는 빅데이터는 사전적인 의미의 6V과 비슷합니다. 방대하고 다양하면서 빠르게 생성되는 원천의 데이터들에 대해서 그런 데이터들이 정말로 분석할 가치가 있는 품질의 데이터인지를 확인하고 이를 시각화하여 사람들이 찾지 못했던 새로운 가치를 창출해내는 과정이라고 생각합니다. 이는 비유하면 마치 보잘 것 없는 원석들을 예쁘게 가공해서 보석과 같은 악세사리로 만드는 과정이라고 생각합니다. 이러한 빅데이터의 역할을 예를 들면 인터넷쇼핑몰에서 사용자가 클릭하는 제품과 유사한 제품들을 여러 개 추천해준다거나 회원 이탈 가능성이 높은 회원들에게 맞춤형 마케팅을 제공해서 회원이탈을 막는 것과 같이 비즈니스 가치를 극대화하거나 창출하기 위한 과학적인 방법이라고 생각합니다..