목록데이터 엔지니어링 정복 (374)
지구정복
먼저 pip3를 이용해서 requests랑 BeautifulSoup4를 설치한다. pip3 설치는 아래글 참고 https://earthconquest.tistory.com/224 pip3 install requests pip3 install BeautifulSoup4 개발도구는 이클립스에 Pedev를 사용한다. 이클립스 상단 메뉴 - window - preperence - PyDev - Interpreters - Python Interpreter /usr/bin/에 있는 것을 클릭한다. 그리고 Apply and Close -네이버 검색어에 '날씨'입력하고 거기서 미세먼지랑 초미세먼지 크롤링하기 ''' Created on 2021. 5. 16. @author: master ''' from bs4 impor..
pip는 파이썬으로 작성된 패키지 라이브러리들을 관리해주는 시스템이다. 만약 yum이 안될 경우 업데이트를 해준다. [root@localhost ~]# yum update [root@localhost ~]# yum install epel-release//pip를 설치하려면 epel저장소를 활성화 시켜야한다. [root@localhost ~]# yum install python3-pip //pip3 설치 [root@localhost ~]# rpm -qa | grep -i python3-pip python3-pip-9.0.3-7.el7_7.noarch [root@localhost ~]# pip3 -V pip 9.0.3 from /usr/lib/python3.6/site-packages (python 3.6)
1. 개념 하둡에서의 HDFS에 있는 빅데이터 분석 결과를 외부에 있는 RDBMS로 전달한다든지 반대로 외부에서 하둡으로 가져올 때 사용한다. 2. 구성요소 -Sqoop Client : 하둡의 분산 환경에서 HDFS와 RDBMS 간의 데이터 임포트 및 익스포트 기능을 수행하기 위한 라이브러리 구성 -Sqoop Server : 스쿱2의 아키텍처에서 제공되며, 스쿱1의 분산된 클라이언트 기능을 통합해 REST API로 제공한다. -Import / Export : 임포트 기능은 RDBMS의 데이터를 HDFS로 가져올 때 사용하며, 반대로 익스포트 기능은 HDFS의 데이터를 RDBMS로 내보낼 때 사용 -Connectors : 임포트 및 익스포트에서 사용될 다양한 DBMS의 접속 어댑터와 라이브러리 제공 -Me..
1. 개념 하둡 생태계에서 머신러닝 기법을 이용해 데이터 마이닝을 수행하는 툴이다. 데이터 마이닝 툴은 R 래피드마이너, 웨카, 파이썬 진영의 사이킷런, 텐서플로 등이 있지만 이들은 대규모의 데이터셋을 분석할 수 있게 설계되지 않았고 분산 환경에서 실행하기가 어렵다. 2. 구성요소 -추천(Recommendation) : 사용자들이 관심을 가졌던 정보나 구매했던 물건의 정보를 분석해서 추천하는 기능, 유사한 사용자를 찾아서 추천하는 '사용자 기반 추천'과 항목 간 유사성을 계산해서 추천 항목을 생성하는 '아이템 기반 추천'등이 존재한다. -분류(Classification) : 데이터셋의 다양한 패턴과 특징을 발견해 레이블을 지정하고 분류하는 기능으로, 주요 알고리즘으로 나이브 베이지안, 랜던 포레스트, 로..