목록데이터 엔지니어링 정복/Python (27)
지구정복
출처: 빅데이터를 지탱하는 기술 책에 나와있는 코드가 실행이 안되서 제가 약간 수정을 했습니다~ 책에 나온 예제 데이터는 더 이상 다운로드할 수 없길래 비슷한 웹서버 로그를 찾아서 진행했다. 아래에서 다운로드 받을 수 있다. *운영환경 윈도우10 파이썬3.8.5 IDE: 이클립스pydev 1. 로그 데이터 파싱하기 해당 로그 데이터에서 필요한 부분만 정규표현식을 이용해서 추출하고 이를 pandas를 이용해서 데이터프레임 형식으로 만들어본다. import re import pandas as pd import os.path #로그 데이터를 확인하고 추출하고 싶은 데이터만 정규표현식을 이용해서 추출 #시간, 웹서버요청정보, 요청결과, 크기 pattern = re.compile( '^\S+ \S+ \S+ \[(..
numpy 모듈 사용하려는데 아래와 같은 에러가 떴다.. * the python vhttps://numpy.org/devdocs/user/troubleshooting-importerror.htmlrsion is: python3.8 from "" * the numpy version is: "1.19.2" 대충 보니깐 파이썬 3.8.5에서 numpy 1.92.2를 사용하지 못하는 것 같았다. 파이썬 버전을 올리거나 numpy버전을 낮춰서 사용해야하는데 파이썬 버전 올리는 건 귀찮아서 numpy버전을 낮췄다. 아나콘다 파이썬 인터프리터이면 아나콘다 프롬프트를 실행 그냥 파이썬 인터프리터이면 cmd창 실행해서 아래 명령어로 현재 numpy 삭제한다. pip uninstall numpy 이제 numpy모듈을 설치..
centOS 7 리눅스에는 기본적으로 파이썬 2.7이 설치되어 있다. 아래 명령어로 파이썬 버전을 확인할 수 있다. python --version Python 2.7.5 이를 최신버전으로 바꿔서 설치해본다. 루트계정으로 로그인해서 아래 명령어 실행한다. 이는 파이썬 설치에 필요한 각종 플로그인을 다운받는다. gcc는 gnu 컴파일러 모음을 의미한다. openssl-devel은 웹브라우저와 서버 간의 통신을 암호화하는 오픈소스 라이브러리이다. bzip2-devel은 압축프로그램중 하나이다 libffi-devel은 인터프리터언어와 컴파일 언어 연결해주는 라이브러리이다. 뒤에 -devel은 컴파일을 위한 라이브러리 패키지이다. yum install gcc openssl-devel bzip2-devel libf..
아래처럼 네이버 로그인url에 접속한 뒤 name태그를 이용해서 값을 넣어준다. 그리고 로그인 버튼은 xpath값을 가져와서 click()이벤트를 실행한다. 아래와 같이 코드를 작성한다. #https://nid.naver.com/nidlogin.login from selenium import webdriver from bs4 import BeautifulSoup driver = webdriver.Chrome('chromedriver') driver.get('https://nid.naver.com/nidlogin.login') driver.implicitly_wait( 300 ) #//*[@id="log.login"] driver.find_element_by_name('id').send_keys('hoee..