반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 자바
- 백준
- 삼성역맛집
- hadoop
- 개발
- Iceberg
- 코테
- 파이썬
- 코딩
- BigData
- 양평
- 프로그래머스
- dfs
- Data Engineering
- 코딩테스트
- bigdata engineer
- 맛집
- 알고리즘
- Data Engineer
- bigdata engineering
- 여행
- java
- BFS
- Trino
- 코엑스맛집
- apache iceberg
- HIVE
- 영어
- 코엑스
- 용인맛집
Archives
- Today
- Total
728x90
반응형
목록데이터엔지니어링 #지구정복 (1)
지구정복

출처: 빅데이터를 지탱하는 기술 책에 나와있는 코드가 실행이 안되서 제가 약간 수정을 했습니다~ 책에 나온 예제 데이터는 더 이상 다운로드할 수 없길래 비슷한 웹서버 로그를 찾아서 진행했다. 아래에서 다운로드 받을 수 있다. *운영환경 윈도우10 파이썬3.8.5 IDE: 이클립스pydev 1. 로그 데이터 파싱하기 해당 로그 데이터에서 필요한 부분만 정규표현식을 이용해서 추출하고 이를 pandas를 이용해서 데이터프레임 형식으로 만들어본다. import re import pandas as pd import os.path #로그 데이터를 확인하고 추출하고 싶은 데이터만 정규표현식을 이용해서 추출 #시간, 웹서버요청정보, 요청결과, 크기 pattern = re.compile( '^\S+ \S+ \S+ \[(..
데이터 엔지니어링 정복/Python
2021. 9. 2. 11:41
반응형