지구정복

[2017_팀. 날씨데이터를 이용한 매출예측 웹서비스] 본문

프로젝트

[2017_팀. 날씨데이터를 이용한 매출예측 웹서비스]

eeaarrtthh 2021. 4. 9. 14:30
728x90
반응형
SMALL

동국대학교 졸업논문 프로젝트 내용이다.

 

1. 배경

더보기

 기상기후 빅데이터를 기업운영에 사용하여 의사결정 및 마케팅에 접목시키는 '날씨경영'기법을 사용하는 기업이 늘어나고 있다. 그러나 이러한 날씨경영의 중요성과 활용도가 증가하고 있음에도 불구하고 현재 대기업에 국한되어 사용되고 있다. 왜냐하면 날씨경영 컨설팅과 빅데이터 활용에 대한 비용이 영세업자들에게는 부담이 되기 때문이다. 

따라서 우리는 날씨데이터를 활용한 빅데이터 매출예측 서비스영세업자들에게 제공함으로써 그들이 재고관리, 원가관리, 매장 및 직원 관리 등을 통해 비용절감을 경험할 수 있도록 하는 것이 이번 프로젝트의 목표이다.


2. 기술스택 및 역할

더보기

-소프트웨어

Eclipse, Sublime text 3, Ubuntu, RStudio, AWS(EC2, RDS, Route53), Putty, Filezilla FTP, Apache-Tomcat, JDK,
MySQL

 

-사용 언어

HTML, CSS, JavaScript(d3.js v4, jQuery), JSP, Java, SQL, R

 

-나의 역할

DB설계, 데이터 수집 및 전처리, 데이터 분석 및 시각화


3. 구현

더보기

-설계안

DFD

 사용자는 판매 데이터를 웹서비스 양식에 맞게 csv파일로 웹페이지에 업로드한다. 유효성검사를 통해 오류가 없는 파일은 데이터베이스에 저장된다. 또한 기상청에서의 날씨 데이터와 분석에 필요한 더비변수 테이블도 데이터베이스에 저장된다. 
사용자가 분석을 요청하면 데이터베이스에서 데이터를 가져와서 R을 이용해 회귀분석 후 예측결과를 웹페이지에 시각화하여 제공한다. 사용자는 해당 결과를 확인하고 매장 운영을 할 수 있다.

 

-E - R 다이어그램

-회원 테이블: 회원ID가 기본키이다.
-상품 테이블: 사용자가 올리는 매출데이터이다. 상품번호는 해당 날짜의 상품 판매량을 구분하기 위한 기본키이며 
 회원ID가 외래키로 들어간다.
-기상 테이블: 기상청에서 가져온 날씨데이터이며 지역과 날짜를 묶어서 기본키로 설정하였고 평균기온, 최대기온, 강수량, 적설량 등이 포함되어있다.
-더미변수 테이블: 분석에 필요한 더미변수를 사용자가 선택할 수 있으며 날짜가 기본키이다. 
-분석 테이블: 기상테이블과 더미변수 테이블의 기본키를 외래키로 가지고 있다.

 

-데이터 수집 및 전처리

분석 모델링에 필요한 데이터를 수집했다. 직접 발품 팔며 학교 주변 영세업자들에게 협조를 구했고 가장 분석에 용이하다고 판단된 동국대학교 생활협동조합의 카페매출 데이터로 선정하였다. 

-카페 데이터

판매량 데이터는 외부 유출 금지하기로 생활협동조합과 약속했기때문에 가림

-날씨 데이터

 

-데이터 전처리(불필요컬럼제거, 결측값제거, 빈 날짜 제거, 컬럼명 수정, 수치 통일화, 더미변수 추가)

더미변수에는 년도, 월, 요일, 공휴일, 계절, 학기구분, 시험기간, 축제 등을 추가하였다.

더미변수 추가1
더미변수 추가2

아래는 더미변수 추가로 만들어진 csv 파일들이다.

 

-다중회귀분석
독립변수들만 만들어진 테이블을 가지고 다중회귀분석 모델 만들기
13년12월1일부터 16년 12월 15일까지의 데이터로 회귀식을 만든다.

다중회귀분석 설정
결정계수값 약 0.78


-예측하기
16년 12월 16일부터 16년 12월 31일까지의 데이터를 위에서 만들어진 회귀식을 이용해서 예측해본다.


-실제값과 예측값 비교
실제 16년12월16일부터의 데이터와 비교해본다.

알아보기 쉽게 그래프로 나타내본다.

빨간색 선이 예측값, 파란색 선이 실제값이다.

-웹에서 표현하기

1. 매출데이터 파일 업로드하기

 유저는 자신의 매출데이터를 웹에 업로드 시킨다.

2. 컬럼 설정

 

사용자는 해당 서비스를 사용하기전에 동영상으로 간단한 교육을 받으며 예측이 필요한 열과
그 열에 영향을 끼치는 열들을 직접 설정할 수 있다. 

 

3. 예측하기 버튼 클릭

예측하기 버튼을 누르면 위와 같이 그래프가 나오며 가장 끝에 15일 치가 예측된 값이다.
그래프는 확대 및 축소가 가능하다. 필요한 경우 csv파일을 다운로드받을 수 있다.

 

 


4. 보완사항

더보기

1. 날씨데이터 자동 웹크롤링

현재 기상청에서 손수 데이터를 가져오기 때문에 유저가 매출데이터를 올리면 그 데이터에 맞는 날짜의 날씨 데이터를 자동으로 가져올 수 있어야 한다.

 

2. 다양한 업종에 대해 모델 검증 필요

현재 카페 데이터에만 국한된 분석모델이기 때문에 다양한 업종 데이터를 구한 뒤 해당 분석모델을 수정 및 보완해야할 필요성이 있다. 추가로 업종별로 추가해야할 더미변수도 달라지기 때문에 더미변수를 더욱 다양화할 필요성이 있다.

 

3. 데이터 자동 전처리 과정 필요

현재 분석이 가능하게끔 일일히 독립변수와 종속변수 컬럼들을 설정했는데 자동으로 컬럼명을 표준화시키고
결측값 등이 다른 값으로 치환되거나 제거되도록 하는 과정이 필요하다. 

 


5. 관련자료

더보기

1. 다중회귀분석
2. ARIMA분석
3. Holt-Winter 지수평활법

 

 

 

 

출처: 나(이지훈), 신우진

728x90
반응형
LIST
Comments