본문 바로가기
🏕️ Bootcamp

| PMB 12기 | W6D4 | kaggle 데이터 시각화

by 기획자 슈 2024. 11. 12.

최초 작성일 : 2022.06.21

 


 

 

kaggle에서 실제 데이터를 다운받고, 데이터를 바탕으로 데이터 시각화를 해보았다.

kaggle에서 다운받은 자료는 USA online store transcation로, 미국 온라인 상점 거래 데이터이다.

 

© kaggle_ Online store customer data.csv
 

 
content
Transaction_date
구매 날짜
Transaction_ID
구매자 고유 ID
Gender
구매자 성별
Age
구매자 연령
Marital_status
구매자 결혼 상태 ( e.g.) Single / Married
State_names
구매자 지역
Segment
구매자 멤버십
( e.g.) Missing = 측정불가, Basic < Silver < Gold < Platinum
Employees_status
구매자 취업 상태
( e.g.) Unemployment, self-employed, Workers, Employees
Payment_method
고객이 사용한 결제 방법
( e.g.) Card / Paypal / Other
Referal
참조 링크에서 유입되는 고객인지 여부 ( Yes = 1, No = 0 )
Amount_spent
거래당 고객이 지출한 금액

 

USA online store transcation 가설 검증

 

가설
1-1
멤버십 등급이 가장 높은 Platinum이면, 평균 구매값이 가장 높을 것이다.
1-2
멤버십 등급이 가장 낮은 Basic이면, 평균 구매값이 가장 낮을 것이다.
2
Married Customer의 평균 구매값이 Single Customer에 비해 높을 것이다.
2-1
2번 가설 중 Married_Female의 평균 구매값이 가장 높을 것이다.
3
구매자의 멤버십 등급이 가장 높고, Employees 상황이라면 평균 구매값이 가장 높을 것이다.

데이터를 바탕으로 가설을 설정하고, Tableau Public과 Excel을 이용하여 데이터 시각화 및 분석하였다.

 


 

가설 1-1. 멤버십 등급이 가장 높은 Platinum이면, 평균 구매값이 가장 높을 것이다.

가설 1-2. 멤버십 등급이 가장 낮은 Basic이면, 평균 구매값이 가장 낮을 것이다.

온라인 스토어의 경우 멤버십 등급이 높을 수록 온라인 스토어를 가장 많이 활용하고 구매할 것이란 추측을 갖고,

위와 같은 가설을 설정해보았다.

하지만 데이터 분석 결과 멤버십 등급이 가장 높은 Platinum이면 평균 구매값이 가장 높은 것은 맞으나,

평균 구매가 값이 가장 낮은 멤버십 등급은 Gold 등급인 것으로 확인되었다.

 

 

가설 2. Married Customer의 평균 구매값이 Single Customer에 비해 높을 것이다.

가설 2-1. 2번 가설 중 Married_Female의 평균 구매값이 가장 높을 것이다.

 

데이터가 정확히 어떤 스토어라고 명시되어있지 않고, 온라인스토어라고 나와있어서 아마존, 이베이와 같은 온라인스토어라고 추측하고 가설을 설정했다.

Married가 Single에 비해 평균 구매값이 높을 것이고, 그중 Married_Female의 평균 구매값이 더 높을 것으로 예상했다. 하지만 Single의 평균 구매값이 더 높았으며, Single_Female의 평균 구매값이 더 높게 나타났다.

오히려 Married_Female과 Married_Male을 비교했을 때, Married_Male의 평균 구매값이 더 높았다.

 

 

가설 3. 구매자의 멤버십 등급이 가장 높고, Employees 상황이라면 평균 구매값이 가장 높을 것이다.

데이터 상에서 구매자의 취업 상태 Employees_status가 명시되어있어, Segment 멤버십 등급과 평균 구매값과의 상관관계에 대해 고민해보았다.

구매자의 멤버십 등급이 가장 높은 Platinum이자 Employees 상황이라면 평균 구매값이 가장 높을 것이라고 가설을 세웠다. 멤버십 상태를 파악할 수 없는 Missing을 제외한다면, Platinum_Employees가 평균 구매값이 가장 높다는 것을 알 수 있다.

 


 
 

데이터 분석을 막대그래프만 이용해서 분석한 것 같아서 이것저것 더 해보려고 했다.

온라인 스토어여서 구매값과 밀접한 관계가 있어서 구매값이랑 비교하다 보니 이렇게 돼버렸다....

Tableau Public 처음엔 너무 어려웠는데, 사용해보니까 나름 괜찮은것 같기도...?

데이터 분석 툴을 멋지게 사용한다면, 나 약간 멋있을지도ㅎ 화이팅이다༼ つ ◕_◕ ༽つ