Online Shoppers Purchasing Intention
차트와 문법(1)
질문-변수 구조-차트 선택-해석
이 파일은 전처리 이후, 데이터를 어떻게 시각적 표상으로 번역할지 연습하기 위한 실습 자료이다.
초점은 그래프를 많이 그리는 것이 아니라.
- 어떤 질문을 세울지
- 어떤 변수 조합을 선택할지
- 어떤 차트가 더 적절한지
- 그 결과를 어떻게 해석할지
를 훈련하는 데 있다
실습 흐름
- 데이터 적재 및 구조 확인
- 변수 해석과 자료형 정리
- 기본 품질 점검
- 질문별 시각화 실습
- 해석 포인트 정리
- 데이터 적재 및 구조 확인
- 먼저 데이터의 크기, 컬럼멸, 자료형, 상위 행을 확인한다 = 질문 설계와 차트 선택의 출발점
- 실습 데이터의 변수 구조
1) 페이지 방문 행동 변수
- Administrarive
- Administrarive_Duration
- Informational
- Informational_Duration
- ProductRelated
- ProductRelated_Duration
2) 행동 품질 / 전환 관련 변수
- BounceRates
- ExitRates
- PageValues
- SpecialDay
3) 방문 환경 / 사용자 특성 변수
- Month
- OperatingSystems
- Browser
- Region
- TrafficType
- VisitorType
- Weekend
- Revenue
★ 이 데이터에서 특히 주의할 점
- 한 행은 한 번의 방문 세션
- Revenue는 실습에서 가장 중요한 결과 변수
- Month는 문자열이지만 순서형 범주로 다루는 것이 적절하다
- OperatingSystems, Browser, Region, TrafficType은 숫자처럼 보여도 연속향 수치가 아니라 범주형 순서 코드 변수이다.
- ProductRelated_Duration, PageValues 등은 오른쪽 긴 꼬리 분포를 가질 가능성이 크므로, 평균만 보면 구조가 가려질 수 있다.
4. 질문별 시각화 실습
4.1 방문자 유형별 구매 차이는 어떠한가?
질문 유형: 비교질문
여기서는 반드시 절대 세션 수, 구매율을 함께 봐야 한다.
세션 수가 많은 집단과 구매율이 높은 집단은 다를 수 있기 때문이다.
해석 포인트
- 절대 세션 수와 구매율은 서로 다른 질문에 답한다.
- 방문량이 많은 집단이 반드시 구매율까지 높은 것은 아니다.
- 실무에서는 방문량과 전환율을 분리해서 보는 습관이 중요하다.
4.2 구매 세션과 비구매 세션의 PageValues 분포는 다른가?
질문 유형: 분포 비교 질문
이 경우 평균 막대그래프만으로는 부족할 수 있다.
중심 경향뿐 아니라 분산, 이상치, 밀도 구조를 함께 확인해야 한다.
왜 이 질문에는 평균 막대그래프보다 상자그림이나 바이올린그래프가 더 적절할까?
ㄴ PageValues처럼 편향이 심하고 이상치가 중요한 변수에서는, 정보를 압축해버리는 막대그래프보다
데이터의 생생한 분포를 보여주는 상자 그림이나 바이올린 그래프가 더 많은 인사이트를 제공한다
두 집단의 차이는 평균 차이인가, 분포 구조 차이인가?
ㄴ 극단적인 편향성과 긴 꼬리의 이상치를 통해 데이터가 퍼져 있는 분포 구조 차이임을 알 수 있다
이상치가 많은 경우 평균 해석은 어떻게 달라질까?
ㄴ 이상치가 많은 경우, 평균은 집단의 중심이 아닌, 집단의 잠재적 성과에 의해 끌려가는 지표로 해석해야 하고,
반드시 상지 그림 등을 통해 실제 데이터가 어디에 몰려 있는지를 함께 언급해야 정확한 판단이 가능하다.
4.3 상품 페이지를 많이 본 세션은 실제로 체류시간도 긴가?
질문 유형: 관계 질문
여기서는 두 수치형 변수의 관계를 봐야 하기에 산점도가 기본 후보이다.
다만 점이 너무 많이 겹치면 해석이 어려워질 수 있기 때문에! 투명도, 색상, 축 변환을 함께 고려한다.
해석 포인트
- 점이 겹칠 때는 투명도를 조정하는 것이 중요하다
- 구매 여부를 색으로 구분하면, 젠체 구조와 집단 차이를 동시에 볼 수 있다.
- 오른쪽 긴 꼬리 분포가 심한 경우, 로그 변환은 패턴을 더 읽기 쉽게 만들 수 있다.
- 단, 축 변환은 데이터를 바꾸는 것이 아니라 읽는 방식을 바꾸는 선택이라는 점을 기억해야 한다.
4.4 월별로 세션 수와 구매율은 어떻게 다른가?
질문 유형: 비교 질문 + 순서가 있는 범주 비교
Month는 문자열이지만 순서가 중요하므로, 단순 사전순이 아니라 월 순서를 반영해야 한다.
해석 포인트
- 막대그래프는 절대량 비교에 유리하다.
- 점그래프는 순서가 있는 범주를 비교할 때 간결하게 쓰기 좋다.
- 같은 월별 데이터라도 세션 수와 구매율은 서로 다른 의미를 가지기 때문에 분리해서 보는 것이 좋다.
4.5 방문자 유형에 따라 BounceRates 분포가 다른가?
질문 유형: 집단별 분포 비교
이 질문에서는 평균 비교만으로는 부족할 수 있으므로 요약 구조와 일부 원자료를 함께 보는 방식을 사용해볼 수 있다.
해석 포인트
- 상자그림은 분포 요약을 보여준다
- 점 일부를 함께 겹치면 실제 관측치의 흩어짐을 더 직관적으로 볼 수 있다
- 실무에서도 요약 구조+일부 원자료를 함께 제시하는 방식은 매우 유용하다