카테고리 없음

데이터 시각화 및 해석 - Lecture4. 기본 차트와 문법

bibidibabidiboop 2026. 4. 11. 18:45

1. 시각화 설계의 출발점

"시각화는 그림이 아니라 표상이다."

이 말은 시각화가 데이터를 그대로 옮기는 행위가 아니라,

데이터를 어떤 구조로 보이게 할지 결정하는 행위라는 것을 의미한다.

시각화를 어떻게 하느냐에 따라서,

같은 데이터라도 전혀 다른 의미처럼 보이게 할 수 있기 때문이다.

어떤 요약을 거쳤는지, 어떤 축에 놓였는지, 어떤 비교를 강조하는지에 따라서

시각화를 다르게 할 수 있다.

 

시각화 설계의 기본 흐름은 다음과 같다.

- 질문 정의

- 관측 단위 확인

- 분석 단위 결정

- 변수 역할 구분

- 차트 후보 생성 (어떤 차트로 나타낼 것인지)

- 시각적 부호화를 결정

- 정보 손실과 해석 가능성을 점검

 

2. 질문 정의

2.1. 질문 유형과 분석 단위

아무리  같은 데이터라도 질문이 다르면 그에 따른 답이 달라지기 때문에,

질문을 먼저 분류해야 한다.

질문을 분류하지 않으면, 

필요 없는 집계 / 부적절한 차트 선택 / 해석이 과도해지기 쉬워지는 문제가 발생한다.

대표적인 질문 유형은 다음과 같다.

기술 질문 / 비교 질문 / 진단 질문 / 상호작용 질문 / 이질성 질문 / 불확실성 인식 질문  

1) 기술 질문

기술 질문은 현상을 요약하는 질문이다.

- 현재 상태는 어떠한가?

- 값의 수준은 어느 정도인가?

- 어떤 범위에 값이 집중되어 있는가?

- 대표값과 퍼짐은 어떤가?

 

2) 비교 질문

비교 질문은 말그대로 수치상의 비교를 의미한다.

- 어떤 집단이 더 높은가?

- 차이는 얼마나 큰가?

- 절대량 차이인가, 비율 차이인가?

- 차이는 평균 수준에서만 나타나는가, 분포 전체에서 나타나는가?

 

3) 진단 질문

진단 질문은 "왜 이런 결과가 나왔지?"를 파고드는 질문이다.

어떤 현상이나 결과가 보인 상태에서 그 원인이나 이유를 분석하기 위해 던지는 질문이다.

- 왜 이런 차이가 나타나는가?

- 특정 결과와 함께 움직이는 변수는 무엇인가?

- 어떤 구간에서 이상 현상이 발생하는가?

- 어떤 구조가 결과를 설명할 가능성이 있는가?

 

4) 상호작용 질문

상호작용 질문은 단순 평균 비교보다 복잡한 구조를 요구한다.

"이거 조건 바꿔가면서 보면 뭐가 보이지?"이런 질문들임..

- 두 변수의 관계가 모든 집단에서 같은가

- 한 변수의 효과가 다른 변수 수준에 따라 달라지는가

- 전체 패턴과 집단별 패턴이 충돌하는가

ex) 재방문 여부에 따라 체류시간과 구매의 관계가 달라지는가?

 

5) 이질성 질문

이질성 질문은 데이터 내 집단 간의 차이를 묻는 질문이다.

- 전체 평균 뒤에 숨은 하위집단 차이가 있는가?

- 특정 집단에서만 특이한 분포가 나타나는가?

- 전체 패턴이 소수 집단에 의해 왜곡되는가?

ex) 특정 지역에서만 전혀 다른 사용자 행동이 나타나는가?

 

6) 불확실성 인식 질문

- 보이는 차이가 얼마나 안정적인가

- 표본 수 차이가 해석을 흔드는가

- 평균 차이보다 변동성 차이가 더 중요한가

- 집계 결과를 얼마나 믿을 수 있는가

ex) 표본 수가 작은 집단의 높은 평균은 신뢰할 만한가

 

가장 처음 질문을 선택하는 것이 중요한 가장 큰 이유는

질문이 틀리면 차트도 틀리기 때문이다.

Because, 차트 = 질문의 산물

차트만으로 인과를 단정하는 질문,

집계 수준을 무시한 질문,

분포 차이를 평균 차이로만 묻는 질문,

표본 수 차이를 무시한 비교 질문

이러한 질문들이 아예 잘못된 질문들이다.

 

 

3. 관측 단위 확인, 분석 단위 결정

 

3.1. 관측 단위와 분석 단위

 

관측 단위란?

데이터에서 한 행이 의미하는 기본 단위를 의미한다.

 

분석 단위란?

실제로 비교하거나 해석하려는 단위를 의미한다.

 

위의 두 단위가 같을 수도 있고, 다를 수도 있다.

 

EX) 

관측 단위: 세션   |   분석 단위: 방문자 유형별 평균

관측 단위: 사용자   |   분석 단위: 지역별 비율

 

집계 수준을 결정한다는 것은 데이터를 요약하는 단위를 결정한다는 것이다.

같은 데이터 안에서도 집계 수준이 달라지면 완전히 다른 차트가 나오기 때문에 집계 수준을 결정하는 것은 중요하다

세션 단위 산점도 : 개별 구조와 이상치가 보임 ---> 데이터 하나씩 비교할 때

집단 평균 막대 그래프 : 요약된 차이가 보임 ---> 집단 비교할 때

비율 그래프: 절대량은 사라지고 구성 정보가 강조됨 ---> 전체 데이터들의 비율 비교할 때

따라서 "무엇을 보여줄까"와 함께 "무엇을 지울까"를 생각해야 한다.

 

하지만 데이터의 집계를 하게 되면 어떤 정보는 손실되기 마련이다.

평균을 쓰면 분산이 사라짐

비율을 쓰면 절대량이 사라짐

합계를 쓰면 집단 내부 차이가 사라짐

순위를 쓰면 값의 크기 차이가 사라짐

이를 통해 집계는 단순한 편의 기능이 아니라 강한 해석임을 알 수 있다.

집계로 시각화를 진행하면 정보를 압축할 수 있다는 것을 알 수 있다!

 

집계 편향의 위험

: 위에서 언급한 것처럼 집계 후에는 원자료에서 보이던 구조가 사라질 수도 있다.

집계 방식에 따라서는 또 새로운 패턴이 생겨 보일 수도 있고, 

전체에서는 양의 관계처럼 보여도 집단별로는 약하거나 반대일 수 있다.

전체 패턴과 집단별 패턴이 다를 수 있다는 점을 항상 경계하고,

집계는 편리하지만, 해석을 왜곡할 위험도 크다는 사실을 인지해야 한다.

 

 

4. 변수 역할 결정

 

이제는 데이터에 존재하는 다양한 변수들에게 각각의 역할을 부여해야 한다.

아래와 같은 역할로 변수들을 나눌 수 있다.

- 그룹을 나누는 변수

- 수치로 측정되는 변수

- 순서가 있는 변수

- 시간이나 단계 정보를 담는 변수

- 결과 변수와 설명 변수

단순히 변수의 자료형만 보는 것은 부족하다. 실제 시각화에서 변수가 어떤 역할을 하는지가 더 중요하다.

 

단순히 변수의 자료형만 보는 것은 부족하다는 예시를 보여주자면,

- 나이 변수

  : 연속형 수치로 볼 수도 있고  /  구간화해서 범주형 수치로도 볼 수 있다

 

- 월 변수

  : 시간 변수로 볼 수도 있고  /  순서형 범주로도 볼 수 있다

 

- 점수 변수

  : 수치형으로 볼 수도 있고 / 등급으로 묶으면 범주형처럼 변하기도 한다.

 

이를 통해 변수는 원해 성격보다 "어떻게 쓰는지"가 더 중요하다는 사실을 알 수 있다.

어떻게 보면 시각화는 변수 해석의 재구성 과정이기도 한 것이다.

 

 

5. 차트 후보 결정

 

어떤 유형의 변수들인지에 따라서 차트 후보를 결정할 수 있다

- 범주형 1개 + 수치형 1개   

  : 막대그래프, 점도표, 상자그림

  (예: 반별 평균 점수) ---> 범주별로 수치를 비교한다는 의미이다.

 

- 수치형 1개

  : 히스토그램, 밀도곡선

  (예: 학생들 점수 리스트 하나) ---> 값들이 어떻게 퍼져 있는지 분포를 파악하겠다는 의미이다.

 

- 수치형 2개

  : 산점도

  (예: 키 vs 몸무게) ---> 두 변수의 관계를 파악하겠다는 의미이다. 비례관계인지, 반비례 관계인지.....

 

- 범주형 2개 + 수치형

  : 묶은 막대그래프, 누적 막대그래프, 히트맵

  (예: 성별 + 반 + 평균 점수) ---> 두 기준으로 나눠서 비교하겠다는 의미이다.

 

어떤 차트를 선택할지는..변수 구조에 대한 대응이다.

차트 후보를 만들 때 어떤 질문을 해야 더 좋은 차트 후보를 만들 수 있을까?

- 내가 보여주려는 것은 수준인가, 구조인가?

- 평균 차이인가, 분포 차이인가?

- 개별 관측치가 중요한가, 집계값이 중요한가?

- 절대량이 중요한가, 비율이 중요한가?

- 전체 패턴이 중요한가, 하위집단 차이가 중요한가?

 

차트 후보는 무작정 생각하는 것이 아니라, 위의 질문과 실제 데이터 자료의 구조, 두 가지의 연결에서 나온다.

차트 선택은 작은 의사결정들의 연쇄이다.

 

 

5. 차트 선택 기준

 

차트 선택 기준은 네 가지 ---> 지각적 정확성  |  정보 보존 정도  |  해석 위험  |  공정한 비교 가능성

 

1) 지각적 정확성

: 사람은 위치 비교에 가장 강하고, 그 다음으로 길이 비교에 강하다.

  각도, 면적, 부피 비교는 상대적으로 부정확하며, 

   색 농도 비교도 정밀한 수치 비교에는 약하다.

 

2) 정보 보존 정도

차트에 정보를 그대로 옮길 수는 없다. 때문에 무엇을 남기고 버릴지 따져서 어떤 차트를 쓸 것인지 선택해야 한다

평균 막대그래프 ---> 중심 경향은 보존, 분산과 분포는 손실

상자그림 ---> 중앙값과 사분위 구조는 보존, 세부 밀도 구조는 손실

히스토그램 ---> 전체 형태는 보존, 구간 설정에 민감

 

3) 해석 위험

: 좋은 차트는 전달력이 높은 차트이면서 동시에 오해 위험이 낮은 차트이다.

* 평균만 보여줌 = 분포차이가 가려질 수 있음

* 비율만 보여줌 = 표본 수 차이가 가려질 수 있음

* 집계 차트만 봄 = 하위집단 차이가 사라질 수 있음

* 색상만으로 너무 많은 집단 구분 = 오독 가능성이 커짐

 

4) 공정한 비교 가능성

: 좋은 차트는 차이가 정확하게 보이게 만드는 차트이다.

  공정한 비교가 가능해야 해석도 책임 있게 할 수 있기 때문이다.

  공정한 비교를 위해서는 아래의 네 가지 요소를 살펴보아야 한다. 

  - 비교 대상의 표본 수가 크게 다른가

  - 비교 기준이 같은 축과 같은 범위 위에 놓여 있는가

  - 정렬이 비교를 돕고 있는가

  - 일부 집단만 과도하게 강조되지 않았는가

 

 

6. 시각적 부호화를 결정

시각적 부호화란?

데이터 정보를 인지적으로 전달하는 핵심 수단이다. 

절대 꾸미기가 아님!!!!!!!!!!!!!!!!!!!!!!

때문에 목적에 맞는 채널을 선택하는 것이 중요하다.

데이터 속성(수치형인지 범주형인지)과 중요도에 따라 적절한 시각 채널을 선택하는 것이 중요하다.