쉬엄쉬엄블로그

(Data Viz) Scatter Plot 본문

부스트캠프 AI Tech 4기

(Data Viz) Scatter Plot

쉬엄쉬엄블로그 2023. 6. 12. 11:14
728x90

이 색깔은 주석이라 무시하셔도 됩니다.

기본 Scatter Plot

Scatter plot이란?

  • Scatter plot은 점을 사용하여 두 feature간의 관계를 알기 위해 사용하는 그래프
  • 산점도 등의 이름으로 사용됨
  • 직표 좌표계에서 x축/y축에 feature 값을 매핑해서 사용
  • .scatter() 사용

Scatter plot의 요소

  • 점에서 다양한 variation 사용 가능 (2차원 데이터에서 N차원 데이터로 확장 가능)
    1. 색 (color)
    2. 모양 (marker)
    3. 크기 (size)

Scatter plot의 목적

  • 상관 관계 확인 (양의 상관관계 / 음의 상관관계 / 없음)

  • 세 가지를 확인하자

정확한 Scatter Plot

Overplotting

  • 점이 많아질수록 점의 분포를 파악하기 힘들다
    • 투명도 조정
    • 지터링 (jittering)
      • 점의 위치를 약간씩 변경
    • 2차원 히스토그램
      • 히트맵을 사용하여 깔끔한 시각화
    • Contour plot
      • 분포를 등고선을 사용하여 표현

점의 요소와 인지

    • 연속은 gradient, 이산은 개별 색상으로
  • 마커
    • 거의 구별하기 힘듬
    • 크기가 고르지 않음
  • 크기
    • 흔히 버블 차트 (bubble chart)라고 부름
    • 구별하기는 쉽지만 오용하기 쉬움 (원의 크기 비교)
    • 관계보다는 각 점간 비율에 초점을 둔다면 좋음
    • SWOT 분석 등에 활용 가능

인과관계와 상관관계

  • 인과 관계 (casual relation)와 상관 관계 (correlation)는 다름
    • 분석 과정에서 꼭 고민해볼 것
  • 인과 관계는 항상 사전 정보와 함께 가정으로 제시할 것

추세선

  • 추세선을 사용하면 scatter의 패턴을 유추할 수 있음
    • 단, 추세선이 2개 이상이 되면 가독성이 떨어지므로 주의

ETC

  • Grid는 지양, 사용한다면 최소한으로
    • 색은 무채색으로
  • 범주형이 포함된 관계에서는 heatmap 또는 bubble chart를 추천

출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)

'부스트캠프 AI Tech 4기' 카테고리의 다른 글

(Data Viz) Text (+ 실습)  (0) 2023.06.13
(Data Viz) Scatter Plot 실습  (0) 2023.06.12
(Data Viz) Line Plot 실습  (0) 2023.06.10
(Data Viz) Line Plot  (0) 2023.06.10
(Data Viz) Bar Plot 실습  (4) 2023.06.09
Comments