Notice
Recent Posts
Recent Comments
Link
250x250
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 현대자동차
- mrc
- Ai
- Bart
- Self-attention
- 데이터 구축
- Data Viz
- 2023 현대차·기아 CTO AI 경진대회
- RNN
- matplotlib
- Attention
- N21
- ODQA
- seaborn
- word2vec
- KLUE
- 기아
- 데이터 시각화
- passage retrieval
- pyTorch
- AI 경진대회
- AI Math
- 딥러닝
- Optimization
- Transformer
- nlp
- dataset
- GPT
- Bert
- N2N
Archives
- Today
- Total
쉬엄쉬엄블로그
(Data Viz) Scatter Plot 본문
728x90
이 색깔은 주석이라 무시하셔도 됩니다.
기본 Scatter Plot
Scatter plot이란?
- Scatter plot은 점을 사용하여 두 feature간의 관계를 알기 위해 사용하는 그래프
- 산점도 등의 이름으로 사용됨
- 직표 좌표계에서 x축/y축에 feature 값을 매핑해서 사용
.scatter()
사용
Scatter plot의 요소
- 점에서 다양한 variation 사용 가능 (2차원 데이터에서 N차원 데이터로 확장 가능)
- 색 (color)
- 모양 (marker)
- 크기 (size)
Scatter plot의 목적
- 상관 관계 확인 (양의 상관관계 / 음의 상관관계 / 없음)
- 세 가지를 확인하자
정확한 Scatter Plot
Overplotting
- 점이 많아질수록 점의 분포를 파악하기 힘들다
- 투명도 조정
- 지터링 (jittering)
- 점의 위치를 약간씩 변경
- 2차원 히스토그램
- 히트맵을 사용하여 깔끔한 시각화
- Contour plot
- 분포를 등고선을 사용하여 표현
점의 요소와 인지
- 색
- 연속은 gradient, 이산은 개별 색상으로
- 마커
- 거의 구별하기 힘듬
- 크기가 고르지 않음
- 크기
- 흔히 버블 차트 (bubble chart)라고 부름
- 구별하기는 쉽지만 오용하기 쉬움 (원의 크기 비교)
- 관계보다는 각 점간 비율에 초점을 둔다면 좋음
- SWOT 분석 등에 활용 가능
인과관계와 상관관계
- 인과 관계 (casual relation)와 상관 관계 (correlation)는 다름
- 분석 과정에서 꼭 고민해볼 것
- 인과 관계는 항상 사전 정보와 함께 가정으로 제시할 것
추세선
- 추세선을 사용하면 scatter의 패턴을 유추할 수 있음
- 단, 추세선이 2개 이상이 되면 가독성이 떨어지므로 주의
ETC
- Grid는 지양, 사용한다면 최소한으로
- 색은 무채색으로
- 범주형이 포함된 관계에서는 heatmap 또는 bubble chart를 추천
출처: 부스트캠프 AI Tech 4기(NAVER Connect Foundation)
'부스트캠프 AI Tech 4기' 카테고리의 다른 글
(Data Viz) Text (+ 실습) (0) | 2023.06.13 |
---|---|
(Data Viz) Scatter Plot 실습 (0) | 2023.06.12 |
(Data Viz) Line Plot 실습 (0) | 2023.06.10 |
(Data Viz) Line Plot (0) | 2023.06.10 |
(Data Viz) Bar Plot 실습 (4) | 2023.06.09 |
Comments