파이썬에서 데이터 시각화 하기
1. 시각화
시각화는 데이터를 분석하여 나온 결과를 쉽게 이해하기 위해 시각적 표현을 하는 것입니다. 파이썬에서 시각화를 지원하는 라이브러리들은 Matplotlib,seaborn, plot.ly, pyecharts등 여러가지가 있습니다. 이 중에서 가장 흔하게 사용되는 것이 맷플랏립입니다.
2. Matplotlib 라이브러리
파이썬에서 Chart나 Plot 표시가 가능해지도록 해주는 라이브러리입니다. 아나콘다를 설치할 때 matplotlib이 기본으로 설치되므로 import해서 사용하면 됩니다.
%matplotlib inline을 한번 입력하고 작업하는 것이 편합니다. cell magic 명령어라고 하며 이를 통해 셀에서 매트플랏립으로 그림을 그리겠다는 것을 컴퓨터에 알려줄 수 있습니다.
3. pyplot
Matplotlib의 모듈 중 하나이며 효과적으로 char와 plot을 표현해줍니다.
%matplotlib inline
import matplotlib.pyplot as plt
plt.plot( [1,2,3,4], [1,2,3,4] )
plt.xlable('x축')
plt.ylabel('y축')
plt.title('제목')
plt.legend( ['이미지1', '이미지2'] )
plt.show()
4. pyplot으로 Scatter plot 그리기
▼ 산점도
가로축과 세로축의 좌표평면에서 각 관찰 값들이 점으로 시각화 되어 표현된 것입니다. 산점도를 보면 데이터가 어떻게 분포되어 있는지 한눈에 파악하기 쉬워서 자료 분석을 하는데 도움이 됩니다.
▼ 이상점
이상치 또는 이상값이라고도 합니다. 일반적인 데이터 흐름에서 벗어나는 관측치를 말합니다. 분석을 들어가기 전에 이상점을 파악하고 시작해야 분석 결과를 정밀하게 가질 수 있습니다. 산점도를 보면 데이터가 이상점인지 찾아볼 수 있습니다.
▼ 선형관계
두 변수에서 한 변숫값이 증가 하거나 감소할 때 다른 변수가 증가 하거나 감소하는 직선 관계를 말합니다. 산점도에서 선형관계가 나타난다면 두 변수간의 일정한 관계가 있다는 판단을 내릴 수 있습니다.
▼ scatter 사용
%matplotlib inline
import matplotlib.pyplot as plt
plt.scatter( 70,40)
plt.scatter( [50,60,70], [30,40,50], c='red', s=10) #색상과 크기 조정
plt.text (60, 55, 'Test') #특정 지점에 텍스트 출력 가능
plt.plot( [50,60,70], [30,40,50]) #라인plot을 겹쳐서 그릴 수도 있음
plot.show()
5. 판다스에 matplotlib연결하여 시각화
기능적으로는 판다스와 matplotlib을 import해서 사용하는 것입니다. 데이터분석에서 시각화를 추가하여 사용하므로 분석을 더욱 용이하게 해줄 수 있습니다.
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df1=pd.DataFrame(np.random.randn(10, 2), index=pd.data_range('12/25/2021', periods=10), columns=['A', 'B'])
df1.plot()
df2= df1.cumsum()
df2.plot()
plt.title('제목')
plot.xlabel("data")
plot.ylabel("value")
plt.show()
댓글목록