상관분석에대해 알아보기
1. 선형관계와 상관계수
선형관계는 한 변수의 증감에 따라 다른 변수도 증감이 나타나는 직선적 관계를 말합니다. 그리고 선형관계의 정도를 상관계수라고 합니다.
2. 피어슨 상관계수와 스피어만 상관계수
피어슨 상관계수는 상관관계를 -1 에서 1 사이의 값으로 나타내주고 스피어만 상관계수는 두 변수의 순서에 대한 상관관계를 -1에서 1사이 값으로 나타냅니다.
피어슨 상관계수는 수치형 자료에 적용하는 것이 적합하고 스피어만 상관계수는 순서값을 갖는 데이터에 적용하는 것이 적합합니다.
3. 상관분석
두 변수의 값들을 분석하여 관계가 선형인지를 판단하는 분석입니다. 귀무가설은 두 변수가 선형관계를 갖지 않는다는 것이고 대립가설은 선형관계를 갖는다는 것입니다.
scipy의 stats.pearsonr을 사용하여 분석해보았을 때 그 값으로 상관관계는 0.99가 나오고 P-value는 0.08이 나왔다고 한다면 그 해석은 다음과 같습니다. 두 변수는 매우 강한 양의 상관관계를 있는 것으로 나타났지만 유의수준 5%하에 P-value가 8%이므로 유의하지 않아 귀무가설을 기각하지 못합니다. 따라서 강한 양의 상관관계결과는 통계적으로 유의하지 않다고 판단합니다.
그러나 동일한 자료를 가지고 다른 분석방법을 사용하면 P-value가 다르게 나와 유의한 것으로 나타날 수 있으니 주의해야 합니다.
댓글목록