본문 바로가기
함수 설명/기본 및 범용

[NumPy] 상관 계수 구하기: np.corrcoef() 사용 및 설명

by First Adventure 2024. 10. 3.
반응형

소개

  np.corrcoef(x, y=None, rowvar=True, bias=<no value>, ddof=<no value>, dtype=None) 함수는 주어진 데이터 x와 선택적으로 y의 상관 계수 행렬을 계산하는 함수입니다. 상관 계수는 두 변수 간의 선형 관계를 측정하며, -1에서 1 사이의 값을 가집니다. 1에 가까울수록 양의 상관, -1에 가까울수록 음의 상관, 0에 가까울수록 무상관을 나타냅니다. 이 함수는 데이터 분석과 통계학에서 변수 간의 관계를 파악할 때 자주 사용됩니다.

 

기본 사용법

import numpy as np

# 두 변수 간의 상관 계수 행렬 계산
x = np.array([1, 2, 3, 4, 5])
y = np.array([10, 9, 6, 3, 1])
corr_matrix = np.corrcoef(x, y)

print("상관 계수 행렬:\n", corr_matrix)

상세 설명

  • x: 상관 계수를 계산할 데이터 배열입니다. 다차원 배열일 경우, 각 행 또는 열이 하나의 변수로 취급됩니다.
    • 예시: np.corrcoef([1, 2, 3], [1, 4, 9])는 두 배열 간의 상관 계수를 계산합니다.
  • y (선택사항): 선택적으로 두 번째 데이터 집합을 제공할 수 있습니다. 이때 x와 y 간의 상관 계수를 계산합니다.
  • rowvar (선택사항): 기본값은 True로, 행이 변수, 열이 관측치를 나타냅니다. 이를 False로 설정하면 열이 변수로 간주됩니다.
    • 예시: np.corrcoef(x, y, rowvar=False)는 열을 변수로 취급하여 상관 계수를 계산합니다.
  • bis, ddof, dtype (선택사항): 공분산 계산 시의 설정을 제어합니다. 기본값으로는 편향되지 않은 상관 계수를 반환합니다.
  • 활용
    • 데이터 분석 및 통계: 변수 간의 상관 관계를 분석하여 예측 모델을 만들거나, 데이터에서 중요한 변수들을 파악할 때 사용됩니다. 예를 들어, 주식 시장에서 두 주식 간의 상관성을 계산할 수 있습니다.
    • 과학적 연구 및 머신러닝: 변수 간의 상관 계수는 피처 선택 과정에서 변수 간의 중복성을 파악하거나, 독립 변수와 종속 변수 간의 관계를 이해하는 데 유용합니다.

 

라이센스

  NumPy는 BSD-3-Clause 라이센스를 따릅니다. 자유롭게 사용, 수정, 배포할 수 있으며 상업적 목적으로도 사용할 수 있습니다. 라이센스와 저작권 정보는 NumPy의 공식 GitHub 리포지토리에서 확인할 수 있습니다.

 

관련 내용

  [NumPy] 상관 계수 구하기: np.corrcoef() 사용 및 설명

  [NumPy] 공분산 구하기: np.cov() 사용 및 설명

  [NumPy] 배열의 백분위수 구하기: np.percentile() 사용 및 설명

  [NumPy] 배열의 중앙값 구하기: np.median() 사용 및 설명

반응형