본문 바로가기
함수 설명/기본 및 범용

[NumPy] 배열의 중복 제거 및 고유 값 찾기: np.unique() 사용 및 설명

by First Adventure 2024. 10. 3.
반응형

소개

  np.unique(ar, return_index=False, return_inverse=False, return_counts=False, axis=None)는 배열 ar의 중복된 요소를 제거하고 고유한 값들을 반환하는 함수입니다. 필요에 따라 고유 값의 인덱스, 역 인덱스, 각 값의 빈도 수도 반환할 수 있어 데이터 분석 및 중복 제거 작업에 매우 유용합니다.

 

기본 사용법

import numpy as np

# 1차원 배열에서 고유 값 찾기
array = np.array([1, 2, 2, 3, 3, 3])
unique_values = np.unique(array)

print("배열의 고유 값:", unique_values)

상세 설명

  • ar: 고유 값을 추출할 배열로, 다차원 배열도 가능합니다. 배열에서 중복된 값은 제거되고, 고유한 값들이 정렬된 순서로 반환됩니다.
    • 예시: np.unique([1, 2, 2, 3, 3])은 [1, 2, 3]을 반환합니다.
  • return_index (선택사항): True로 설정하면 고유 값의 첫 번째 발생 인덱스를 반환합니다.
    • 예시: np.unique([1, 2, 2, 3], return_index=True)는 고유 값과 함께 인덱스 [0, 1, 3]을 반환합니다.
  • return_inverse (선택사항): True로 설정하면 입력 배열을 고유 값 배열로 재구성할 수 있는 인덱스 배열을 반환합니다.
    • 예시: np.unique([1, 2, 2, 3], return_inverse=True)는 고유 값 배열과 인덱스 배열 [0, 1, 1, 2]을 반환합니다.
  • return_counts (선택사항): True로 설정하면 각 고유 값의 등장 빈도를 반환합니다.
    • 예시: np.unique([1, 2, 2, 3], return_counts=True)는 고유 값과 빈도 수 [1, 2, 1]을 반환합니다.
  • axis (선택사항): 다차원 배열에서 특정 축을 기준으로 고유 값을 계산할 수 있습니다.
  • 활용
    • 중복 제거: 배열 내 중복된 값들을 제거하고 고유한 값만 추출하는 데 사용됩니다. 데이터 클리닝 작업에서 매우 유용합니다.
    • 데이터 분석: 고유 값의 빈도나 발생 위치를 분석하여 데이터의 분포나 특성을 파악할 수 있습니다.

 

라이센스

  NumPy는 BSD-3-Clause 라이센스를 따릅니다. 자유롭게 사용, 수정, 배포할 수 있으며 상업적 목적으로도 사용할 수 있습니다. 라이센스와 저작권 정보는 NumPy의 공식 GitHub 리포지토리에서 확인할 수 있습니다.

 

관련 내용

  [NumPy] 배열 정렬 인덱스 구하기: np.argsort() 사용 및 설명

  [NumPy] 배열 정렬하기: np.sort() 사용 및 설명

  [NumPy] 배열의 중복 제거 및 고유 값 찾기: np.unique() 사용 및 설명

  [NumPy] 조건에 따른 배열 선택: np.where() 사용 및 설명

반응형