본문 바로가기
파이썬

파이썬 판다스를 활용한 다차원 데이터 분석: 2차원 테이블을 넘어서

by 마이케이 2024. 11. 14.
반응형
판다스 다차원 데이터
판다스 다차원 데이터
파이썬 판다스를 활용한 다차원 데이터 분석: 2차원 테이블을 넘어서

데이터 분석에서 흔히 사용되는 판다스 라이브러리는 기본적으로 2차원 테이블 형태의 데이터를 다루는 데 탁월합니다. 하지만 현실 세계의 데이터는 2차원을 넘어 다양한 차원으로 구성되어 있는 경우가 많습니다. 이러한 다차원 데이터를 효과적으로 다루기 위해 판다스는 멀티인덱스라는 강력한 기능을 제공합니다. 멀티인덱스는 데이터프레임의 행이나 열에 여러 개의 컬럼을 사용하여 다차원 데이터 구조를 표현하는 방법입니다.

멀티인덱스: 다차원 데이터 구조를 표현하다

멀티인덱스를 사용하면 2차원 테이블을 넘어서 다차원 데이터를 자연스럽게 표현하고 분석할 수 있습니다. 예를 들어, 여러 도시의 여러 제품에 대한 판매 데이터를 저장하려는 경우, 2차원 테이블로는 데이터 구조를 효과적으로 나타내기 어렵습니다. 하지만 멀티인덱스를 사용하면 도시와 제품을 각각 인덱스로 지정하여, 데이터를 3차원적으로 정리할 수 있습니다.
python import pandas as pd
data = { ('서울', '상품A'): 100, ('서울', '상품B'): 150, ('부산', '상품A'): 80, ('부산', '상품B'): 120, ('대구', '상품A'): 90, ('대구', '상품B'): 110 }
df = pd.DataFrame(data, columns=['판매량']) df.index.names = ['도시', '제품']
print(df)
이 코드는 3개의 도시(서울, 부산, 대구)와 2개의 제품(상품A, 상품B)에 대한 판매량을 저장하는 데이터프레임을 생성합니다. '도시'와 '제품'을 각각 인덱스 컬럼으로 지정하여 쉽게 데이터를 조회하고 분석할 수 있습니다.

멀티인덱스를 활용한 데이터 분석

멀티인덱스는 데이터 분석을 위한 강력한 도구입니다. 다차원 데이터를 직관적으로 정리하고, 다양한 차원에 따른 데이터 분석을 쉽게 수행할 수 있습니다.


1, 다차원 데이터 슬라이싱: 원하는 데이터만 선택하기

멀티인덱스를 사용하면 특정 차원의 데이터에 손쉽게 접근할 수 있습니다. 예를 들어, 서울 지역의 상품 판매량만 조회하려면 다음과 같이 코드를 작성하면 됩니다.
python print(df.loc['서울'])


2, 그룹화 및 집계: 다차원 데이터 분석의 핵심

멀티인덱스는 데이터 그룹화 및 집계 기능을 더욱 강력하게 지원합니다. 예를 들어, 각 도시별 상품 판매량의 합계를 구하려면 다음 코드를 사용할 수 있습니다.
python print(df.groupby(level='도시').sum())


3, 다차원 데이터 시각화: 시각적으로 이해하기 쉽게

멀티인덱스 데이터는 시각화를 통해 더욱 직관적으로 이해할 수 있습니다. 판다스는 다양한 시각화 라이브러리와 연동하여 다차원 데이터를 효과적으로 시각화할 수 있는 기능을 제공합니다.

맺음말

판다스의 멀티인덱스는 다차원 데이터를 효과적으로 관리하고 분석할 수 있는 강력한 도구입니다. 멀티인덱스를 통해 복잡한 데이터를 체계적으로 정리하고, 다양한 차원별 분석을 통해 데이터에서 유용한 정보를 얻을 수 있습니다. 데이터 분석 분야에서 멀티인덱스 활용은 필수적인 요소이며, 숙달되면 데이터 분석 능력을 한층 향상시킬 수 있습니다.

반응형