Recent Posts
Recent Comments
Link
Today
Total
11-08 22:36
관리 메뉴

Hippo's data

pandas_profiling(판다스 프로파일링) 활용하기 본문

Info

pandas_profiling(판다스 프로파일링) 활용하기

Hippo's data 2024. 8. 12. 00:09
728x90

데이터분석을 할 때, EDA (Exploratory Data Analysis) 탐색적 데이터 분석은 필수적인 과정이죠!

 

그렇다면 EDA란 무엇일까요? 

즉, 여러 그래프를 그려보거나 여러 통계를 찍어보는 등 데이터를 여러 각도에서 바라보며 씹고 뜯고 맛보고 즐기면서 분석의 다양한 전략을 세우는 단계라고 할 수 있는데욥! 

 

오늘은 이러한 EDA 과정을 도와주는 매우매우 강려크한 오픈소스 pandas_profiling에 대해 소개해보려고 합니다!!

 

pandas_profiling 에서는 아래와 같은 EDA 리포트를 제공해 줍니다!

 

기본 통계 정보: 각 열의 평균, 중간값, 표준편차, 최솟값, 최댓값 등.
데이터 분포: 히스토그램이나 커널 밀도 추정(KDE) 등을 통해 각 열의 데이터 분포를 시각적으로 표현.
결측치 분석: 데이터 프레임의 결측치 비율 및 위치에 대한 분석.
중복 데이터: 중복된 행에 대한 정보.
상관 관계: 변수들 간의 상관 관계 매트릭스 및 히트맵.
경고 사항: 극단적인 값이나 특이값이 있는지, 데이터 타입이 의도한 바와 일치하는지 등.

 

#설치 및 불러오기

!pip install pandas_profiling
import pandas_profiling

 

### 기존에는 위와 같은 방법으로 사용할 수 있었는데요 최근에는 오류가 발생하도라구요,,,,

->> pandas_profiling이 아닌 ydata-profiling으로 해주셔야 사용할 수 있습니다!!

!pip install ydata-profiling
from ydata_profiling import ProfileReport

 

 

# 사용방법

아래와 같은 함수를 사용하면 EDA 리포트를 확인할 수 있습니다

profile = ProfileReport(df, title="Profiling Report")

 

(df -> 분석할 데이터 프레임 이름, title -> EDA 리포트 이름)

 

혹은 요로코롬도 사용할 수 있습니다

profile = df.profile_report(title="Profiling Report")

 

 

 

# 파일로 저장

html로 저장할 수 있습니다!!

profile.to_file("output.html")

 

 

# 참고 reference

더 자세한 사항은 아래 ydata-profiling 깃헙에서 확인할 수 있습니다!!

https://github.com/ydataai/ydata-profiling?tab=readme-ov-file

 

GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFra

1 Line of code data quality profiling & exploratory data analysis for Pandas and Spark DataFrames. - GitHub - ydataai/ydata-profiling: 1 Line of code data quality profiling & exploratory d...

github.com

 

728x90