Hippo's data
pandas_profiling(판다스 프로파일링) 활용하기 본문
데이터분석을 할 때, EDA (Exploratory Data Analysis) 탐색적 데이터 분석은 필수적인 과정이죠!
그렇다면 EDA란 무엇일까요?
즉, 여러 그래프를 그려보거나 여러 통계를 찍어보는 등 데이터를 여러 각도에서 바라보며 씹고 뜯고 맛보고 즐기면서 분석의 다양한 전략을 세우는 단계라고 할 수 있는데욥!
오늘은 이러한 EDA 과정을 도와주는 매우매우 강려크한 오픈소스 pandas_profiling에 대해 소개해보려고 합니다!!
pandas_profiling 에서는 아래와 같은 EDA 리포트를 제공해 줍니다!
기본 통계 정보: 각 열의 평균, 중간값, 표준편차, 최솟값, 최댓값 등.
데이터 분포: 히스토그램이나 커널 밀도 추정(KDE) 등을 통해 각 열의 데이터 분포를 시각적으로 표현.
결측치 분석: 데이터 프레임의 결측치 비율 및 위치에 대한 분석.
중복 데이터: 중복된 행에 대한 정보.
상관 관계: 변수들 간의 상관 관계 매트릭스 및 히트맵.
경고 사항: 극단적인 값이나 특이값이 있는지, 데이터 타입이 의도한 바와 일치하는지 등.
#설치 및 불러오기
### 기존에는 위와 같은 방법으로 사용할 수 있었는데요 최근에는 오류가 발생하도라구요,,,,
->> pandas_profiling이 아닌 ydata-profiling으로 해주셔야 사용할 수 있습니다!!
# 사용방법
아래와 같은 함수를 사용하면 EDA 리포트를 확인할 수 있습니다
(df -> 분석할 데이터 프레임 이름, title -> EDA 리포트 이름)
혹은 요로코롬도 사용할 수 있습니다
# 파일로 저장
html로 저장할 수 있습니다!!
# 참고 reference
더 자세한 사항은 아래 ydata-profiling 깃헙에서 확인할 수 있습니다!!
https://github.com/ydataai/ydata-profiling?tab=readme-ov-file
'Info' 카테고리의 다른 글
깃허브 코파일럿 학생인증 (Github Copilot Student) (2) | 2024.03.23 |
---|---|
구글 검색(구글링googling) 하는 법 (0) | 2024.02.06 |