목록outlier (1)
Hippo's data
이상치(outlier) 처리하기
오늘은 이상치를 처리하는 방법에 대해 알아보겠습니다 # 이상치(outlier)란? 데이터의 일반적인 범주에서 크게 벗어난 값들을 의미하는데요 그렇다면 데이터의 일반적인 범주에서 벗어났다고 할 수 있는 기준이 무엇이 있을까요? 1) Z-score 확인 신뢰구간 : 모수(모집단의 값)가 실제로 포함될 것으로 예측되는 범위 신뢰수준 : 신뢰구간에 실제 평균값이 포함될 확률 일반적으로 95%의 신뢰수준을 사용함 ( Z-scroe 1.96 기준 ) Z = ( X_i(i번째 값) - X의 평균 ) / 표준편차 코드로 구현 ( 신뢰수준 95% 이상인 데이터 확인 ) -> df[(abs((df['기준 변수'] - df['기준 변수'].mean())/df['기준 변수'].std())) > 1.96] 2) IQR(Inte..
ML(Machine Learning)
2023. 12. 28. 16:35