목록분류 전체보기 (125)
Hippo's data

첫주차 학습에는 완전 기본기본기본적인 내용이라 수월하게 진행했따 기본 미션 코랩 실습 화면 캡처하기 선택 미션 문제: 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습 방법은 무엇인가요? 1. 지도학습 2. 비지도학습 3. 차원축소 4. 강화학습 답: 1번 풀이: 비지도학습 -> 타깃(정답) 없음 차원축소 -> 높은 차원을 낮은 차원으로 데이터를 줄임 (비지도학습에 속함) 강화학습 -> 수행된 행동에 보상을 받으며 학습 / 머신러닝의 한 종류

혼공학 습단 11기ㅇㄹㅇ 작년 2학기에는 휴학 후 프로젝트 참여하며 바쁜 나날은 보냈었따 이제 프로젝트도 거의 끝났구 다음학기 복학을 준비하며 방학동안 알차게 보낼 방법은 없을까? 고민하던즁 프로젝트에 멘토로 도와주신 과장님께서 추천해주신 혼공학습단!! 책을 각자 구비한 후 커리큘럼에 맞춰 공부내용을 정리해서 올리면 된더랬다 마침 책도 둘러보니 군대에서 이미 한번 대충?? 공부했었던 '혼자공부하는 머신러닝+딥러닝' 책이었따 군대에서두 너무 좋은 책이라 쉽게 술술 읽이긴했더랬땨 그려... 놀면 뭐햐낭 복학전에 개념다시 제대류 잡고 가보쟝 그래두 기본 베이스는 있으니 쉽게 쉽게 해보려규한답 아자아자!!
데이터에는 다양한 칼럼으로 이루어진 변수들이 존재하는데요 어떠한 변수들을 모델학습에 사용하느냐에 따라서 모델의 성능이 달라지곤 합니다 이 경우 사용할 수 있는 변수 선택(Feature selection) 방법들을 소개해보겠습니다! 1. RFE (Recursive Feature Elimination) -> 변수중요도(예: 회귀 계수, 결정 트리에서의 Gini importance 등)를 기반으로 원하는 변수 수에 도달할 때까지 중요하지 않은 변수를 재귀적으로 제거 -> 재귀적이라는 단어가 왜 쓰였나? 전체 변수 학습 -> 변수 중요도 가장 낮은 변수 삭제 -> 남은 변수 학습 (원하는 변수 수까지 반복) # 선택된 최종 변수는 모델 예측에 가장 큰 영향을 주는 특성 / 점수 지표가 가장 높음 from skl..
오늘은 데이터 전처리 과정중 하나인 스케일링(Scaling)에 대해 알아보겠습니다 여러 변수에 있는 각 수치형 데이터는 상대적 크기에 따라서 모델 생성에 영향을 끼칠 수 있는데요 쉬운 예시로 0~10의 값을 가지는 변수 A와 0~100의 값을 가지는 변수 B가 있을 때, 각 변수의 의미를 모르는 컴퓨터는 상대적으로 큰 숫자를 가지는 변수 B의 영향을 크게 반영합니다 그러므로 변수간 상대적인 크기를 조정해야할 필요가 있는데요 이것이 바로 스케일링(Scaling)입니다!! 1. 정규화(normalization) -> 데이터의 범위를 0~1로 조정 X = ( X_i(i번째 데이터) - X_min(X의 최솟값) ) / ( X_max(X의 최댓값) - X_min(X의 최솟값) ) - 직접 계산 df = (df -..
오늘은 범주형 데이터를 정제하는 방법(범주형 인코딩)에 대해 알아보겠습니다!!! 범주형 데이터란 성별(남, 여) / 혈액형(A,B,O,AB형) 처럼 범주로 구분된 데이터를 의미하는데요 컴퓨터는 남자, 여자와 같은 범주값을 그대로 이해하지 못하므로 1, 0과 같은 수치형 데이터로 변경해줘야 합니다 이렇듯 범주형 자료를 수치형자료로 변경하는 과정을 범주형인코딩(Categorical Encoding)이라고 하는데요 1.레이블인코딩 2. 원핫 인코딩 두가지 방법에 대해 알아보겠습니다 1. 레이블 인코딩(Lable Encoding) 범주 순서대로 각각 숫자를 부여하는 방식 서울 -> 0 광주 -> 1 대전 -> 2 부산 -> 3 # 단점) 의도하지 않은 순서값이 모델에 반영될 수 있음 -> 해결방안(원핫인코딩) ..

오늘은 이상치를 처리하는 방법에 대해 알아보겠습니다 # 이상치(outlier)란? 데이터의 일반적인 범주에서 크게 벗어난 값들을 의미하는데요 그렇다면 데이터의 일반적인 범주에서 벗어났다고 할 수 있는 기준이 무엇이 있을까요? 1) Z-score 확인 신뢰구간 : 모수(모집단의 값)가 실제로 포함될 것으로 예측되는 범위 신뢰수준 : 신뢰구간에 실제 평균값이 포함될 확률 일반적으로 95%의 신뢰수준을 사용함 ( Z-scroe 1.96 기준 ) Z = ( X_i(i번째 값) - X의 평균 ) / 표준편차 코드로 구현 ( 신뢰수준 95% 이상인 데이터 확인 ) -> df[(abs((df['기준 변수'] - df['기준 변수'].mean())/df['기준 변수'].std())) > 1.96] 2) IQR(Inte..

오늘은 데이터 전처리 단계에서 사용하는 결측치를 처리하는 방법에 대해 알아보겠습니다!! # 결측치(Missing value)란? 결측치란 말 그래도 비어있는 값인데요 데이터수집시 누락되거나 유실되는 등 다양한 원인에 의해 생겨납니다 특히 결측치는 데이터 분석시 반드시 처리해야하는데요 N/A, NULL, NaN등 다양하게 표현되며 파이썬에서는 NaN로 표시됩니다 1. 결측치 확인하기 df.info( ) -> 각 변수의 수, 데이터 유형 확인 / Rangeindex와 각 변수의 개수를 통해 결측치 개수 파악 df.isnull( ).sum( ) -> 각 변수마다 결측치 개수 확 2. 결측치 처리하기 -> 결측치를 처리하는 방법에는 그냥 삭제하는 방법과 다른 값으로 대체하는 2가지 방법이 있습니다 # 데이터 결..
오늘은 저번 데이터프레임 변형에 이어서 정형 데이터분석에서 주로 사용되는 데이터 프레임 병합입니다 데이터 전처리단계에서 데이터 병합이 필요한 경우가 많은데요 2가지 이상의 데이터 프레임을 병합하는 방법에 대해 알아보겠습니다! 1. concat 활용 2. merge/ join 활용 1. concat 활용 concat함수는 판다스에서 데이터프레임 병합시 사용하는데요 concatenate(사슬같이 잇다)의 약자 속성이 동일한 데이터프레임 병합시 주로 활용 1) 칼럼명 동일한 경우 pd.concat([df1, df2], ignore_index=False, axis =1) ignore_index -> False : 기존 index유지(default) / True : 기존 index무시(index재배열) axis ..