목록ML(Machine Learning) (25)
Hippo's data

Chapter 03 회귀 알고리즘과 모델 규제 03-1 k-최근접 이웃 회귀 03-2 선형 회귀 03-3 특성 공학과 규제 기본 미션 Ch.03(03-1) 2번 문제 출력 그래프 인증하기 # k-최근접 이웃 회귀 객체를 만듭니다 knr = KNeighborsRegressor() # 5에서 45까지 x 좌표를 만듭니다 x = np.arange(5, 45).reshape(-1, 1) # n = 1, 5, 10일 때 예측 결과를 그래프로 그립니다. for n in [1, 5, 10]: # 모델 훈련 knr.n_neighbors = n knr.fit(train_input, train_target) # 지정한 범위 x에 대한 예측 구하기 prediction = knr.predict(x) # 훈련 세트와 예측 결과..

오늘은 앙상블 방법에 대해 알아보겠습니다! 앙상블(Ensemble)이란 여러 기본모델(base model)을 결합하여 새로운 모델(Ensemble model)을 생성하는 것입니다 여러 모델을 결합하므로 단일 모델에 비해 성능이 우수하며 편향과 분산을 고려하므로 과적합 방지에 용이합니다 그렇다면 모델을 결합하는 방법에 대해 알아보겠습니다! 1. 보팅(Voting) -> 여러 모델 결과를 기반으로 투표를 통해 결과 도출 하드 보팅(Hard Voting) -> 다수결 선택 소프트 보팅(Soft Voting) -> 각 모델 예측 확률값 평균으로 선택 2. 배깅(bagging) -> Bootstrap Aggregation의 약자 -> 복원 추출하여 병렬학습 1. 학습데이터를 복원추출하여 여러 샘플 데이터를 만듦 ..

오늘은 머신러닝에 쓰이는 주요 모델들의 모델링 방법에 대해 알아보겠습니다!!! 특히 머신러닝에서 유용하게 사용되는 라이브러리인 사이킷런(Scikit-learn)을 이용해보겠습니다 모델을 처음부터 구현하는 것은 굉장히 어려운 일인데요 사이킷런 라이브러리를 활용하면 간단한 코드 몇줄만으로 모델링을 진행할 수 있습니다! 모델링은 크게 4가지 단계로 구성되는데요 1) 불러오기 2) 모델 생성 3) 모델 학습 4) 예측 ### 모델링 이전 X(학습데이터)와 y(정답데이터)를 생성하고 train(학습), test(검증) 데이터셋을 생성하는 작업이 필요합니다!! y = df['타겟변수'] # 타겟변수(종속변수)가 존재하는 데이터 생성 X = df.drop('타겟변수' , axis = 1) # 타겟변수(종속변수)가 제..

오늘은 저번 분류(Classification)모델의 평가 방법에 이어 회귀(Regression) 모델 평가방법에 대해 알아보겠습니다 1. MAE (Mean Absolute Error) / 평균절대오차 -> 실제값과 예측값의 차이 즉, 오차가 작을 수록 좋은 모델 y = 실제값 ŷ = 예측값 n = 데이터 수 2. MSE (Mean Squared Error) / 평균제곱오차 -> 오차를 절대값이 아닌 제곱하여 더함 / MAE에 비해 제곱하므로 이상치(특이값)의 영향을 크게받음 y = 실제값 ŷ = 예측값 n = 데이터 수 3. RMSE (Root Mean Squared Error) / 평균제곱근오차 -> MSE에 루트를 씌움 / MSE가 이상치에 민감하므로 오차가 발생할 수록 값이 기하급수적으로 커짐, 루..

학습된 모델이 얼마나 뛰어난 성능을 보이는지 평가하는 방법인 모델평가 방식은 분류(Classification)모델인지, 회귀( Regression)모델인지에 따라 다른데요 오늘은 분류(Classification)모델의 평가방법에 대해 알아보겠습니다 1. 오차/혼동 행렬(Confusion matrix) - TP (True Positive): 실제 Positive , 예측 Positive -> 실제와 예측 동일 -> 정답(True) - FP (False Positive): 실제 Negative , 예측 Positive -> 실제와 예측 다름 -> 오답(False) - FN (False Negative): 실제 Positive , 예측 Negative -> 실제와 예측 다름 -> 오답(False) - TN (..

첫주차 학습에는 완전 기본기본기본적인 내용이라 수월하게 진행했따 기본 미션 코랩 실습 화면 캡처하기 선택 미션 문제: 머신러닝 알고리즘의 한 종류로서 샘플의 입력과 타깃(정답)을 알고 있을 때 사용할 수 있는 학습 방법은 무엇인가요? 1. 지도학습 2. 비지도학습 3. 차원축소 4. 강화학습 답: 1번 풀이: 비지도학습 -> 타깃(정답) 없음 차원축소 -> 높은 차원을 낮은 차원으로 데이터를 줄임 (비지도학습에 속함) 강화학습 -> 수행된 행동에 보상을 받으며 학습 / 머신러닝의 한 종류

혼공학 습단 11기ㅇㄹㅇ 작년 2학기에는 휴학 후 프로젝트 참여하며 바쁜 나날은 보냈었따 이제 프로젝트도 거의 끝났구 다음학기 복학을 준비하며 방학동안 알차게 보낼 방법은 없을까? 고민하던즁 프로젝트에 멘토로 도와주신 과장님께서 추천해주신 혼공학습단!! 책을 각자 구비한 후 커리큘럼에 맞춰 공부내용을 정리해서 올리면 된더랬다 마침 책도 둘러보니 군대에서 이미 한번 대충?? 공부했었던 '혼자공부하는 머신러닝+딥러닝' 책이었따 군대에서두 너무 좋은 책이라 쉽게 술술 읽이긴했더랬땨 그려... 놀면 뭐햐낭 복학전에 개념다시 제대류 잡고 가보쟝 그래두 기본 베이스는 있으니 쉽게 쉽게 해보려규한답 아자아자!!
데이터에는 다양한 칼럼으로 이루어진 변수들이 존재하는데요 어떠한 변수들을 모델학습에 사용하느냐에 따라서 모델의 성능이 달라지곤 합니다 이 경우 사용할 수 있는 변수 선택(Feature selection) 방법들을 소개해보겠습니다! 1. RFE (Recursive Feature Elimination) -> 변수중요도(예: 회귀 계수, 결정 트리에서의 Gini importance 등)를 기반으로 원하는 변수 수에 도달할 때까지 중요하지 않은 변수를 재귀적으로 제거 -> 재귀적이라는 단어가 왜 쓰였나? 전체 변수 학습 -> 변수 중요도 가장 낮은 변수 삭제 -> 남은 변수 학습 (원하는 변수 수까지 반복) # 선택된 최종 변수는 모델 예측에 가장 큰 영향을 주는 특성 / 점수 지표가 가장 높음 from skl..