목록ML(Machine Learning)/책: 파이썬 라이브러리를 활용한 머신러닝(2판) (5)
Hippo's data
오늘은 지도학습의 분류모델 중 나이브베이즈 분류기에 대해 알아보겠습니다 # 나이브 베이즈 분류기 Naive bayes classifier -> 베이즈 정리 기반 - 사전확률을 통한 사후확률 예측 특성간 독립적 가정 - 나이브한naive (소박한) 가정을 통해 복잡한 문제해결에 좋은 성능 발휘 단점) feature간 독립적이어야함 = feature간 상관관계 없음 -> 선형 분류기LogisticRegression, LinearSVC - Linear support vector classifier) 보다 훈련속도빠름 but 일반화 성능 bad -> 선형모델로 학습시간이 오래걸리는 큰 데이터셋에 나이브베이즈 모델 시도해보자!! -> scikit-learn에 구현되어있는 나이브베이즈 분류기 3개 -> Gaussi..
오늘은 저번에 이어서 지도학습 중 선형모델에 대해 알아보겠습니다 저번에는 회귀방식의 선형모델을 알아보았는데요 이번에는 분류 방식의 선형모델 실습을 해보도록 하겠습니다 분류용 선형모델은 이진분류Binary Classification와 다중분류Multiclass Classification로 구분할 수 있습니다 -> 임계치 0과 비교하여 방정식 값이 0보다 작으면 -1 / 크면 +1로 예측 대중적인 알고리즘 -> 로지스틱회귀 logistic regression / linear_model.LogisticRegression에 구현됨 -> 서포트 벡터 머신 support vector machine / svm.LinearSVC에 구현됨 *** 주의) 로지스틱회귀 logistic regression -> 회귀 regr..
오늘은 지도학습 중 선형모델(linear model)에 대해 알아보겠습니다 선형모델은 선형함수를 만들어 예측하는데요 회귀와 분류 두 방식 모두 이용가능합니다 그중 회귀 방식의 선형모델 실습을 해보도록 하겠습니다 y = wx + b 에서 y => 예측값 (맞출 타겟값 target) x => 각 입력특성들 (feature) w => 기울기 = 각 특성x의 가중치 b => y절편 w,b -> 모델이 학습할 파라미터 mglearn.plots.plot_linear_regression_wave() -> w[0]: 0.393906 b: -0.031804 -> wave데이터에서 학습한 선형회귀 모델의 파라미터값 -> 특성1개인 1차원 회귀 모델이므로 2차원 그래프에 표현됨 -> 특성2개 : 2차원 회귀모델(평면) ->..
이제부터 지도학습 알고리즘에 대해 알아보겠습니다 # 지도학습이란? -> 입력데이터를 통해 출력을 맞추는 것 맞추는 방식은 크게 2가지로 나뉘는데요 1. 분류 classifiaction 2. 회귀 regression # 분류classifiaction -> 여러 클래스 중 하나를 맞추는 것(예측하기) (이진binary 분류 - 두개 클래스로 분류 / 다중multicalss 분류 - 셋 이상의 클래스로 분류) 예) 스팸이메일 분류(Yes or No) / ch1의 붓꽃의 꽃잎, 꽃받침의 폭과 길이로 품종 예측 # 회귀 regression -> 연속적인 숫자(실수)를 맞추는 것 예) 교육수준, 나이, 거주지 등을 이용해 소득을 예측 # 일반화, 과대적합, 과소적합 훈련데이터를 통해 학습한 모델이 새로운 데이터도 ..
머신러닝 입문에서 자주 등장하는 '붓꽃 품종 분류'를 진행해보겠습니다 목적: 품종구분된 데이터로 새로 채집한 붓꽃 품종 예측하기(지도학습 & 분류classification) 클래스(class) - 붓꽃 종류(3개) :'setosa' 'versicolor' 'virginica' 특성(피쳐) (4개) : 'sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)' -> 붓꽃의 꽃잎(petal), 꽃받침(sepal)의 폭(width)과 길이(length) # 라이브러리 불러오기 & 버전확인 import sys print("Python 버전:", sys.version) import pandas as pd print("pandas..