목록ML(Machine Learning) (25)
Hippo's data

데이터분석의 대표 플랫폼인 캐글에서 인플루언서분들의 코드를 보다보면 optuna를 이용하여 하이퍼파라미터 튜닝을 하는 것을 종종 볼 수 있는데욥 오늘은 하이퍼파라미터(Hyperparameter) 튜닝 방법 중 하나인 optuna에 대해 알아보겠습니다! # 하이퍼파라미터란? 먼저 optuna에 대해 알아보기 전에 하이퍼파라미터에 대해 알아보겠습니다 하이퍼파라미터란 사용자가 직접 설정하는 값으로 직접 모델의 학습방식을 조절할 수 있습니다 쉬운 예시로 경사 하강법에서의 학습률(learning rate) , epoch 에포크 수, k-NN(k 최근접 이웃) 모델의 k값 등이 있는데욥 이러한 하이퍼파라미터를 조절하며 사용자는 모델의 성능을 올릴 수 있습니다! 하이퍼파라미터를 조절하는 것을 하이퍼파라미터(Hyper..

회고 드디어 마지막 주차다 후후후 지난 6주동안 혼공단 스터디를 진행하면서 확실히 나는 뭔가를 걸어놔야 하는구나....란걸 깨달았다 그래도 매주 커리큘럼이 있기때문에 꾸준히 할 수 있었던 거 같답 더군다나 간식도 보내주시구 응원댓글까지 달아주시며 관리해주시니 너무 좋은 활동이었다 (이거 웨 안훼??? 😊) 스터디를 통해서 그동안 뭔가 뇌 이곳저곳을 떠돌던 개념들이 제자리를 찾았고 깔끔하게 정리할 수 있었다 Chapter 07 딥러닝을 시작합니다 07-1 인공 신경망 07-2 심층 신경망 07-3 신경망 모델 훈련 기본 미션 Ch.07(07-1) 확인 문제 풀고, 풀이 과정 정리하기 1.어떤 인공신경망의 입력 특성이 100개이고 밀집층에 있는 뉴런의 갯수가 10개일 때 필요한 모델 파라미터의 개수는 몇 개..

Chapter 06 비지도 학습 06-1 군집 알고리즘 06-2 k-평균 06-3 주성분 분석 기본 미션 k-평균 알고리즘 작동 방식 설명하기 -> 무작위의 K개 클러스터 중심 설정 -> 각 데이터마다 가까운 클러스터 중심과 매칭하여 클러스터 생성 -> 클러스터마다 평균 등의 연산을 통해 중심 재정의 -> 이 과정 반복 후 최종적으로 중심변화 없을 경우 확정 선택 미션 Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기 1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇개일까요? -> 10개 / 20개 / 50개 / 100개 답: 10개 - 주성분을 찾는 목적인 특성 감소에 해당하는 값은 10개뿐이기 때문 2. 샘플 개수가 1000개이고 특성 개수가 ..

Chapter 05 트리 알고리즘 05-1 결정 트리 05-2 교차 검증과 그리드 서치 05-3 트리의 앙상블 기본 미션 교차 검증을 그림으로 설명하기 선택 미션 Ch.05(05-3) 앙상블 모델 손코딩 코랩 화면 인증하기

오늘은 지난번 PCA(Principal Component Analysis) 주성분 분석에 이어 또 다른 차원축소 방법인 t-SNE(t- distributed Stochastic Neighbor Embedding) t-분포 확률적 이웃 임베딩에 대해 알아보겠습니다!! 차원축소 방법에는 여러가지가 존재하는데요 지난번 알아본 PCA는 선형 변환을 통해 차원을 축소하는 방법이고 t-SNE은 비선형적인 방법을 이용한 차원축소 입니다!!! 특히 고차원의 데이터를 낮은 차원(주로 2차원이나 3차원)으로 시각화하기 위해 사용되는 기법인데요 데이터 시각화나 데이터 구조 이해에 사용됩니다!! 원리는 쉽게 설명하면 고차원에서도 먼 데이터를 저차원에서도 멀게 유지하면서 차원의 크기를 줄이는 것인데요 특히 이름에서도 알 수 있..

Chapter 04 다양한 분류 알고리즘 04-1 로지스틱 회귀 04-2 확률적 경사 하강법 기본 미션 Ch.04(04-1) 2번 문제 풀고, 풀이 과정 설명하기 -> 로지스틱 회귀가 이진 분류에서 확률을 출력하기 위해 사용하는 함수는 무엇인가요? 1) 시그모이드 함수 -> 이지분류에서 사용 (0,1) 범위의 값으로 출력함 2) 소프트맥스 함수 -> 다중분류에서 사용 3) 로그 함수 4) 지수 함수 선택 미션 Ch.04(04-2) 과대적합/과소적합 손코딩 코랩 화면 캡처하기

오늘은 PCA(Principal Component Analysis) 주성분 분석에 대해 알아보겠습니다!! 주성분 분석은 데이터의 차원을 줄이는(차원축소) 방법인데요 데이터의 분산을 최대한으로 유지하는 것이 포인트입니다 # 왜 분산을 최대한으로 유지해야하는가? -> 우리의 목적은 정보의 손실을 최대한 줄이면서 차원을 축소하는 것 -> 데이터들이 많이 흩어져 있어야 차원을 줄일때(투영, projection) 겹치는 부분이 적어짐 -> 겹치는 부분인 적으면 그만큼 정보의 손실을 방지할 수 있음 # 사용목적? 1. 시각화 -> 데이터가 3차원 이상의 데이터는 한 눈에 시각화 하기 어려우므로 차원 축소를 통해 시각화에 활용하기 위함 2. 노이즈 줄이기 -> 쓸모없는 특성들을 없애서 노이즈를 줄이기 위함 3. 전처..

모델의 성능을 향상하는 방법은 여러가지가 있습니다 학습데이터를 깔끔하게 정제/전처리하거나 중요한 변수들을 선택(Feature selection)하는 등 다양한 방법이 있는데요 그중 오늘은 모델의 하이퍼파라미터를 조정하는 방법에 대해 알아보겠습니다!!! # 하이퍼파라미터(Hyperparameter)란? 사용자가 직접 모델 학습방식을 조절하는 것을 뜻하는데요 의사결정나무(Decision tree)의 최대 깊이(max depth)를 설정하거나 딥러닝 모델의 학습률(learning rate), epoch 에포크 수를 지정하는 것들이 이에 해당합니다 # 파라미터(parameter)란? 반면) 파라미터는 데이터로부터 자동적으로 결정되는 값을 의미하는데요 회귀 모델 계수(가중치) / 절편, 딥러닝 모델에서의 가중치가..