Recent Posts
Recent Comments
Link
Today
Total
01-14 08:42
관리 메뉴

Hippo's data

[혼공머신] 5주차 본문

ML(Machine Learning)/책: 혼자 공부하는 머신러닝+딥러닝(박해선)

[혼공머신] 5주차

Hippo's data 2024. 1. 30. 23:21
728x90

Chapter 06 비지도 학습

06-1 군집 알고리즘 
06-2 k-평균 
06-3 주성분 분석

 

기본 미션

k-평균 알고리즘 작동 방식 설명하기

-> 무작위의 K개 클러스터 중심 설정 -> 각 데이터마다 가까운 클러스터 중심과 매칭하여 클러스터 생성

-> 클러스터마다 평균 등의 연산을 통해 중심 재정의 -> 이 과정 반복 후 최종적으로 중심변화 없을 경우 확정

 

선택 미션

Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기

1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇개일까요? 

-> 10개 / 20개 / 50개 / 100개

답: 10개 - 주성분을 찾는 목적인 특성 감소에 해당하는 값은 10개뿐이기 때문

 

2. 샘플 개수가 1000개이고 특성 개수가 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?

-> (1000,10) / (10, 1000) / (10, 10) / (1000, 1000)

답: (1000,10) - 주성분10를 찾아 변환할 시 샘플의 개수는 변하지 않고 10개의 특성개수로만 감소하기 때문

 

3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?

-> 첫번째 주성분 / 다섯번째 주성분 / 열번째 주성분 / 알수없음

답: 첫번째 주성분  - 주성분분석은 분산을 최대한으로 유지하며 순서대로 선택되므로 첫번째 주성분이 가장 설명된 분산이 크게됨 

 

주성분 분석 참고)

https://hipposdata.tistory.com/48

 

PCA(Principal Component Analysis) 주성분 분석 구현

오늘은 PCA(Principal Component Analysis) 주성분 분석에 대해 알아보겠습니다!! 주성분 분석은 데이터의 차원을 줄이는(차원축소) 방법인데요 데이터의 분산을 최대한으로 유지하는 것이 포인트입니다

hipposdata.tistory.com

728x90

'ML(Machine Learning) > 책: 혼자 공부하는 머신러닝+딥러닝(박해선)' 카테고리의 다른 글

[혼공머신] 6주차  (3) 2024.02.05
[혼공머신] 4주차  (0) 2024.01.22
[혼공머신] 3주차  (0) 2024.01.17
[혼공머신] 2주차  (0) 2024.01.11
[혼공머신] 1주차  (2) 2024.01.04