Hippo's data
[혼공머신] 5주차 본문
Chapter 06 비지도 학습
06-1 군집 알고리즘
06-2 k-평균
06-3 주성분 분석
기본 미션
k-평균 알고리즘 작동 방식 설명하기
-> 무작위의 K개 클러스터 중심 설정 -> 각 데이터마다 가까운 클러스터 중심과 매칭하여 클러스터 생성
-> 클러스터마다 평균 등의 연산을 통해 중심 재정의 -> 이 과정 반복 후 최종적으로 중심변화 없을 경우 확정
선택 미션
Ch.06(06-3) 확인 문제 풀고, 풀이 과정 정리하기
1. 특성이 20개인 대량의 데이터셋이 있습니다. 이 데이터셋에서 찾을 수 있는 주성분 개수는 몇개일까요?
-> 10개 / 20개 / 50개 / 100개
답: 10개 - 주성분을 찾는 목적인 특성 감소에 해당하는 값은 10개뿐이기 때문
2. 샘플 개수가 1000개이고 특성 개수가 100개인 데이터셋이 있습니다. 즉 이 데이터셋의 크기는 (1000, 100)입니다. 이 데이터를 사이킷런의 PCA 클래스를 사용해 10개의 주성분을 찾아 변환했습니다. 변환된 데이터셋의 크기는 얼마일까요?
-> (1000,10) / (10, 1000) / (10, 10) / (1000, 1000)
답: (1000,10) - 주성분10를 찾아 변환할 시 샘플의 개수는 변하지 않고 10개의 특성개수로만 감소하기 때문
3. 2번 문제에서 설명된 분산이 가장 큰 주성분은 몇 번째인가요?
-> 첫번째 주성분 / 다섯번째 주성분 / 열번째 주성분 / 알수없음
답: 첫번째 주성분 - 주성분분석은 분산을 최대한으로 유지하며 순서대로 선택되므로 첫번째 주성분이 가장 설명된 분산이 크게됨
주성분 분석 참고)
'ML(Machine Learning) > 책: 혼자 공부하는 머신러닝+딥러닝(박해선)' 카테고리의 다른 글
[혼공머신] 6주차 (3) | 2024.02.05 |
---|---|
[혼공머신] 4주차 (0) | 2024.01.22 |
[혼공머신] 3주차 (0) | 2024.01.17 |
[혼공머신] 2주차 (0) | 2024.01.11 |
[혼공머신] 1주차 (2) | 2024.01.04 |