목록분류 전체보기 (125)
Hippo's data

오늘은 생성형 AI 사피엔스라는 책에 대해 리뷰해 보겠다 하하하 리뷰라기엔 거창하지만 그냥 읽고 난 후 느낌? 생각들?을 써보려 한다 책을 진짜 오랜만에 읽는다 이번 학기에 휴학하고 프로젝트를 진행하면서 너무 바쁘게 달려왔다 드디어 프로젝트가 거의 끝나고 이럴 때 아니면 언제 읽겠냐... 라는 생각에 책을 읽어보았따 이 책은 생성형 AI에 대한 기술적인 측면에 대한 내용이라기 보다는 어떻게 활용되며 쓰이고 있고 전망에 대해 소개하는 책이다. 휴학하고 인공지능 관련 프로젝트를 진행하면서 '생성형 AI'라는 단어에 대해 많이 들어봤지만 무엇을 의미하는지 정확히 모르고 있었다 특히 이 책의 부제는 ' 챗GPT가 앞당긴 인류의 미래'인데 프로젝트 중에 Chat GPT 유료결제까지 하며 정말 많은 부분에서 의존했..
오늘은 저번 데이터프레임 조회 및 추출에 이어서 정형 데이터분석에서 주로 사용되는 데이터 프레임 변형의 3가지 방법에 대해 알아보겠습니다! 데이터분석을 할 때 데이터의 행,열 구조를 변형해야 하는 경우가 많은데요 이 경우 주로 활용되는 방법이 groupby(그룹화), pivot, stack 입니다 1. groupby(그룹화) -> 같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기위해 사용 -> groupby 결과는 딕셔너리 형태 data_sex = data.groupby('sex') data_sex.groups -> groups이하여 그룹 속성 살펴볼 수 있음 {'F': [0, 2, 3, 5, 7, 9, 12, 13, 14, ...], 'M': [4, 6, 8, 11, 15, 18, 22, 23, 27..
오늘은 정형 데이터분석에서 주로 사용되는 데이터 프레임 형식 다루기에 대해 정리해보겠습니다 데이터프레임(DataFrame)이란? ->2차원의 행(col), 열(row)의 테이블 구조를 가진 자료형 보통 테이블 형태의 파일은 데이터프레임형식으로 파일을 읽는데요 파일 읽고 데이터프레임 생성 data = pd.read_csv('경로') 파라미터 - sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 - index_col : index로 사용할 column 설정 - usecols : 실제로 dataframe에 로딩할 columns만 설정 (usecols은 index_col을 포함해야 함) # 함수에 커서올리고 shift+tab을 누르면 해당 함수의 parameter 볼 수 있음 - head..
오늘은 기초적인 Python 문법에 대해 다뤄보겠습니다 우연한 기회로 KT에서 주관하는 AI능력시험인 AICE associate 자격증 시험을 볼 기회가 주어져서 공부하던 중에 데이터 분석과 관련된 파이썬 기초 문법들에 대해 다시 정리해 보았습니다 ( AICE 시험에 대해서도 나중에 따로 정리해 보겠습니다 ㅎㅎㅎ) # 파이썬에서 자리수 숫자는 0부터시작!! # 뒷 자리수는 -1부터 시작!! x = "My blog name is Hippo's data" - 인덱싱(Indexing) 사전적의미: 무언가를 가리킨다 형태 => x[뽑을 자리번호] x[0] -> 'M' x[-1] -> 'a' - 슬라이싱(Slicing) 사전적 의미: 무언가를 잘라낸 형태 => x[시작번호 : 끝번호] # 뒷번호는 포함하지 않음(..

오늘도 저번에 이어서 Pandas라이브러리인데요 책 부록을 참고하여 판다스 Pandas에서 유용하게 쓰이는 공식들을 알아보겠습니다 목차 A. 데이터 만들기 B. 데이터 정렬하기 C. 행 추출하기 D. 열 추출하기 E. 행과 열 추출하기 F. 중복 데이터 다루기 G. 데이터 파악하기 H. 결측치 다루기 I. 새로운 열 만들기 J. 행과 열의 변환 K. 시리즈 데이터 연결하기 L. 데이터 프레임 연결하기 M. 데이터 병합하기 N. 데이터 가공하기 O. 그룹별로 집계하기 loc, iloc -> 행과 관련된 [ ] -> 열 추출 번외) 데이터 프레임 생성시 주의 # 각각 열이름 지정시 -> 열방향으로 입력됨 df = pd.DataFrame( {"a": [1,2,3], "b":[4,5,6], "c":[7,8,9]..

오늘의 포스팅은 판다스Pandas 라이브러리입니다!! pandas는 python data analysis library 약자인데요 판다스... 판다 아니고 데이터분석을 위한 파이썬 라이브러리 입니다 데이터를 분석하기위해 데이터 구조를 쉽게 변형시키기 때문에 머신러닝이나 딥러닝분야를 공부하면 필수로 알아야하는 라이브러리 입니다 오늘은 책 부록을 참고하여 많이 사용하는 판다스 공식들을 알아보겠습니다 목차 A. 데이터 만들기 B. 데이터 정렬하기 C. 행 추출하기 D. 열 추출하기 E. 행과 열 추출하기 F. 중복 데이터 다루기 G. 데이터 파악하기 H. 결측치 다루기 I. 새로운 열 만들기 J. 행과 열의 변환 K. 시리즈 데이터 연결하기 L. 데이터 프레임 연결하기 M. 데이터 병합하기 N. 데이터 가공하..
오늘은 지도학습의 분류모델 중 나이브베이즈 분류기에 대해 알아보겠습니다 # 나이브 베이즈 분류기 Naive bayes classifier -> 베이즈 정리 기반 - 사전확률을 통한 사후확률 예측 특성간 독립적 가정 - 나이브한naive (소박한) 가정을 통해 복잡한 문제해결에 좋은 성능 발휘 단점) feature간 독립적이어야함 = feature간 상관관계 없음 -> 선형 분류기LogisticRegression, LinearSVC - Linear support vector classifier) 보다 훈련속도빠름 but 일반화 성능 bad -> 선형모델로 학습시간이 오래걸리는 큰 데이터셋에 나이브베이즈 모델 시도해보자!! -> scikit-learn에 구현되어있는 나이브베이즈 분류기 3개 -> Gaussi..

오늘은 저번에 이어서 지도학습 중 선형모델에 대해 알아보겠습니다 저번에는 회귀방식의 선형모델을 알아보았는데요 이번에는 분류 방식의 선형모델 실습을 해보도록 하겠습니다 분류용 선형모델은 이진분류Binary Classification와 다중분류Multiclass Classification로 구분할 수 있습니다 -> 임계치 0과 비교하여 방정식 값이 0보다 작으면 -1 / 크면 +1로 예측 대중적인 알고리즘 -> 로지스틱회귀 logistic regression / linear_model.LogisticRegression에 구현됨 -> 서포트 벡터 머신 support vector machine / svm.LinearSVC에 구현됨 *** 주의) 로지스틱회귀 logistic regression -> 회귀 regr..