목록전체 글 (127)
Hippo's data

오늘은 데이터 전처리 단계에서 사용하는 결측치를 처리하는 방법에 대해 알아보겠습니다!! # 결측치(Missing value)란? 결측치란 말 그래도 비어있는 값인데요 데이터수집시 누락되거나 유실되는 등 다양한 원인에 의해 생겨납니다 특히 결측치는 데이터 분석시 반드시 처리해야하는데요 N/A, NULL, NaN등 다양하게 표현되며 파이썬에서는 NaN로 표시됩니다 1. 결측치 확인하기 df.info( ) -> 각 변수의 수, 데이터 유형 확인 / Rangeindex와 각 변수의 개수를 통해 결측치 개수 파악 df.isnull( ).sum( ) -> 각 변수마다 결측치 개수 확 2. 결측치 처리하기 -> 결측치를 처리하는 방법에는 그냥 삭제하는 방법과 다른 값으로 대체하는 2가지 방법이 있습니다 # 데이터 결..
오늘은 저번 데이터프레임 변형에 이어서 정형 데이터분석에서 주로 사용되는 데이터 프레임 병합입니다 데이터 전처리단계에서 데이터 병합이 필요한 경우가 많은데요 2가지 이상의 데이터 프레임을 병합하는 방법에 대해 알아보겠습니다! 1. concat 활용 2. merge/ join 활용 1. concat 활용 concat함수는 판다스에서 데이터프레임 병합시 사용하는데요 concatenate(사슬같이 잇다)의 약자 속성이 동일한 데이터프레임 병합시 주로 활용 1) 칼럼명 동일한 경우 pd.concat([df1, df2], ignore_index=False, axis =1) ignore_index -> False : 기존 index유지(default) / True : 기존 index무시(index재배열) axis ..

오늘은 생성형 AI 사피엔스라는 책에 대해 리뷰해 보겠다 하하하 리뷰라기엔 거창하지만 그냥 읽고 난 후 느낌? 생각들?을 써보려 한다 책을 진짜 오랜만에 읽는다 이번 학기에 휴학하고 프로젝트를 진행하면서 너무 바쁘게 달려왔다 드디어 프로젝트가 거의 끝나고 이럴 때 아니면 언제 읽겠냐... 라는 생각에 책을 읽어보았따 이 책은 생성형 AI에 대한 기술적인 측면에 대한 내용이라기 보다는 어떻게 활용되며 쓰이고 있고 전망에 대해 소개하는 책이다. 휴학하고 인공지능 관련 프로젝트를 진행하면서 '생성형 AI'라는 단어에 대해 많이 들어봤지만 무엇을 의미하는지 정확히 모르고 있었다 특히 이 책의 부제는 ' 챗GPT가 앞당긴 인류의 미래'인데 프로젝트 중에 Chat GPT 유료결제까지 하며 정말 많은 부분에서 의존했..
오늘은 저번 데이터프레임 조회 및 추출에 이어서 정형 데이터분석에서 주로 사용되는 데이터 프레임 변형의 3가지 방법에 대해 알아보겠습니다! 데이터분석을 할 때 데이터의 행,열 구조를 변형해야 하는 경우가 많은데요 이 경우 주로 활용되는 방법이 groupby(그룹화), pivot, stack 입니다 1. groupby(그룹화) -> 같은 값을 하나로 묶어 통계 또는 집계 결과를 얻기위해 사용 -> groupby 결과는 딕셔너리 형태 data_sex = data.groupby('sex') data_sex.groups -> groups이하여 그룹 속성 살펴볼 수 있음 {'F': [0, 2, 3, 5, 7, 9, 12, 13, 14, ...], 'M': [4, 6, 8, 11, 15, 18, 22, 23, 27..
오늘은 정형 데이터분석에서 주로 사용되는 데이터 프레임 형식 다루기에 대해 정리해보겠습니다 데이터프레임(DataFrame)이란? ->2차원의 행(col), 열(row)의 테이블 구조를 가진 자료형 보통 테이블 형태의 파일은 데이터프레임형식으로 파일을 읽는데요 파일 읽고 데이터프레임 생성 data = pd.read_csv('경로') 파라미터 - sep - 각 데이터 값을 구별하기 위한 구분자(separator) 설정 - index_col : index로 사용할 column 설정 - usecols : 실제로 dataframe에 로딩할 columns만 설정 (usecols은 index_col을 포함해야 함) # 함수에 커서올리고 shift+tab을 누르면 해당 함수의 parameter 볼 수 있음 - head..
오늘은 기초적인 Python 문법에 대해 다뤄보겠습니다 우연한 기회로 KT에서 주관하는 AI능력시험인 AICE associate 자격증 시험을 볼 기회가 주어져서 공부하던 중에 데이터 분석과 관련된 파이썬 기초 문법들에 대해 다시 정리해 보았습니다 ( AICE 시험에 대해서도 나중에 따로 정리해 보겠습니다 ㅎㅎㅎ) # 파이썬에서 자리수 숫자는 0부터시작!! # 뒷 자리수는 -1부터 시작!! x = "My blog name is Hippo's data" - 인덱싱(Indexing) 사전적의미: 무언가를 가리킨다 형태 => x[뽑을 자리번호] x[0] -> 'M' x[-1] -> 'a' - 슬라이싱(Slicing) 사전적 의미: 무언가를 잘라낸 형태 => x[시작번호 : 끝번호] # 뒷번호는 포함하지 않음(..

오늘도 저번에 이어서 Pandas라이브러리인데요 책 부록을 참고하여 판다스 Pandas에서 유용하게 쓰이는 공식들을 알아보겠습니다 목차 A. 데이터 만들기 B. 데이터 정렬하기 C. 행 추출하기 D. 열 추출하기 E. 행과 열 추출하기 F. 중복 데이터 다루기 G. 데이터 파악하기 H. 결측치 다루기 I. 새로운 열 만들기 J. 행과 열의 변환 K. 시리즈 데이터 연결하기 L. 데이터 프레임 연결하기 M. 데이터 병합하기 N. 데이터 가공하기 O. 그룹별로 집계하기 loc, iloc -> 행과 관련된 [ ] -> 열 추출 번외) 데이터 프레임 생성시 주의 # 각각 열이름 지정시 -> 열방향으로 입력됨 df = pd.DataFrame( {"a": [1,2,3], "b":[4,5,6], "c":[7,8,9]..

오늘의 포스팅은 판다스Pandas 라이브러리입니다!! pandas는 python data analysis library 약자인데요 판다스... 판다 아니고 데이터분석을 위한 파이썬 라이브러리 입니다 데이터를 분석하기위해 데이터 구조를 쉽게 변형시키기 때문에 머신러닝이나 딥러닝분야를 공부하면 필수로 알아야하는 라이브러리 입니다 오늘은 책 부록을 참고하여 많이 사용하는 판다스 공식들을 알아보겠습니다 목차 A. 데이터 만들기 B. 데이터 정렬하기 C. 행 추출하기 D. 열 추출하기 E. 행과 열 추출하기 F. 중복 데이터 다루기 G. 데이터 파악하기 H. 결측치 다루기 I. 새로운 열 만들기 J. 행과 열의 변환 K. 시리즈 데이터 연결하기 L. 데이터 프레임 연결하기 M. 데이터 병합하기 N. 데이터 가공하..