목록전체 글 (127)
Hippo's data

"한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다." 오늘은 한빛미디어에서 발간한 '만만한 자소서' 책 서평을 작성해보겠습니다!!저는 AI나 IT관련 서적들을 위주로 책을 읽어서 이런 류?의 책 리뷰는 처음인데욥 이제 졸업을 슬슬 앞둔 4학년 이기두 하고 그동안 여러군데 인턴지원시에 뼈아픈 패배를 경험했던지라,,,, 자소서에 대해 조금은 친숙해져보자?라는 다짐으로 해당 책을 선정하게 되었습니다! # 책 구성PART 01 지피지기면 백전백승 나를 이해하기 PART 02 지피지기면 백전백승 지원 기업 이해하기 PART 03 한 번 익히면 평생 써먹는 취업 서류별 특징 및 작성법 PART 04 워밍업 자소서 작성의 기본기 다지기 PART 05 실전 자소서 7대 주요 항목 마스터하기 PAR..

"한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다." 오늘은 한빛미디어에서 발간한 '파이썬으로 웹 크롤러 만들기(3판)' 책 서평을 작성해보겠습니다!! # 웹 크롤링(crawling)? 웹 스크래핑(Scraping)? 웹 크롤링(crawling), 웹 스크래핑(Scraping) 두 용어 모두 웹 상에서 데이터를 수집하는 것을 의미하는데요의미적으로는 약간의 차이를 보입니다 웹 크롤링(crawling)은 더 넓은 범위에서 대량의 데이터를 수집하는 것을 의미하며웹 스크래핑(Scraping)은 좁은 법위에서 특정한 데이터를 좀 더 정확하고 구조화된 형식으로 수집하는 것을 의미합니다 # 웹 스크래핑(Scraping)이 중요한 이유?데이터 분석, 모델링 작업시에는 요리할 재료 즉, 학습 or 분..

오늘은 RAG(Retrieval-Augmented Generation)에 대해 간단히 알아보겠습니다!!최근에 "나는 데이터로 축구한다(LLM과 RAG 기술 활용편)"을 주제로 한동대학교 축구 빅데이터캠프에 갔다왔는데욥RAG가 뭔지, 왜 핫한지 알아보고 해커톤을 통해 RAG를 이용하여 간단한 서비스도 구현해보았습니다 RAG는 간단하게 말해서 chat gpt와 같은 LLM(Large Language Models)의 이슈를 해결하기 위한 방법으로 핫하게 등장한 기술인데요 그렇다면 chat gpt와 같은 LLM(Large Language Models)에는 어떤 문제점들이 있는지 알아봅시다! # LLM 문제점1. Hallucination 할루시네이션(환각증상)-> 실제로 존재하지 않는 정보를 사실인것 처럼 제시하..

"한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다." 오늘은 한빛미디어에서 발간한 '로우코드 AI' 책 서평을 작성해보겠습니다!!이 책을 소개하기에 앞서 먼저 로우코드(Low - Code)가 무엇인지부터 알아봅시다! # 로우코드(Low - Code)란?머신러닝을 이용한 서비스를 구현을 위한 ML 파이프라인을 구축할 시에 다양한 방법을 이용할 수 있습니다크게 노코드(No - code) , 로우코드(Low - Code) , 커스텀 코드(Custom - Code) 방식으로 구분할 수 있는데욥! 1. 노코드(No - code)는 말 그대로 코드를 사용하지 않고 모델을 자동으로 구축하고 학습하는 것입니다코드에 익숙하지 않은 사람도 코드를 전혀 작성하지 않고 GUI(그래픽 사용자 인터페이스) ..

해당 포스팅은 김성범 교수님의 ARIMA 모델 개요 - Part 2 강의를 기반으로 작성되었습니다!https://www.youtube.com/watch?v=P_3808Xv76Q # Box-Jenkins ARIMA Procedure1. Data Preprocessing - 데이터 전처리 2. Identification ARIMA Model - 시범 모델 선택 3. Estimation Parameters - 파라미터 추정 4. Diagnosis Check- Performance Evaluation 모델 진단 5. Forecasting - 최종모델 예측 # 1. Data Preprocessing - 데이터 전처리ACF(Autocorrelation Function) plot → stationary 정상..

해당 포스팅은 김성범 교수님의 ARIMA 모델 개요 - Part 1 강의를 기반으로 작성되었습니다!https://www.youtube.com/watch?v=ma_L2YRWMHI -> AR,MA,ARMA 모델 구현 위해 데이터가 stationary 해야함 그렇다면 stationary / Nonestationary 란 무엇일까?# Stationary Process(정상 프로세스)→ 안정되어 있는 상태→ 시간에 관계없이 평균과 분산이 일정한 시계열 데이터 → 시간이 지나도 통계적 특성(평균, 분산, 자기상관관계)이 변하지 않음 # Nonestationary Process (비정상 프로세스) 즉, 데이터가 정상성 만족하지 않음= 시간에 따라 데이터 속성이 변함= 모델의 매개변수가 변함= 각 시점마다 계..

해당 포스팅은 김성범 교수님의 Time Series Regression 강의를 기반으로 작성되었습니다!Time Series Regression - Part 1 / 2 /3https://www.youtube.com/watch?v=7Do_hixXCpchttps://www.youtube.com/watch?v=pxG4ZlHJ570https://www.youtube.com/watch?v=5QnR4L3KGz4 # 시계열 데이터란? (Time series Data) 시간의 흐름에 따라 얻어진 데이터단위 -> 일,월,달,분기 (Daily, Monthly, Quarterly, Yearly) 등예) 시간에 따른 제품 판매량/실업자 수/서울시 오염정도 등 # 시계열 데이터 구성요소 1. 추세 변동 Trend 2. 순환 ..
오늘은 다운캐스팅(Downcasting)에 대해 알아보겠습니다!데이터를 불러와서 모델링을 하다보면 데이터가 너무 커서 속도가 너무 오래걸리거나, 메모리 초과(OOM: out-of-memory) 오류가 발생하는 경우가 종종 있는데욥! 이를 해결하기 위해 데이터 사이즈를 줄이는 다운캐스팅(Downcasting) 방법을 이용할 수 있습니다!! 파이썬(Python)에서는 정수, 부동소수점 변수 저장시 메모리에서 차지하는 바이트에 기반하여 데이터 타입을 선택하게되는데욥 데이터 값을 손상시키지 않으면서 각 변수를 저장하는 가장 용량이 적은(메모리를 적게 사용하는) 데이터 타입으로 저장하여 데이터의 총 사이즈를 줄일 수 있습니다. 즉, 무손실 압축(lossless compression)이 가능합니다! 예) int64..