목록분류 전체보기 (125)
Hippo's data

오늘은 RAG(Retrieval-Augmented Generation)에 대해 간단히 알아보겠습니다!!최근에 "나는 데이터로 축구한다(LLM과 RAG 기술 활용편)"을 주제로 한동대학교 축구 빅데이터캠프에 갔다왔는데욥RAG가 뭔지, 왜 핫한지 알아보고 해커톤을 통해 RAG를 이용하여 간단한 서비스도 구현해보았습니다 RAG는 간단하게 말해서 chat gpt와 같은 LLM(Large Language Models)의 이슈를 해결하기 위한 방법으로 핫하게 등장한 기술인데요 그렇다면 chat gpt와 같은 LLM(Large Language Models)에는 어떤 문제점들이 있는지 알아봅시다! # LLM 문제점1. Hallucination 할루시네이션(환각증상)-> 실제로 존재하지 않는 정보를 사실인것 처럼 제시하..

"한빛미디어 서평단 활동을 위해서 책을 협찬 받아 작성된 서평입니다." 오늘은 한빛미디어에서 발간한 '로우코드 AI' 책 서평을 작성해보겠습니다!!이 책을 소개하기에 앞서 먼저 로우코드(Low - Code)가 무엇인지부터 알아봅시다! # 로우코드(Low - Code)란?머신러닝을 이용한 서비스를 구현을 위한 ML 파이프라인을 구축할 시에 다양한 방법을 이용할 수 있습니다크게 노코드(No - code) , 로우코드(Low - Code) , 커스텀 코드(Custom - Code) 방식으로 구분할 수 있는데욥! 1. 노코드(No - code)는 말 그대로 코드를 사용하지 않고 모델을 자동으로 구축하고 학습하는 것입니다코드에 익숙하지 않은 사람도 코드를 전혀 작성하지 않고 GUI(그래픽 사용자 인터페이스) ..

해당 포스팅은 김성범 교수님의 ARIMA 모델 개요 - Part 2 강의를 기반으로 작성되었습니다!https://www.youtube.com/watch?v=P_3808Xv76Q # Box-Jenkins ARIMA Procedure1. Data Preprocessing - 데이터 전처리 2. Identification ARIMA Model - 시범 모델 선택 3. Estimation Parameters - 파라미터 추정 4. Diagnosis Check- Performance Evaluation 모델 진단 5. Forecasting - 최종모델 예측 # 1. Data Preprocessing - 데이터 전처리ACF(Autocorrelation Function) plot → stationary 정상..

해당 포스팅은 김성범 교수님의 ARIMA 모델 개요 - Part 1 강의를 기반으로 작성되었습니다!https://www.youtube.com/watch?v=ma_L2YRWMHI -> AR,MA,ARMA 모델 구현 위해 데이터가 stationary 해야함 그렇다면 stationary / Nonestationary 란 무엇일까?# Stationary Process(정상 프로세스)→ 안정되어 있는 상태→ 시간에 관계없이 평균과 분산이 일정한 시계열 데이터 → 시간이 지나도 통계적 특성(평균, 분산, 자기상관관계)이 변하지 않음 # Nonestationary Process (비정상 프로세스) 즉, 데이터가 정상성 만족하지 않음= 시간에 따라 데이터 속성이 변함= 모델의 매개변수가 변함= 각 시점마다 계..

해당 포스팅은 김성범 교수님의 Time Series Regression 강의를 기반으로 작성되었습니다!Time Series Regression - Part 1 / 2 /3https://www.youtube.com/watch?v=7Do_hixXCpchttps://www.youtube.com/watch?v=pxG4ZlHJ570https://www.youtube.com/watch?v=5QnR4L3KGz4 # 시계열 데이터란? (Time series Data) 시간의 흐름에 따라 얻어진 데이터단위 -> 일,월,달,분기 (Daily, Monthly, Quarterly, Yearly) 등예) 시간에 따른 제품 판매량/실업자 수/서울시 오염정도 등 # 시계열 데이터 구성요소 1. 추세 변동 Trend 2. 순환 ..
오늘은 다운캐스팅(Downcasting)에 대해 알아보겠습니다!데이터를 불러와서 모델링을 하다보면 데이터가 너무 커서 속도가 너무 오래걸리거나, 메모리 초과(OOM: out-of-memory) 오류가 발생하는 경우가 종종 있는데욥! 이를 해결하기 위해 데이터 사이즈를 줄이는 다운캐스팅(Downcasting) 방법을 이용할 수 있습니다!! 파이썬(Python)에서는 정수, 부동소수점 변수 저장시 메모리에서 차지하는 바이트에 기반하여 데이터 타입을 선택하게되는데욥 데이터 값을 손상시키지 않으면서 각 변수를 저장하는 가장 용량이 적은(메모리를 적게 사용하는) 데이터 타입으로 저장하여 데이터의 총 사이즈를 줄일 수 있습니다. 즉, 무손실 압축(lossless compression)이 가능합니다! 예) int64..

안녕하세욥 오늘은 EDA (Exploratory Data Analysis)를 도와주는 여러가지 라이브러리에 대해 소개해보겠씁니당! 항상 본격적인 데이터분석에 앞서 EDA가 진짜 중요하다고들 하는데욥 특히 캐글이나 데이콘과 같은 분석 대회에서도 상위권 유저들의 EDA를 통해 도출한 분석 및 모델링 전략들은 정말 대단하도라구요,,,, 그렇다면 EDA (Exploratory Data Analysis)가 무엇일까요?한국어로는 탐색적 데이터 분석이라고 하는데욥 단어 그대로 데이터를 탐색하는 과정이라고 할 수 있습니다!즉, 데이터를 시각화하거나 통계량을 통해서 분포, 관계를 파악하며 데이터가 어떻게 생겼는지 파악하는 단계라고 할 수 있는데요! 근데 처음에는 어떤 그래프를 그리고 어떤 통계량을 살펴볼지 잘 모르겠고..
오늘은 데이터분석, AI 연합동아리 (투빅스, 보아즈, 비타민) 지원후기를 올려보려고 합니당 저는 데이터, AI 분야에 흥미를 가진 후로 줄곧 혼자 공부해왔었는데욥 이번기회에 여러명이서 체계적으로 함께 공부하면 좋을 것 같아서 여러 활동, 스터디들을 찾아보다가 데이터, AI 분야 유명한 연합동아리들을 발견했는데욥 대표적으로 3개 (투빅스, 보아즈, 비타민)를 추릴 수 있었습니다!지원서는 돈드는거 아니라고,,,, 다다익선으로 다 지원을 해보았는데욥 이와 관련해서 지원서, 면접 후기를 남겨보려 합니답!!면접본지 꽤 지나가지구 확실히 기억나진 않지만 제 기억 저편의 조각들을 잘 조합해서 후기를 남겨보겠습니담 지원과정은 서류, 면접으로 동일했고 비타민 동아리만 코딩테스트가 추가로 있었습니답 비타민1차 서류1..