Recent Posts
Recent Comments
Link
Today
Total
02-13 19:53
관리 메뉴

Hippo's data

[시계열 분석] ARIMA Procedure, SARIMA 본문

Time Series Analysis (시계열 분석)

[시계열 분석] ARIMA Procedure, SARIMA

Hippo's data 2025. 2. 13. 14:24
728x90

해당 포스팅은 김성범 교수님의 ARIMA 모델 개요 - Part 2 강의를 기반으로 작성되었습니다!

https://www.youtube.com/watch?v=P_3808Xv76Q

 

# Box-Jenkins ARIMA Procedure


1. Data Preprocessing - 데이터 전처리

2. Identification ARIMA Model - 시범 모델 선택

3. Estimation Parameters - 파라미터 추정

4. Diagnosis Check- Performance Evaluation 모델 진단

5. Forecasting - 최종모델 예측

 

 

# 1. Data Preprocessing - 데이터 전처리

ACF(Autocorrelation Function) plot → stationary 정상성 확인

Nonestationary → stationary 변형

-> Transformation( 데이터 변환) or Differencing(차분)

 

-> stationary 정상성 확인방법 

https://hipposdata.tistory.com/127

 

[시계열 분석] ARIMA Model

해당 포스팅은 김성범 교수님의 ARIMA 모델 개요 - Part 1 강의를 기반으로 작성되었습니다!https://www.youtube.com/watch?v=ma_L2YRWMHI  -> AR,MA,ARMA 모델 구현 위해 데이터가 stationary 해야함 그렇다면 stat

hipposdata.tistory.com

 

# 2. Identification ARIMA Model - 시범 모델 선택

Graphical method → 주관적인 방법

→ Autocorrelation Function(ACF) / Partial Autocorrelation Function(PACF) 패턴을 보고 선택

→ 어떤 모델을 사용할지, 차수 등

cut off (절단) → 확 떨어진 / Did out (소멸)→ 천천히 감소 , 지수적으로

 

ACF plot 예제)

→ plot해석 → q = 1 이후 0으로 확 떨어짐 → MA(1) model 시작

ARIMA(0,1,1) 시범모델 결정

 

 

# 3. Estimation Parameters - 파라미터 추정

선택한 모델과 다른 모델들 AIC 값 비교

graphical method의 주관적인 한계가 존재 → 다른 파라미터 모델들도 확인

 

### AIC (Akaike Information Criterion)

Akaike → 일본의 통계학자 **아카이케 히로츠구(Hirotugu Akaike)**의 이름에서 유래

AIC = 2k−2ln(L)

k → 모델의 추정된 파라미터 수 = 모델의 복잡성

L → 모델의 최대 우도(Likelihood) 값 = 모델의 적합도

k 크다 → 파라미터가 많다 = 모델이 복잡하다

L 크다 → 우도가 크다 = 관측된 데이터가 특정 모델에서 나올 가능성이 높다 = 해당 모델이 데이터를 잘 설명한다 = 모델 적합도가 크다

 

예) 최대우도추정법(MLE):

가정 ) 우도가 클수록 해당 파라미터가 데이터를 잘 설명 → 우도를 최대화하는 파라미터를 찾는 방법

 

→ k 작을수록, L 클수록 good

AIC값 작을수록 good

즉, AIC값 작음 = 높은 적합도, 낮은 복잡성 모델

 

 

# 4. Diagnosis Check- Performance Evaluation 모델 진단

residual (모델 예측값 y_hat - 실제값 y) →  ACF plot확인

→ bound 안에 40 중 2~3개 이하 넘어간경우 → good

### Upper, Lower bound → residual +- 3 sigma(분산) limit

 

잔차(residual)의 ACF plot → 40개의 lag 중 bound 밖으로 나가는 값이 2~3개 이하

최종 모델로 결정

즉, 여러 모델들의 p, d, q 조합 반복문을 통해 고려, AIC 등 평가 점수를 비교하여 최종 모델 결정

 

# 5. Forecasting - 최종모델 예측

결정된 최종모델 기반으로 최종 예측

 

 

# Seasonal ARIMA Model (SARIMA)

기존 ARIMA + Seasonal(계절 변동) = SARIMA

→ 각 계절에 따른 독립적인 ARIMA 모델이 합쳐진 모형

→ ARIMA(p,d,q)(P,D,Q)s → 계절성 주기 차수 s 추가됨

→ 파라미터 7개

예) s = 12 월별 / s = 4 분기별

 

728x90