Recent Posts
Recent Comments
Link
Today
Total
02-06 16:33
관리 메뉴

Hippo's data

[Paper review] iTransformer 본문

Paper review

[Paper review] iTransformer

Hippo's data 2026. 2. 4. 01:10
728x90

오늘은 iTransformer 모델이 제안된 논문을 리뷰해보도록 하겠습니다!

기존 시계열 예측(TSF) Transformer 기반 모델의 대다수 방식이었던 기존 시간축 단위 토큰화에서 변수축 단위토큰화해서 어텐션 계산을 시도한 논문입니다!

ITRANSFORMER

Paper: ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING (Yongliu Liu, Tengge Hu, Haixu Zhang, Haoran Wu, Shiyu Wang, Maobing Ma, Jianmin Wang, Mingsheng Long)

 

GitHub - thuml/iTransformer: Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Fore

Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Forecasting" (ICLR 2024 Spotlight) - thuml/iTransformer

github.com

 

 

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with

arxiv.org

 

ITRANSFORMER = Inverted + TRANSFORMER

Inverted → 뒤바꿈, 반전

→ 기존 TRANSFORMER의 어텐션 계산시간축 단위였다면, 변수축 단위뒤바꿈

1. SUMMARIZE

항목 핵심 내용
Problem 기존 트랜스포머의 '토큰화' 방식의 부적절함
→ 기존 모델은 동일 시점의 여러 변수(Multivariate)를 묶어 하나의 토큰으로 만듦
→ 서로 다른 의미를 가진 변수들이 뒤섞이게 하고, 변수 간 상관관계를 학습하기 어렵게 함
Motivation 시계열 데이터의 특성 재해석 (Inverted)
1. 독립적 변수 특성: 각 변수는 고유한 패턴을 가짐. 시점 단위가 아니라 '변수 단로 정보를 추출해야 함
2. 어텐션의 역할 재정의: 시간 순서에 따른 어텐션보다, 변수들 사이의 관계를 파악하는 어텐션이 다변량 예측에서 더 효과적일 것이라는 가설
Method Inverted Structure (구조 뒤바꿈)
Variable as Token: 각 변수의 전체 시계열 데이터(Look-back window) 자체를 하나의 토큰으로 임베딩함
Self-Attention: 변수 토큰들 간의 상호작용을 계산하여 변수 간 상관관계(Multivariate Correlation) 학습
Feed-Forward Network (FFN): 각 변수 토큰 내의 시간적 패턴(Temporal patches)은 FFN을 통해 개별적으로 인코딩
Results 다변량 시계열 데이터에서 좋은 성능
• DLinear가 강점을 보였던 데이터셋뿐만 아니라, 변수 간 복잡한 관계가 중요한 데이터셋에서 DLinear를 능가
• Look-back window가 길어질수록 성능이 지속적으로 향상 (기존 트랜스포머는 성능이 정체되거나 하락했음)
Contribution 트랜스포머 시계열 모델의 새로운 구조 제시
1. 구조 뒤바꿈 (inverted) 효과성: 복잡한 모듈 추가 없이, 데이터의 축(Time vs Variable)을 바꾸는 것만으로 트랜스포머의 한계를 극복
2. 범용성: 임베딩 방식만 바꾼 것이기에, 기존의 다양한 트랜스포머 변형 모델(Informer, Flowformer 등)에 즉시 적용 가능한 프레임워크 제공

 

2. DETAIL

1. Introduction

  • Transformer, iTransformer 시계열 데이터 처리방식 비교
    • Transformer
      • Time Step 기준 토큰, 특정 시점의 모든 변수하나의 토큰에 포함됨
        • 각 변수의 특징 학습 한계
        • 무의미한 어텐션 맵(meaningless attention maps)
      • 어텐션 → 시간 종속성(Temporal Dependencies) 파악 목적
      • FFN(Feed foward network): 혼합된 토큰에서 시계열 특징 학습
    • iTransformer
      • 변수(Variate) 기준 토큰, 총 토큰의 수는 변수 개수
      • 어텐션 → 변수간 상관관계(Multivariate Correlations) 파악 목적
      • FFN(Feed foward network): 각 변수별 시계열 특징 학습
  Transforme iTransformer (Inverted)
토큰의 의미 동일 시점의 변수 묶음 ($[v_1, v_2, \dots]$) 한 변수의 전체 시계열($[t_1, t_2, \dots, t_L]$)
어텐션 대상 시간(Time) 간의 상관관계 변수(Variate) 간의 상관관계
FFN의 입력 시점별 다변량 벡터 변수별 전체 시계열 벡터
FFN의 역할 변수 간 특징 추출 (Variate-Mixed) 시간적 패턴 추출 (Variate-Unmixed)

2. RELATED WORK

기존 Transformer 기반 시계열 예측 모델 분류

구성요소(어텐션, Feed-forward network 등), 아키텍처(Transformer 구조) 수정 여부에 따라 4가지 범주로 구분 (modify the component and architecture)

  • 구성요소(Component) 수정
    • Transformer를 구성하는 각각의 부품을 수정하는 것
    • 예) 기존 Attention을 효율적인 Sparse Attention으로 바꿈
  • 아키텍처 (Architecture) 수정
    • 기존 Transformer 구성 부품은 그대로, 부품을 조립하는 방식 변경
    • 예) iTransformer: 기존 Attention은 시간관계 파악, inverted → 각 변수관계 파악
  1. 구성요소 수정 O, 아키텍처 수정 X
    • 가장 일반적인 방식
    • 어텐션 자체 수정(Sparse Attention 등)
    • Autoformer, Informer
  2. 구성요소 수정 X, 아키텍처 수정 X
    • 추가적인 시계열 처리(Series Processing) 도입
      • Normalization, Patching 등
    • PatchTST, NSTransformer
  3. 구성요소 수정 O, 아키텍처 수정 O
    • Crossformer
  4. 구성요소 수정 X, 아키텍처 수정 O
    • iTransformer
      • 단치 각 구성요소 입력차원 inverted

3. ITRANSFORMER

  • historical observationsT : time steps
  • N : variates
  • $X = {x_1, \dots, x_T} \in \mathbb{R}^{T \times N}$
  • predict the futureS: time steps
  • N : variates
  • $Y = {x_{T+1}, \dots, x_{T+S}} \in \mathbb{R}^{S \times N}$

Xt,: 특정 시간 스텝 t에서 동시에 기록된 모든 N개 변수의 값

X:,n: n번째 변수의 전체 시계열

 

3.1 STRUCTURE OVERVIEW

  • iTransformer 전체 흐름

$\mathbf{h}_n^0$: n번째 변수의 전체 과거 시계열 X:,n*임베딩
*
$\mathbf{H}^l$
: $l$번째 트랜스포머 블록을 통과한 hidden state 행렬

$\hat{\mathbf{Y}}_{:,n}$: 번째 변수에 대한 최종 미래 예측값 (각 변수별로 미래 예측됨) / 최종적으로 선형레이어 통과(프로젝션)

  • iTransformer 세부 구조 - encoder-only

(a) Embedding

  • MLP(Multi-Layer Perceptron)
  • 각 변수별로 전체 시계열을 Token으로 임베딩

(b) Multivariate Attention

  • 각 변수별 임베딩된 토큰간 다변량 상관 관계(Multivariate Correlations) 포착

(c) Feed-forward Network(FFN)

  • 각 변수별 독립적으로 적용
  • 두 개의 선형 변환, 비선형 활성화 함수, 드롭아웃
  • 시계열 특징 포착

(d) Layer Normalization

  • 기존 Transformer: 각 시점 내에서 정규화
  • iTransformer: 각 변수의 전체 시계열(Token)에 대해 정규화
    • 비정상성(Non-stationarity) 해결에 도움

3.2 INVERTED TRANSFORMER COMPONENTS

Layer normalization

→ 각 변수에 대해 임베딩 (h_n)한 각 토큰을 독립적으로 평균이 0이고 분산이 1인 분포로 정규화

  • 비정상 문제(non-stationary problem) 해결 효과적
    • 비정상성(Non-stationarity): 시간에 따라 데이터 통계적 특성(평균, 분산)이 변함
  • 기존 Transformer vs iTransformer
    • 기존 Transformer
      • 특정 시점(timestamp)의 다변량(multivariate) 데이터를 임베딩 →각 시간 토큰에 대해 정규화
    • iTransformer
      • 각 변수(variate)의 전체 시계열을 임베딩 → 각 변수 토큰에 대해 정규화

Feed-forward network (FFN)

$FFN(x)=max(0,xW1​+b1​)W2​+b2​$

→ 간단한 MLP 구조, 비선형성 학습(Relu 구조)

Self-attention

  • 기존 attention
    • 한 시점의 여러변수를 한 토큰으로 묶어서 어텐션 적용
    • 시간적 의존성(temporal dependencies) 모델링
  • iTransformer attention
    • 각 변수 전체를 한 토큰으로 묶어서 어텐션 적용
    • 변수간 상관관계 표현(multivariate correlation) - 밀접한 변수들에 더 높은 가중치 적용

4. EXPERIMENTS

4.1 FORECASTING RESULTS

Baselines

  • 트랜스포머 기반: Autoformer, FEDformer, Stationary, Crossformer, PatchTST
  • 선형 기반: DLinear, TiDE, RLinear
  • TCN(Temporal Convolutional Network) 기반: SCINet, TimesNet

lookback length

  • 96

prediction length

  • PEMS 데이터셋: 12, 24, 36, 48
  • 나머지: 96, 192, 336, 720
  • 각 결과의 평균 MSE, MAE (전체 개별 예측값은 Appendix)

red: first best

blue: second best

results

  • iTransformer SOTA
    • 변동성 대처
      • 기존 SOTA 모델 PatchTST 한계: PEMS 데이터셋과 같이 변동성이 심한 시계열에서 성능 저하
      • iTransformer는 변동성에 잘 대처 (전체 시계열을 한 토큰으로 임베딩하므로)
    • 다변량 상관관계 포착
      • Crossformer 한계: 다변량 상관관계를 명시적으로 포착하는 모델 성능 떨어지는 경우 존재
      • iTransformer는 변수간 상관성 포착에 강점 (변수별 토큰으로 어텐션 적용) → 고차원 데이터 뛰어남

4.2 ITRANSFORMERS GENERALITY

Performance promotion

  • 기존 Transformer 모델에 inverted 구조 적용
    • 전체적으로 성능향상
    • 기존 Transformer 아키텍처시계열 예측부적절하게 사용됨을 시사

Variate generalization

  • 실험: CI-Transformers, iTransformer 간의 훈련 중에 보지 못한 시계열 변량(variates, 변수)에 대해 얼마나 잘 일반화되는지 성능 측정
  • 결과: CI-Transformers 보다 iTransformer가 (100% → 20% variates 전환 시) 전반적으로 작은 예측성능 저하
  • iTransformer가 훈련에 보지 못한 변량에 대해 더 뛰어난 일반화 능력
  • 이유:
    • 기존 Transformer
      • 특정 시점의 모든 변수를 묶어 시간적 토큰화(temporal token) → 토큰 개수 고정 (= input sequence 길이)
      • Feed-Forward Network(FFN) → 시간적 토큰 독립적으로 적용 → 각 개별 변수의 시계열 패턴 포착 어려움
    • iTransformer
      • 각 변수의 전체 시계열 변량 토큰화(variate token) → 토큰 개수 유동적 (데이터 셋 변수 수에 따라 토큰 개수가 결정됨)
      • 훈련, 추론단계 변수 수 달라져도 문제없이 동작 가능
      • Feed-Forward Network(FFN) → 변량 토큰 독립적으로 적용 → 각 개별 변수의 시계열 패턴 포착 용이

Increasing lookback length

  • lookback length: 48, 96, 192, 336, 720
  • prediction length: 96
  • 배경: 이전 연구(DLinear, PatchTST) 에서 lookback length가 늘어난다고 해서 예측성능이 반드시 늘어나지는 않음
  • 기존 Transformer , inverted Transformer 의 성능 비교
    • 기존 Transformer (채워진 도형) : lookback length 늘어나도 성능 오히려 악화되는 부분 존재
    • inverted Transformer (구멍뚫린 도형) : lookback length 늘어날수록 성능 일관되게 향상됨

→ inverted 된 어텐션, FFN(MLP 구조)가 시간 관계를 잘 포착함을 시사

4.3 MODEL ANALYSIS

Ablation study

  • 실험: 변수차원(Variate), 시점차원(Temporal) 각각 어텐션/FFN 구성요소 교체, 제거(w/o) 에 따른 성능 비교 실험
  • 결과:
    • iTransformer (변수 차원에 어텐션 사용, 시점 차원에 FFN사용) 구조 가장 우수한 결과
    • 바닐라 Transformer (시점 차원에 어텐션 사용, 변수차원에 FFN사용) 구조 가장 최악 결과
    • → inverted 방식 효과성 입증

Analysis of series representations & Analysis of multivariate correlations

(좌) MSE, CKA 유사성 비교

  • CKA (Centered Kernel Alignment) 유사성: 두 신경망 계층이 학습한 표현이 얼마나 유사한지 측정하는 지표 (클수록 표현 유사성이 큼)
  • CKA 유사성이 높을수록 더 정확한 예측으로 이어짐
  • iTransformer가 일반 Transformer에 비해 더 높은 CKA 유사성 달성

(우) 다변량 상관관계 학습

  • 목적: iTransformer에서 어텐션 메커니즘이 변수간 상관관계 학습을 잘하고 있는지 확인
  • 실험: 각 변수간 실제 데이터(과거, 미래) 피어슨 상관관계 히트맵, 어텐션 스코어맵(첫번째, 마지막 레이어) 비교
  • 결과: 각 레이어의 어텐션 스코어 맵이 실제 데이터의 상관관계 히트맵과 유사
  • 어텐션높은 해석 가능성, inverted 된 아키텍처가 다변량 상관관계 효과적을 포착

Efficient training strategy

  • 배경: Self-attention 메커니즘 복잡도 O(N^2) (N: 토큰 수) → 변수(variate) 수가 많을 경우 훈련 부담스러움
  • 실험: 각 배치(batch)마다 일부 변수(variate)만 이용하여 학습 → 예측성능(MSE, 좌), 메모리(GB, 우) 비교
    • iTransformer는 학습, 추론의 변수(토큰) 수가 동일하지 않아도 됨
  • 결과:
    • 학습 변량 비율(Sample Ratio) 감소하더라도 성능(MSE)이 안정적으로 유지
    • 학습 변량 비율(Sample Ratio) 감소하더라도 메모리 사용량이 크게 감소
    • 학습 시, 일부 변량만 사용하여 효율성을 높임 / 추론 시, 모든 변량에 대해 예측을 수행
  • 효과:
    • 배치마다 변수 무작위 샘플링 → 일반화 효과 (특정 변수에 과하게 의존 방지)
    • 메모리 효율성

3. Implementation

https://github.com/thuml/iTransformer

 

GitHub - thuml/iTransformer: Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Fore

Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Forecasting" (ICLR 2024 Spotlight) - thuml/iTransformer

github.com

 

TS shape

Raw Data [Time_steps, Variates] : 2차원

Input Tensor : 3차원

일반적인 구성: [B, L, N]

  • B (Batch Size): 한 번에 학습할 샘플의 개수
  • L (Look-back Window / Seq_Len): 모델이 과거를 얼마나 길게 보는지(입력 길이)
  • N (Number of Variates): 변수 개수

* **iTransformer[B, N, L] : 변수(N)를 토큰(Token)으로 취급하여 차원을 바꿈(Inverted)

-> 각 변수 전체 시계열은 압축되어 토큰화

-> 변수별 결측치(Missing Values), 시점 불일치(Misalignment) 등 불규칙한 데이터에도 별도의 전처리 없이 유연하게 적용 가능

4. Discussion

  • 변수가 1~2개뿐인 경우의 성능? (Univariate vs. Multivariate)
  • ***→ 어텐션 계산 유의미 → 단지 비선형 층을 통과하는 FFN(MLP) 모델과 동일할 가능성 큼
  • iTransformer 한계
    • FFN(feed-foward network)의 역할: 각 변수 상관관계 고려시, 변수별 거시적 패턴 학습
    • 변수별 전체 시계열(Look-back Window)을 하나의 독립된 토큰으로 구성
    • 한계: 시계열 전체를 하나의 토큰으로 보기 때문에, 특정 찰나의 순간에만 발생하는 미세한 변화 (시점별로 다른 변수의 상관관계)는 포착하기 힘듦
    • 제안: iTransformer (inverted) + Patching (관련해서 paper 있는지 찾아보기)
    • 기존 iTransformer는 한 변수의 전체 길이를 하나의 토큰으로 만듦
    • 기존 변수를 패치단위로 분할하여 여러 토큰으로 구성
      • $토큰 수: N(변수 개수) \times P(패치 개수)$
      • 시간 축(Patch)과 변수 축(Variate)을 나누어서 각각 어텐션 계산
728x90