Recent Posts

Recent Comments

Link

깃헙

Today

Total

02-06 16:33

« 2026/02 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28

Tags more

Archives

관리 메뉴

Hippo's data

[Paper review] iTransformer 본문

Paper review

[Paper review] iTransformer

Hippo's data 2026. 2. 4. 01:10

728x90

오늘은 iTransformer 모델이 제안된 논문을 리뷰해보도록 하겠습니다!

기존 시계열 예측(TSF) Transformer 기반 모델의 대다수 방식이었던 기존 시간축 단위 토큰화에서 변수축 단위로 토큰화해서 어텐션 계산을 시도한 논문입니다!

ITRANSFORMER

Paper: ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING (Yongliu Liu, Tengge Hu, Haixu Zhang, Haoran Wu, Shiyu Wang, Maobing Ma, Jianmin Wang, Mingsheng Long)

Conference: ICLR 2024
GitHub Repository: https://github.com/thuml/iTransformer
ArXiv: https://arxiv.org/abs/2310.06625

GitHub - thuml/iTransformer: Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Fore

Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Forecasting" (ICLR 2024 Spotlight) - thuml/iTransformer

github.com

iTransformer: Inverted Transformers Are Effective for Time Series Forecasting

The recent boom of linear forecasting models questions the ongoing passion for architectural modifications of Transformer-based forecasters. These forecasters leverage Transformers to model the global dependencies over temporal tokens of time series, with

arxiv.org

ITRANSFORMER = Inverted + TRANSFORMER

Inverted → 뒤바꿈, 반전

→ 기존 TRANSFORMER의 어텐션 계산이 시간축 단위였다면, 변수축 단위로 뒤바꿈

1. SUMMARIZE

항목	핵심 내용
Problem	기존 트랜스포머의 '토큰화' 방식의 부적절함 → 기존 모델은 동일 시점의 여러 변수(Multivariate)를 묶어 하나의 토큰으로 만듦 → 서로 다른 의미를 가진 변수들이 뒤섞이게 하고, 변수 간 상관관계를 학습하기 어렵게 함
Motivation	시계열 데이터의 특성 재해석 (Inverted) 1. 독립적 변수 특성: 각 변수는 고유한 패턴을 가짐. 시점 단위가 아니라 '변수 단로 정보를 추출해야 함 2. 어텐션의 역할 재정의: 시간 순서에 따른 어텐션보다, 변수들 사이의 관계를 파악하는 어텐션이 다변량 예측에서 더 효과적일 것이라는 가설
Method	Inverted Structure (구조 뒤바꿈) • Variable as Token: 각 변수의 전체 시계열 데이터(Look-back window) 자체를 하나의 토큰으로 임베딩함 • Self-Attention: 변수 토큰들 간의 상호작용을 계산하여 변수 간 상관관계(Multivariate Correlation) 학습 • Feed-Forward Network (FFN): 각 변수 토큰 내의 시간적 패턴(Temporal patches)은 FFN을 통해 개별적으로 인코딩
Results	다변량 시계열 데이터에서 좋은 성능 • DLinear가 강점을 보였던 데이터셋뿐만 아니라, 변수 간 복잡한 관계가 중요한 데이터셋에서 DLinear를 능가 • Look-back window가 길어질수록 성능이 지속적으로 향상 (기존 트랜스포머는 성능이 정체되거나 하락했음)
Contribution	트랜스포머 시계열 모델의 새로운 구조 제시 1. 구조 뒤바꿈 (inverted) 효과성: 복잡한 모듈 추가 없이, 데이터의 축(Time vs Variable)을 바꾸는 것만으로 트랜스포머의 한계를 극복 2. 범용성: 임베딩 방식만 바꾼 것이기에, 기존의 다양한 트랜스포머 변형 모델(Informer, Flowformer 등)에 즉시 적용 가능한 프레임워크 제공

2. DETAIL

1. Introduction

Transformer, iTransformer 시계열 데이터 처리방식 비교
- Transformer
  - Time Step 기준 토큰, 특정 시점의 모든 변수가 하나의 토큰에 포함됨
    - 각 변수의 특징 학습 한계
    - 무의미한 어텐션 맵(meaningless attention maps)
  - 어텐션 → 시간 종속성(Temporal Dependencies) 파악 목적
  - FFN(Feed foward network): 혼합된 토큰에서 시계열 특징 학습
- iTransformer
  - 변수(Variate) 기준 토큰, 총 토큰의 수는 변수 개수
  - 어텐션 → 변수간 상관관계(Multivariate Correlations) 파악 목적
  - FFN(Feed foward network): 각 변수별 시계열 특징 학습

	Transforme	iTransformer (Inverted)
토큰의 의미	동일 시점의 변수 묶음 ($[v_1, v_2, \dots]$)	한 변수의 전체 시계열($[t_1, t_2, \dots, t_L]$)
어텐션 대상	시간(Time) 간의 상관관계	변수(Variate) 간의 상관관계
FFN의 입력	시점별 다변량 벡터	변수별 전체 시계열 벡터
FFN의 역할	변수 간 특징 추출 (Variate-Mixed)	시간적 패턴 추출 (Variate-Unmixed)

2. RELATED WORK

기존 Transformer 기반 시계열 예측 모델 분류

→ 구성요소(어텐션, Feed-forward network 등), 아키텍처(Transformer 구조) 수정 여부에 따라 4가지 범주로 구분 (modify the component and architecture)

구성요소(Component) 수정
- Transformer를 구성하는 각각의 부품을 수정하는 것
- 예) 기존 Attention을 효율적인 Sparse Attention으로 바꿈
아키텍처 (Architecture) 수정
- 기존 Transformer 구성 부품은 그대로, 부품을 조립하는 방식 변경
- 예) iTransformer: 기존 Attention은 시간관계 파악, inverted → 각 변수관계 파악

구성요소 수정 O, 아키텍처 수정 X
- 가장 일반적인 방식
- 어텐션 자체 수정(Sparse Attention 등)
- Autoformer, Informer
구성요소 수정 X, 아키텍처 수정 X
- 추가적인 시계열 처리(Series Processing) 도입
  - Normalization, Patching 등
- PatchTST, NSTransformer
구성요소 수정 O, 아키텍처 수정 O
- Crossformer
구성요소 수정 X, 아키텍처 수정 O
- iTransformer
  - 단치 각 구성요소 입력차원 inverted

3. ITRANSFORMER

historical observationsT : time steps
N : variates
$X = {x_1, \dots, x_T} \in \mathbb{R}^{T \times N}$

predict the futureS: time steps
N : variates
$Y = {x_{T+1}, \dots, x_{T+S}} \in \mathbb{R}^{S \times N}$

Xt,: 특정 시간 스텝 t에서 동시에 기록된 모든 N개 변수의 값

X:,n: n번째 변수의 전체 시계열

3.1 STRUCTURE OVERVIEW

iTransformer 전체 흐름

$\mathbf{h}_n^0$: n번째 변수의 전체 과거 시계열 X:,n을 *임베딩
*$\mathbf{H}^l$: $l$번째 트랜스포머 블록을 통과한 hidden state 행렬

$\hat{\mathbf{Y}}_{:,n}$: 번째 변수에 대한 최종 미래 예측값 (각 변수별로 미래 예측됨) / 최종적으로 선형레이어 통과(프로젝션)

iTransformer 세부 구조 - encoder-only

(a) Embedding

MLP(Multi-Layer Perceptron)
각 변수별로 전체 시계열을 Token으로 임베딩

(b) Multivariate Attention

각 변수별 임베딩된 토큰간 다변량 상관 관계(Multivariate Correlations) 포착

각 변수별 독립적으로 적용
두 개의 선형 변환, 비선형 활성화 함수, 드롭아웃
시계열 특징 포착

(d) Layer Normalization

기존 Transformer: 각 시점 내에서 정규화
iTransformer: 각 변수의 전체 시계열(Token)에 대해 정규화
- 비정상성(Non-stationarity) 해결에 도움

3.2 INVERTED TRANSFORMER COMPONENTS

Layer normalization

→ 각 변수에 대해 임베딩 (h_n)한 각 토큰을 독립적으로 평균이 0이고 분산이 1인 분포로 정규화

비정상 문제(non-stationary problem) 해결 효과적
- 비정상성(Non-stationarity): 시간에 따라 데이터 통계적 특성(평균, 분산)이 변함
기존 Transformer vs iTransformer
- 기존 Transformer
  - 특정 시점(timestamp)의 다변량(multivariate) 데이터를 임베딩 →각 시간 토큰에 대해 정규화
- iTransformer
  - 각 변수(variate)의 전체 시계열을 임베딩 → 각 변수 토큰에 대해 정규화

Feed-forward network (FFN)

$FFN(x)=max(0,xW1+b1)W2+b2$

→ 간단한 MLP 구조, 비선형성 학습(Relu 구조)

Self-attention

기존 attention
- 한 시점의 여러변수를 한 토큰으로 묶어서 어텐션 적용
- 시간적 의존성(temporal dependencies) 모델링
iTransformer attention
- 각 변수 전체를 한 토큰으로 묶어서 어텐션 적용
- 변수간 상관관계 표현(multivariate correlation) - 밀접한 변수들에 더 높은 가중치 적용

4. EXPERIMENTS

4.1 FORECASTING RESULTS

Baselines

트랜스포머 기반: Autoformer, FEDformer, Stationary, Crossformer, PatchTST
선형 기반: DLinear, TiDE, RLinear
TCN(Temporal Convolutional Network) 기반: SCINet, TimesNet

lookback length

prediction length

PEMS 데이터셋: 12, 24, 36, 48
나머지: 96, 192, 336, 720
각 결과의 평균 MSE, MAE (전체 개별 예측값은 Appendix)

red: first best

blue: second best

results

iTransformer SOTA
- 변동성 대처
  - 기존 SOTA 모델 PatchTST 한계: PEMS 데이터셋과 같이 변동성이 심한 시계열에서 성능 저하
  - iTransformer는 변동성에 잘 대처 (전체 시계열을 한 토큰으로 임베딩하므로)
- 다변량 상관관계 포착
  - Crossformer 한계: 다변량 상관관계를 명시적으로 포착하는 모델 성능 떨어지는 경우 존재
  - iTransformer는 변수간 상관성 포착에 강점 (변수별 토큰으로 어텐션 적용) → 고차원 데이터 뛰어남

4.2 ITRANSFORMERS GENERALITY

Performance promotion

기존 Transformer 모델에 inverted 구조 적용
- 전체적으로 성능향상
- 기존 Transformer 아키텍처가 시계열 예측에 부적절하게 사용됨을 시사

Variate generalization

실험: CI-Transformers, iTransformer 간의 훈련 중에 보지 못한 시계열 변량(variates, 변수)에 대해 얼마나 잘 일반화되는지 성능 측정
결과: CI-Transformers 보다 iTransformer가 (100% → 20% variates 전환 시) 전반적으로 작은 예측성능 저하
→ iTransformer가 훈련에 보지 못한 변량에 대해 더 뛰어난 일반화 능력
이유:
- 기존 Transformer
  - 특정 시점의 모든 변수를 묶어 시간적 토큰화(temporal token) → 토큰 개수 고정 (= input sequence 길이)
  - Feed-Forward Network(FFN) → 시간적 토큰 독립적으로 적용 → 각 개별 변수의 시계열 패턴 포착 어려움
- iTransformer
  - 각 변수의 전체 시계열 변량 토큰화(variate token) → 토큰 개수 유동적 (데이터 셋 변수 수에 따라 토큰 개수가 결정됨)
  - 훈련, 추론단계 변수 수 달라져도 문제없이 동작 가능
  - Feed-Forward Network(FFN) → 변량 토큰 독립적으로 적용 → 각 개별 변수의 시계열 패턴 포착 용이

Increasing lookback length

lookback length: 48, 96, 192, 336, 720
prediction length: 96
배경: 이전 연구(DLinear, PatchTST) 에서 lookback length가 늘어난다고 해서 예측성능이 반드시 늘어나지는 않음
기존 Transformer , inverted Transformer 의 성능 비교
- 기존 Transformer (채워진 도형) : lookback length 늘어나도 성능 오히려 악화되는 부분 존재
- inverted Transformer (구멍뚫린 도형) : lookback length 늘어날수록 성능 일관되게 향상됨

→ inverted 된 어텐션, FFN(MLP 구조)가 시간 관계를 잘 포착함을 시사

4.3 MODEL ANALYSIS

Ablation study

실험: 변수차원(Variate), 시점차원(Temporal) 각각 어텐션/FFN 구성요소 교체, 제거(w/o) 에 따른 성능 비교 실험
결과:
- iTransformer (변수 차원에 어텐션 사용, 시점 차원에 FFN사용) 구조 가장 우수한 결과
- 바닐라 Transformer (시점 차원에 어텐션 사용, 변수차원에 FFN사용) 구조 가장 최악 결과
- → inverted 방식 효과성 입증

Analysis of series representations & Analysis of multivariate correlations

(좌) MSE, CKA 유사성 비교

CKA (Centered Kernel Alignment) 유사성: 두 신경망 계층이 학습한 표현이 얼마나 유사한지 측정하는 지표 (클수록 표현 유사성이 큼)
CKA 유사성이 높을수록 더 정확한 예측으로 이어짐
iTransformer가 일반 Transformer에 비해 더 높은 CKA 유사성 달성

(우) 다변량 상관관계 학습

목적: iTransformer에서 어텐션 메커니즘이 변수간 상관관계 학습을 잘하고 있는지 확인
실험: 각 변수간 실제 데이터(과거, 미래) 피어슨 상관관계 히트맵, 어텐션 스코어맵(첫번째, 마지막 레이어) 비교
결과: 각 레이어의 어텐션 스코어 맵이 실제 데이터의 상관관계 히트맵과 유사
→ 어텐션의 높은 해석 가능성, inverted 된 아키텍처가 다변량 상관관계 효과적을 포착

Efficient training strategy

배경: Self-attention 메커니즘 복잡도 O(N^2) (N: 토큰 수) → 변수(variate) 수가 많을 경우 훈련 부담스러움
실험: 각 배치(batch)마다 일부 변수(variate)만 이용하여 학습 → 예측성능(MSE, 좌), 메모리(GB, 우) 비교
- iTransformer는 학습, 추론의 변수(토큰) 수가 동일하지 않아도 됨
결과:
- 학습 변량 비율(Sample Ratio) 감소하더라도 성능(MSE)이 안정적으로 유지
- 학습 변량 비율(Sample Ratio) 감소하더라도 메모리 사용량이 크게 감소
- → 학습 시, 일부 변량만 사용하여 효율성을 높임 / 추론 시, 모든 변량에 대해 예측을 수행
효과:
- 배치마다 변수 무작위 샘플링 → 일반화 효과 (특정 변수에 과하게 의존 방지)
- 메모리 효율성

3. Implementation

https://github.com/thuml/iTransformer

GitHub - thuml/iTransformer: Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Fore

Official implementation for "iTransformer: Inverted Transformers Are Effective for Time Series Forecasting" (ICLR 2024 Spotlight) - thuml/iTransformer

github.com

TS shape

Raw Data [Time_steps, Variates] : 2차원

Input Tensor : 3차원

일반적인 구성: [B, L, N]

B (Batch Size): 한 번에 학습할 샘플의 개수
L (Look-back Window / Seq_Len): 모델이 과거를 얼마나 길게 보는지(입력 길이)
N (Number of Variates): 변수 개수

* **iTransformer → [B, N, L] : 변수(N)를 토큰(Token)으로 취급하여 차원을 바꿈(Inverted)

-> 각 변수 전체 시계열은 압축되어 토큰화됨

-> 변수별 결측치(Missing Values), 시점 불일치(Misalignment) 등 불규칙한 데이터에도 별도의 전처리 없이 유연하게 적용 가능

4. Discussion

변수가 1~2개뿐인 경우의 성능? (Univariate vs. Multivariate)
***→ 어텐션 계산 유의미 → 단지 비선형 층을 통과하는 FFN(MLP) 모델과 동일할 가능성 큼
iTransformer 한계
- FFN(feed-foward network)의 역할: 각 변수 상관관계 고려시, 변수별 거시적 패턴 학습
- 변수별 전체 시계열(Look-back Window)을 하나의 독립된 토큰으로 구성
- 한계: 시계열 전체를 하나의 토큰으로 보기 때문에, 특정 찰나의 순간에만 발생하는 미세한 변화 (시점별로 다른 변수의 상관관계)는 포착하기 힘듦
- → 제안: iTransformer (inverted) + Patching (관련해서 paper 있는지 찾아보기)
- 기존 iTransformer는 한 변수의 전체 길이를 하나의 토큰으로 만듦
- 기존 변수를 패치단위로 분할하여 여러 토큰으로 구성
  - $토큰 수: N(변수 개수) \times P(패치 개수)$
  - 시간 축(Patch)과 변수 축(Variate)을 나누어서 각각 어텐션 계산