Recent Posts
Recent Comments
Link
Today
Total
01-30 23:04
관리 메뉴

Hippo's data

[Paper review] PatchTST 본문

Paper review

[Paper review] PatchTST

Hippo's data 2026. 1. 30. 14:21
728x90

 

오늘은 PatchTST 모델이 제안된 논문을 리뷰해보도록 하겠습니다!

저번 리뷰에서 단순한 선형구조를 제안하여,  “Transformer는 LTSF(Long term time-series Forecast)에 별로다” 라고 주장했던 Dlinear 관련 논문을 리뷰했었는데욥

이번에는 다시 " Transformer도 제대로 쓰면 선형 모델보다 훨씬 좋다" 라는 주장으로 해당 내용을 반박한 논문입니다! 

 

Paper: A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS (Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, Jayant Kalagnanam)

 

GitHub - yuqinie98/PatchTST: An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with

An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers." (ICLR 2023) https://arxiv.org/abs/2211.14730 - yuqinie98/PatchTST

github.com

 

 

A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

We propose an efficient design of Transformer-based models for multivariate time series forecasting and self-supervised representation learning. It is based on two key components: (i) segmentation of time series into subseries-level patches which are serve

arxiv.org

 

→ 트랜스포머는 LTSF에 별로다 (LTSF-Linear (DLinear) 논문) 반박

→ 트랜스포머도 제대로 쓰면 선형 모델보다 훨씬 좋다 (Patch TST)

PatchTST = Patch Time Series Transform

= 패치단위(여러시점)로 처리 + 변수 독립적(Channel Independence

 

제목 의미

A TIME SERIES IS WORTH 64 WORDS

→ 영미권 숙어 패러디: “A picture is worth a thousand words” (한 장의 그림이 천 마디 말의 가치가 있다)

→ 시계열에서 64개의 말( = 패치(Patch))이 가치가 있다

 

1. SUMMERIZE

항목 핵심 내용
Problem 기존 논문(Are Transformers Effective for Time Series Forecasting? - LTSF-Linear제안) 에서 LTSF에서 Transformer가 별로임을 주장
- 기존 Transformer는 Point-wise 방식(데이터 포인트 하나씩 입력)을 사용하여 로컬한 의미 정보를 잃고, 시퀀스 길이가 길어질수록 계산 복잡도가 기하급수적으로 증가
Method PatchTST (Patching + Transformer)
Patching: 단일 데이터 포인트보다는 일정 구간(Patch)으로 나눠 시계열의 의미단위 학습
Channel Independence(CI): 각 변수를 별도의 샘플처럼 처리하여 하나의 인코더를 공유, 다변량 데이터에서 변수 간 상관관계를 억지로 학습하기보다 변수별로 독립적으로 학습하는 것이 더 일반화 성능이 좋음
Results LTSF-Linear를 포함한 모든 기존 SOTA 모델을 추월
특히 Look-back window가 길어질수록 성능이 훨씬 더 좋아짐
Contribution Transformer가 LTSF에서 효과적임을 재입증
시계열에서의 Self-supervised learning 가능성 제시

 

2. DETAIL

1. Introduction

  • Transformer가 다양한 분야에서 성공을 거두며 시계열 분석에도 적용되고 있음
  • 최근 연구(Are Transformers Effective for Time Series Forecasting?)에서 단순한 선형 모델(LTSF-Linear)이 더 좋은 성능을 보여주며 Transformer의 유용성에 의문을 제기
  • PatchTST 기법 제안
    • Patching (패칭): 시계열 데이터를 단일 시점(point-wise)이 아닌 하위 시계열 수준의 패치(patch)로 분할하여 입력 토큰으로 사용
      • 계산 및 메모리 사용량 감소
      • 더 긴 과거 기록(longer look-back window) 활용 능력 (실험증명)
    • Channel-independence (채널 독립성): 다변량 시계열에서 각 채널(단일 변량 시계열)을 독립적으로 처리하여 모든채널에서 동일한 임베딩 및 Transformer 가중치를 공유
      • 기존에는 channel-mixing 방식 다수
    • self-supervised learning → representation learning, transfer learning 우수

 

2. RELATED WORK

  • Patch in Transformer-based Models
    • Transformer 기반 다양한 분야에서 Patch 기법이 유용하게 사용됨
    • NLP - BERT, CV - VIT, Speech 등등
  • Transformer-based Long-term Time Series Forecasting
    • 기존 Attention 매커니즘에서 복잡도(complexity) 낮추기(n^2) + 예측 성능 향상 목적
    • 대부분 아키텍처들 패치 중요성 무시(point-wise attention)
모델 주요 메커니즘
LogTrans (Li et al., 2019) 컨볼루션(convolutional) 기반 self-attention layer, LogSparse design
Informer (Zhou et al., 2021) ProbSparse self-attention, distilling 기법 → 중요 key 추출
Autoformer (Wu et al., 2021) 전통 시계열 분석 기법에서 차용한 decomposition and auto-correlation 아이디어
→ 수동적(handcrafted) 설계, semantic 정보 얻지X
FEDformer (Zhou et al., 2022) 푸리에(Fourier) 기반 구조 → 선형 복잡도
Pyraformer (Liu et al., 2022) pyramidal attention module, intra-scale, inter-scale 연결 → 선형 복잡도
Triformer (Cirstea et al., 2022) patch attention 제안
→ 단지 pseudo timestam를 쿼리로 사용하여 복잡도 줄임
→ 패치 자체 입력단위X, semantic importance 포착X

 

  • Time Series Representation Learning
    • 다양한 non-Transformer 기반 TS Representation Learning 제안됨
      • Franceschi et al., 2019, Tonekaboni et al., 2021, Yang & Hong, 2022, Yue et al., 2022
    • Transformer 기반 TS Representation Learning도 시도됨, 아직 잠재력 발휘되지 않음
      • Time Series Transformer (TST) - Zerveas et al., 2021 , TS-TCC - Zerveas et al., 2021

3. PROPOSED METHOD

  • look-back window L : (x1, ..., xL)
  • forecast T future values : (xL+1, ..., xL+T )
  • core architecture : vanilla Transformer encoder

 

3-1. MODEL STRUCTURE

  • Forward Process
    • Input: 다변량(Multivariate) 시계열
    • Process: M개의 단변량(univariate) 시계열로 분리 → Transformer 백본에 개별적으로 독립적으로 입력 (모든 채널이 동일한 Transformer 가중치를 공유하며 학습 및 추론)
    • Output: 각 단변량 시계열에 대해 독립적으로 예측
  • Patching
    • L: input 길이(look-back window)
    • P: 패치 길이
    • S: stride, 연속적 두 패치 사이의 겹치지 않는 영역의 길이(이동 길이)
    • N: 패치 총 개수
      • 마지막 패치를 만들기 위해(길이 맞추기 위함) 원본 시퀀스 끝에 S개만큼의 마지막 값을 반복하여 패딩(padding)
    • $N = \left\lfloor \frac{L-P}{S} \right\rfloor + 2$
    • 효과: 트랜스포머의 입력 토큰(input token) 수 감소
      • 기존 트랜스포머 입력 토큰 수: L
      • 패치 후, 입력 토큰 수: $N≈L/S$
      • 연산 복잡도, 메모리 사용량 제곱(quadratically) 만큼 감소
        • O(N^2) → O((L/S)^2)

 

DSBA - Paper Review 세미나 발표자료 참고

https://dsba.snu.ac.kr/seminar/?mod=document&uid=2670

 

[Paper Review] A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers

[ 발표 요약 ] 1. Topic A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers   2. Overview 이번 세미나 시간에는 ICLR 2023에 accept 된 long-term time series forecasting(LTSF) 방법론 PatchTST를 공유하고자 한다.

dsba.snu.ac.kr

 

  • Transformer Encoder
    • Transformer의 Multi-Head Attention 수행
  • Loss Function
    • MSE loss
    • 각 시계열 채널(univariate series)에 대한 손실을 계산한 후, 모든 M개 시계열에 대해 평균하여 최종 손실을 구함

  • Instance Normalization
    • 각 단변량(univariate) 시계열을 독립적으로 정규화(평균0, 표준편차1)
    • 정규화 후, 패치분할 → 모델 입력 → 원래 스케일 복원하여 출력
    • 훈련, 테스트 데이터 간 분포 변화(distribution shift) 효과를 완화

3-2. REPRESENTATION LEARNING

Masked Autoencoder : 입력 시퀀스의 일부를 숨기고(마스크 처리), 모델은 숨겨진 내용을 복원하도록 학습

  • 기존 연구개별 시점(single time step) 마스킹
    • A Transformer-based Framework for Multivariate Time Series Representation Learning (Zerveas et al., 2021)
    • 인접한 시점의 값으로 보간하여 쉽게 유추가능
      • 무작위 전략(randomization strategies)으로 해결시도
    • 너무 많은 매개변수로 인해 학습 데이터가 부족할 때, 과적합되기 쉬움
      • 각 time step(L)의 잠재 표현(D)을 미래 예측(T)과 채널 수(M)에 매핑→ 최종 출력 layer 매우 큰 파라미터 행렬(w) 필요 → w = (L·D) X (T·M)
  • PatchTST패치(patch) 단위 마스킹
    • 최종 출력 layer 재구성 → linear layer (D X P)
    • 겹치지 않는(non-overlapping) 패치
      • 마스킹 된 패치 정보가 다른 패치에 포함되지 않게
    • 무작위 마스킹
    • 마스킹된 패치 복원 학습시, MSE loss 최소화 학습

 

4. EXPERIMENTS

4-1. LONG-TERM TIME SERIES FORECASTING

  • Datasets: 8개 (Weather, Traffic, Electricity, ETTh1, ETTh2, ETTm1, ETTm2)
    • Weather, Traffic, Electricity → 대규모 데이터셋
  • Baselines
    • Transformer 기반 모델: Informer, Autoformer, FEDformer, Pyraformer, LogTrans
    • non-Transformer 기반 모델: DLinear
  • Experimental Settings
    • 예측 길이
      • ILI 데이터셋 : 24, 36, 48, 60
      • 나머지: 96, 192, 336, 720
    • Look-back Window (L)
      • Transformer 기반 모델: 96
      • non-Transformer 기반 모델(DLinear) : 336
        • 이전 DLinear논문에서 언급 - Transformer 기반 모델 가장 성능 좋았던 길이
  • Model Variants: 2가지 버전 PatchTST
    • PatchTST/64 - Input patch(64), L(512)
    • PatchTST/42 - Input patch(42), L(336)
  • Results
    • PatchTST 모델이 Baselines(Transformer 기반 및 DLinear)에 비해 우수한 성능
      • 최고 성능의 Transformer 기반 모델 비교
        • PatchTST/64는 MSE에서 21.0%, MAE에서 16.7%의 전반적인 감소
        • PatchTST/42는 MSE에서 20.2%, MAE에서 16.4%의 감소
      • DLinear 비교
        • 특히 큰 데이터셋(Weather, Traffic, Electricity)에서 성능차이 큼

4-2. REPRESENTATION LEARNING

  • experimental Settings
    • 자기지도, 사전 학습(Self-supervised Pre-training)
      • non-overlapped patch
      • Look-back Window (L): 512
      • 패치 길이(P): 12 (총 42개의 패치 생성)
      • 마스킹 비율(Masking ratio): 40%
      • 100 epoch self-supervised pre-training
    • Evaluation사전 학습 후, 평가 위해 2가지 방식 이용하여 지도학습(Supervised Learning) 수행
      1. Linear Probing - 마지막 레이어(모델 Head)만 20 Epoch 학습 (다른 부분은 freezing)
        • vs supervised → Pre-training에 따른 representation learning 능력 비교
      2. End-to-end Fine-tuning
        • vs Linear Probing → Fine-tuning 차이(전체 vs 일부) 능력 비교
        1. Linear Probing 10 epoch → 마지막 레이어(모델 Head)만 10 Epoch 학습 (다른 부분은 freezing)
        2. 전체 20 Epoch 학습
  • Results
  1. Comparison with Supervised Methods
    • Self-supervised(Fine-tuning vs Linear Probing) vs Supervised
    • 큰 데이터셋 대상(Weather, Traffic, Electricity)
    • Self-supervised Pre-training이 효과적 → representation learning 효과 확인
      • Fine-tuning > Supervised
    • PatchTST의 우수한 효과
      • 다른 트랜스포머 기반 모델들보다 뛰어난 성능
  2. Transfer Learning
    • pre-trained: Electricity 데이터셋
    • fine-tuning: Weather, Traffic 데이터셋
    • PatchTST가 baselines(Transformer 기반 모델) 보다 우수한 성능
  3. Comparison with Other Self-supervised Method
    • PatchTST self-supervised learning 성능과 다른 time-series representation learning 모델과 비교
      • time-series representation learning 모델: BTSF, TS2Vec, TNC, TS-TCC
      • 데이터셋: ETTh1
    • Self-supervised, Transferred 둘다 PatchTST가 다른 representation learning 모델보다 우수

 

4-3. ABLATION STUDY

  • Patching and Channel-independence
    • PatchTST vs FEDformer(기존 Transformer 기반 모델 중 SOTA모델)
      • FEDformer → channel-mixing(변수간 상관성 고려)
    • 비교 PatchTST( P+CI / P / CI / Original) / FEDformer
    • P(Patching ), CI(Channel-independence) 둘다 적용한 PatchTST가 가장 우수한 성능
      • Patching, Channel-independence 기법의 우수성 입증
  • Varying Look-back Window
    • 기존 논문 : 기존 Transformer 기반 LTSF 모델들은 더 긴 look-back window(L)의 이점을 제대로 활용하지 못함
      • Transformer 기반 모델들은 큰 크기의 look-back window에서 오히려 성능이 하락하여 temporal relation을 잘 추출하지 못하는 경향
    • look-back window(L)이 길어질수록 MSE 감소
      • PatchTST가 긴 과거 시퀀스로부터 temporal relation 효과적 추출, 예측 성능 향상

4-4. Appendex

  • CHANNEL-INDEPENDENCE ANALYSIS
    • Channel-Independence vs Channel-Mixing
      • Adaptability: Channel-Independence → 각 채널이 자신에게 적합한 어텐션 맵(attention map) 학습 (유사한 패턴이라도 다른 어텐션맵 특징 시각화)
      • Channel-Mixing 모델은 오버피팅 현상 발생 → Channel-Independence의 더 좋은 일반화 능력

 

5. CONCLUSION AND FUTURE WORK

  • 시계열 예측 위한 Transformer 구조 제안 (PatchTST)
    • 핵심 기법: 패칭(patching), channel-independent(CI)
  • 우수한 성능
    • Supervised Learning - 기존 Transformer 기반 모델들 보다 우수
    • Self-supervised Learning
    • Transfer Learning

3. Implementation

https://github.com/yuqinie98/PatchTST?tab=readme-ov-file

 

GitHub - yuqinie98/PatchTST: An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with

An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers." (ICLR 2023) https://arxiv.org/abs/2211.14730 - yuqinie98/PatchTST

github.com

 

  • 예시 데이터셋을 이용하여 실험
    • Supervised Learning Transformer 후 예측
    • Self-supervised Learning Transformer → 전체 파인튜닝 후 예측

 

4. Discussion

  • 현재 PatchTST모델 → Channel Independence 방식
    • 직관적으로 변수간 상관성이 모델 예측에 중요할 것이라고 생각됨
    • channel-mixing으로 성능 끌어올린 방법론이 있는지
  • 각 패치 길이를 동일하게 설정함
    • 패치(P)와 스트라이드(S) 길이를 동적으로 변경해서 모델에 반영한다면?
      • 변동이 큰 시퀀스 부분은 패치길이를 짧게? / 주기성과 유사하게 패치개수만큼 분할 등
        • 시계열 학습 불알정할 가능성 매우 큼 Like GAN idea 유사
      • EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting
      • (CIKM 2025)
      • 시계열의 엔트로피 변화를 감지해 Patch를 자동으로 조절하는 모델
      • https://arxiv.org/html/2509.26157v1
  • PatchTST + 변수 상관관계까지 고려(Channel Attention 레이어) = CT-PatchTST (Channel-Time PatchTST
  • https://arxiv.org/abs/2501.08620
 

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting Sachith Abeywickrama1, 2  Emadeldeen Eldele3, 2  Min Wu2  Xiaoli Li2, 4  Chau Yuen1 1School of Electrical and Electronics Engineering, Nanyang Technological University, Singa

arxiv.org

 

 

CT-PatchTST: Channel-Time Patch Time-Series Transformer for Long-Term Renewable Energy Forecasting

Accurate forecasting of renewable energy generation is fundamental to enhancing the dynamic performance of modern power grids, especially under high renewable penetration. This paper presents Channel-Time Patch Time-Series Transformer (CT-PatchTST), a nove

arxiv.org

 

  • 현재 PatchTST모델 → Channel Independence 방식
    • 직관적으로 변수간 상관성이 모델 예측에 중요할 것이라고 생각됨
    • channel-mixing으로 성능 끌어올린 방법론이 있는지
  • 각 패치 길이를 동일하게 설정
    • 패치(P)와 스트라이드(S) 길이를 동적으로 변경해서 모델에 반영한다면?
      • 변동이 큰 시퀀스 부분은 패치길이를 짧게? / 주기성과 유사하게 패치개수만큼 분할 등
        • 시계열 학습 불알정할 가능성 매우 큼 Like GAN idea 유사
      • EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting
      • (CIKM 2025)
      • 시계열의 엔트로피 변화를 감지해 Patch를 자동으로 조절하는 모델
      • https://arxiv.org/html/2509.26157v1
  • PatchTST + 변수 상관관계까지 고려(Channel Attention 레이어) = CT-PatchTST (Channel-Time PatchTST)
  • https://arxiv.org/abs/2501.08620
 

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting Sachith Abeywickrama1, 2  Emadeldeen Eldele3, 2  Min Wu2  Xiaoli Li2, 4  Chau Yuen1 1School of Electrical and Electronics Engineering, Nanyang Technological University, Singa

arxiv.org

 

 

CT-PatchTST: Channel-Time Patch Time-Series Transformer for Long-Term Renewable Energy Forecasting

Accurate forecasting of renewable energy generation is fundamental to enhancing the dynamic performance of modern power grids, especially under high renewable penetration. This paper presents Channel-Time Patch Time-Series Transformer (CT-PatchTST), a nove

arxiv.org

728x90