[Paper review] PatchTST

Recent Posts

Recent Comments

Link

깃헙

Today

Total

01-30 23:04

« 2026/01 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

관리 메뉴

Hippo's data

[Paper review] PatchTST 본문

Paper review

[Paper review] PatchTST

Hippo's data 2026. 1. 30. 14:21

728x90

오늘은 PatchTST 모델이 제안된 논문을 리뷰해보도록 하겠습니다!

저번 리뷰에서 단순한 선형구조를 제안하여, “Transformer는 LTSF(Long term time-series Forecast)에 별로다” 라고 주장했던 Dlinear 관련 논문을 리뷰했었는데욥

이번에는 다시 " Transformer도 제대로 쓰면 선형 모델보다 훨씬 좋다" 라는 주장으로 해당 내용을 반박한 논문입니다!

Paper: A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS (Yuqi Nie, Nam H. Nguyen, Phanwadee Sinthong, Jayant Kalagnanam)

Conference: ICLR 2023
GitHub Repository: https://github.com/yuqinie98/PatchTST
ArXiv: https://arxiv.org/abs/2211.14730

GitHub - yuqinie98/PatchTST: An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with

An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers." (ICLR 2023) https://arxiv.org/abs/2211.14730 - yuqinie98/PatchTST

github.com

A Time Series is Worth 64 Words: Long-term Forecasting with Transformers

We propose an efficient design of Transformer-based models for multivariate time series forecasting and self-supervised representation learning. It is based on two key components: (i) segmentation of time series into subseries-level patches which are serve

arxiv.org

→ 트랜스포머는 LTSF에 별로다 (LTSF-Linear (DLinear) 논문) 반박

→ 트랜스포머도 제대로 쓰면 선형 모델보다 훨씬 좋다 (Patch TST)

PatchTST = Patch Time Series Transform

= 패치단위(여러시점)로 처리 + 변수 독립적(Channel Independence)

제목 의미

A TIME SERIES IS WORTH 64 WORDS

→ 영미권 숙어 패러디: “A picture is worth a thousand words” (한 장의 그림이 천 마디 말의 가치가 있다)

→ 시계열에서 64개의 말( = 패치(Patch))이 가치가 있다

1. SUMMERIZE

항목	핵심 내용
Problem	기존 논문(Are Transformers Effective for Time Series Forecasting? - LTSF-Linear제안) 에서 LTSF에서 Transformer가 별로임을 주장 - 기존 Transformer는 Point-wise 방식(데이터 포인트 하나씩 입력)을 사용하여 로컬한 의미 정보를 잃고, 시퀀스 길이가 길어질수록 계산 복잡도가 기하급수적으로 증가
Method	PatchTST (Patching + Transformer) • Patching: 단일 데이터 포인트보다는 일정 구간(Patch)으로 나눠 시계열의 의미단위 학습 • Channel Independence(CI): 각 변수를 별도의 샘플처럼 처리하여 하나의 인코더를 공유, 다변량 데이터에서 변수 간 상관관계를 억지로 학습하기보다 변수별로 독립적으로 학습하는 것이 더 일반화 성능이 좋음
Results	LTSF-Linear를 포함한 모든 기존 SOTA 모델을 추월 특히 Look-back window가 길어질수록 성능이 훨씬 더 좋아짐
Contribution	Transformer가 LTSF에서 효과적임을 재입증 시계열에서의 Self-supervised learning 가능성 제시

2. DETAIL

1. Introduction

Transformer가 다양한 분야에서 성공을 거두며 시계열 분석에도 적용되고 있음
최근 연구(Are Transformers Effective for Time Series Forecasting?)에서 단순한 선형 모델(LTSF-Linear)이 더 좋은 성능을 보여주며 Transformer의 유용성에 의문을 제기
PatchTST 기법 제안
- Patching (패칭): 시계열 데이터를 단일 시점(point-wise)이 아닌 하위 시계열 수준의 패치(patch)로 분할하여 입력 토큰으로 사용
  - 계산 및 메모리 사용량 감소
  - 더 긴 과거 기록(longer look-back window) 활용 능력 (실험증명)
- Channel-independence (채널 독립성): 다변량 시계열에서 각 채널(단일 변량 시계열)을 독립적으로 처리하여 모든채널에서 동일한 임베딩 및 Transformer 가중치를 공유
  - 기존에는 channel-mixing 방식 다수
- self-supervised learning → representation learning, transfer learning 우수

2. RELATED WORK

Patch in Transformer-based Models
- Transformer 기반 다양한 분야에서 Patch 기법이 유용하게 사용됨
- NLP - BERT, CV - VIT, Speech 등등
Transformer-based Long-term Time Series Forecasting
- 기존 Attention 매커니즘에서 복잡도(complexity) 낮추기(n^2) + 예측 성능 향상 목적
- 대부분 아키텍처들 패치 중요성 무시(point-wise attention)

모델	주요 메커니즘
LogTrans (Li et al., 2019)	컨볼루션(convolutional) 기반 self-attention layer, LogSparse design
Informer (Zhou et al., 2021)	ProbSparse self-attention, distilling 기법 → 중요 key 추출
Autoformer (Wu et al., 2021)	전통 시계열 분석 기법에서 차용한 decomposition and auto-correlation 아이디어 → 수동적(handcrafted) 설계, semantic 정보 얻지X
FEDformer (Zhou et al., 2022)	푸리에(Fourier) 기반 구조 → 선형 복잡도
Pyraformer (Liu et al., 2022)	pyramidal attention module, intra-scale, inter-scale 연결 → 선형 복잡도
Triformer (Cirstea et al., 2022)	patch attention 제안 → 단지 pseudo timestam를 쿼리로 사용하여 복잡도 줄임 → 패치 자체 입력단위X, semantic importance 포착X

Time Series Representation Learning
- 다양한 non-Transformer 기반 TS Representation Learning 제안됨
  - Franceschi et al., 2019, Tonekaboni et al., 2021, Yang & Hong, 2022, Yue et al., 2022
- Transformer 기반 TS Representation Learning도 시도됨, 아직 잠재력 발휘되지 않음
  - Time Series Transformer (TST) - Zerveas et al., 2021 , TS-TCC - Zerveas et al., 2021

3. PROPOSED METHOD

look-back window L : (x1, ..., xL)
forecast T future values : (xL+1, ..., xL+T )
core architecture : vanilla Transformer encoder

3-1. MODEL STRUCTURE

Forward Process
- Input: 다변량(Multivariate) 시계열
- Process: M개의 단변량(univariate) 시계열로 분리 → Transformer 백본에 개별적으로 독립적으로 입력 (모든 채널이 동일한 Transformer 가중치를 공유하며 학습 및 추론)
- Output: 각 단변량 시계열에 대해 독립적으로 예측
Patching
- L: input 길이(look-back window)
- P: 패치 길이
- S: stride, 연속적 두 패치 사이의 겹치지 않는 영역의 길이(이동 길이)
- N: 패치 총 개수
  - 마지막 패치를 만들기 위해(길이 맞추기 위함) 원본 시퀀스 끝에 S개만큼의 마지막 값을 반복하여 패딩(padding)
- $N = \left\lfloor \frac{L-P}{S} \right\rfloor + 2$
- 효과: 트랜스포머의 입력 토큰(input token) 수 감소
  - 기존 트랜스포머 입력 토큰 수: L
  - 패치 후, 입력 토큰 수: $N≈L/S$
  - 연산 복잡도, 메모리 사용량 제곱(quadratically) 만큼 감소
    - O(N^2) → O((L/S)^2)

DSBA - Paper Review 세미나 발표자료 참고

https://dsba.snu.ac.kr/seminar/?mod=document&uid=2670

[Paper Review] A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers

[ 발표 요약 ] 1. Topic A Time Series Is Worth 64 Words: Long-Term Forecasting With Transformers 2. Overview 이번 세미나 시간에는 ICLR 2023에 accept 된 long-term time series forecasting(LTSF) 방법론 PatchTST를 공유하고자 한다.

dsba.snu.ac.kr

Transformer Encoder
- Transformer의 Multi-Head Attention 수행

Loss Function
- MSE loss
- 각 시계열 채널(univariate series)에 대한 손실을 계산한 후, 모든 M개 시계열에 대해 평균하여 최종 손실을 구함

Instance Normalization
- 각 단변량(univariate) 시계열을 독립적으로 정규화(평균0, 표준편차1)
- 정규화 후, 패치분할 → 모델 입력 → 원래 스케일 복원하여 출력
- 훈련, 테스트 데이터 간 분포 변화(distribution shift) 효과를 완화

3-2. REPRESENTATION LEARNING

Masked Autoencoder : 입력 시퀀스의 일부를 숨기고(마스크 처리), 모델은 숨겨진 내용을 복원하도록 학습

기존 연구 → 개별 시점(single time step) 마스킹
- A Transformer-based Framework for Multivariate Time Series Representation Learning (Zerveas et al., 2021)
- 인접한 시점의 값으로 보간하여 쉽게 유추가능
  - 무작위 전략(randomization strategies)으로 해결시도
- 너무 많은 매개변수로 인해 학습 데이터가 부족할 때, 과적합되기 쉬움
  - 각 time step(L)의 잠재 표현(D)을 미래 예측(T)과 채널 수(M)에 매핑→ 최종 출력 layer 매우 큰 파라미터 행렬(w) 필요 → w = (L·D) X (T·M)
PatchTST → 패치(patch) 단위 마스킹
- 최종 출력 layer 재구성 → linear layer (D X P)
- 겹치지 않는(non-overlapping) 패치
  - 마스킹 된 패치 정보가 다른 패치에 포함되지 않게
- 무작위 마스킹
- 마스킹된 패치 복원 학습시, MSE loss 최소화 학습

4. EXPERIMENTS

4-1. LONG-TERM TIME SERIES FORECASTING

Datasets: 8개 (Weather, Traffic, Electricity, ETTh1, ETTh2, ETTm1, ETTm2)
- Weather, Traffic, Electricity → 대규모 데이터셋
Baselines
- Transformer 기반 모델: Informer, Autoformer, FEDformer, Pyraformer, LogTrans
- non-Transformer 기반 모델: DLinear
Experimental Settings
- 예측 길이
  - ILI 데이터셋 : 24, 36, 48, 60
  - 나머지: 96, 192, 336, 720
- Look-back Window (L)
  - Transformer 기반 모델: 96
  - non-Transformer 기반 모델(DLinear) : 336
    - 이전 DLinear논문에서 언급 - Transformer 기반 모델 가장 성능 좋았던 길이
Model Variants: 2가지 버전 PatchTST
- PatchTST/64 - Input patch(64), L(512)
- PatchTST/42 - Input patch(42), L(336)
Results
- PatchTST 모델이 Baselines(Transformer 기반 및 DLinear)에 비해 우수한 성능
  - 최고 성능의 Transformer 기반 모델 비교
    - PatchTST/64는 MSE에서 21.0%, MAE에서 16.7%의 전반적인 감소
    - PatchTST/42는 MSE에서 20.2%, MAE에서 16.4%의 감소
  - DLinear 비교
    - 특히 큰 데이터셋(Weather, Traffic, Electricity)에서 성능차이 큼

4-2. REPRESENTATION LEARNING

experimental Settings
- 자기지도, 사전 학습(Self-supervised Pre-training)
  - non-overlapped patch
  - Look-back Window (L): 512
  - 패치 길이(P): 12 (총 42개의 패치 생성)
  - 마스킹 비율(Masking ratio): 40%
  - 100 epoch self-supervised pre-training
- Evaluation → 사전 학습 후, 평가 위해 2가지 방식 이용하여 지도학습(Supervised Learning) 수행
  1. Linear Probing - 마지막 레이어(모델 Head)만 20 Epoch 학습 (다른 부분은 freezing)
    - vs supervised → Pre-training에 따른 representation learning 능력 비교
  2. End-to-end Fine-tuning
    - vs Linear Probing → Fine-tuning 차이(전체 vs 일부) 능력 비교
    1. Linear Probing 10 epoch → 마지막 레이어(모델 Head)만 10 Epoch 학습 (다른 부분은 freezing)
    2. 전체 20 Epoch 학습

Results

Comparison with Supervised Methods
- Self-supervised(Fine-tuning vs Linear Probing) vs Supervised
- 큰 데이터셋 대상(Weather, Traffic, Electricity)
- Self-supervised Pre-training이 효과적 → representation learning 효과 확인
  - Fine-tuning > Supervised
- PatchTST의 우수한 효과
  - 다른 트랜스포머 기반 모델들보다 뛰어난 성능
Transfer Learning
- pre-trained: Electricity 데이터셋
- fine-tuning: Weather, Traffic 데이터셋
- PatchTST가 baselines(Transformer 기반 모델) 보다 우수한 성능
Comparison with Other Self-supervised Method
- PatchTST self-supervised learning 성능과 다른 time-series representation learning 모델과 비교
  - time-series representation learning 모델: BTSF, TS2Vec, TNC, TS-TCC
  - 데이터셋: ETTh1
- Self-supervised, Transferred 둘다 PatchTST가 다른 representation learning 모델보다 우수

4-3. ABLATION STUDY

Patching and Channel-independence
- PatchTST vs FEDformer(기존 Transformer 기반 모델 중 SOTA모델)
  - FEDformer → channel-mixing(변수간 상관성 고려)
- 비교 PatchTST( P+CI / P / CI / Original) / FEDformer
- P(Patching ), CI(Channel-independence) 둘다 적용한 PatchTST가 가장 우수한 성능
  - Patching, Channel-independence 기법의 우수성 입증
Varying Look-back Window
- 기존 논문 : 기존 Transformer 기반 LTSF 모델들은 더 긴 look-back window(L)의 이점을 제대로 활용하지 못함
  - Transformer 기반 모델들은 큰 크기의 look-back window에서 오히려 성능이 하락하여 temporal relation을 잘 추출하지 못하는 경향
- look-back window(L)이 길어질수록 MSE 감소
  - PatchTST가 긴 과거 시퀀스로부터 temporal relation 효과적 추출, 예측 성능 향상

4-4. Appendex

CHANNEL-INDEPENDENCE ANALYSIS
- Channel-Independence vs Channel-Mixing
  - Adaptability: Channel-Independence → 각 채널이 자신에게 적합한 어텐션 맵(attention map) 학습 (유사한 패턴이라도 다른 어텐션맵 특징 시각화)
  - Channel-Mixing 모델은 오버피팅 현상 발생 → Channel-Independence의 더 좋은 일반화 능력

5. CONCLUSION AND FUTURE WORK

시계열 예측 위한 Transformer 구조 제안 (PatchTST)
- 핵심 기법: 패칭(patching), channel-independent(CI)
우수한 성능
- Supervised Learning - 기존 Transformer 기반 모델들 보다 우수
- Self-supervised Learning
- Transfer Learning

3. Implementation

https://github.com/yuqinie98/PatchTST?tab=readme-ov-file

GitHub - yuqinie98/PatchTST: An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with

An offical implementation of PatchTST: "A Time Series is Worth 64 Words: Long-term Forecasting with Transformers." (ICLR 2023) https://arxiv.org/abs/2211.14730 - yuqinie98/PatchTST

github.com

예시 데이터셋을 이용하여 실험
- Supervised Learning Transformer 후 예측
- Self-supervised Learning Transformer → 전체 파인튜닝 후 예측

4. Discussion

현재 PatchTST모델 → Channel Independence 방식
- 직관적으로 변수간 상관성이 모델 예측에 중요할 것이라고 생각됨
- channel-mixing으로 성능 끌어올린 방법론이 있는지
각 패치 길이를 동일하게 설정함
- 패치(P)와 스트라이드(S) 길이를 동적으로 변경해서 모델에 반영한다면?
  - 변동이 큰 시퀀스 부분은 패치길이를 짧게? / 주기성과 유사하게 패치개수만큼 분할 등
    - 시계열 학습 불알정할 가능성 매우 큼 Like GAN idea 유사
  - EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting
  - (CIKM 2025)
  - 시계열의 엔트로피 변화를 감지해 Patch를 자동으로 조절하는 모델
  - https://arxiv.org/html/2509.26157v1
PatchTST + 변수 상관관계까지 고려(Channel Attention 레이어) = CT-PatchTST (Channel-Time PatchTST
https://arxiv.org/abs/2501.08620

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting Sachith Abeywickrama1, 2 Emadeldeen Eldele3, 2 Min Wu2 Xiaoli Li2, 4 Chau Yuen1 1School of Electrical and Electronics Engineering, Nanyang Technological University, Singa

arxiv.org

CT-PatchTST: Channel-Time Patch Time-Series Transformer for Long-Term Renewable Energy Forecasting

Accurate forecasting of renewable energy generation is fundamental to enhancing the dynamic performance of modern power grids, especially under high renewable penetration. This paper presents Channel-Time Patch Time-Series Transformer (CT-PatchTST), a nove

arxiv.org

현재 PatchTST모델 → Channel Independence 방식
- 직관적으로 변수간 상관성이 모델 예측에 중요할 것이라고 생각됨
- channel-mixing으로 성능 끌어올린 방법론이 있는지
각 패치 길이를 동일하게 설정
- 패치(P)와 스트라이드(S) 길이를 동적으로 변경해서 모델에 반영한다면?
  - 변동이 큰 시퀀스 부분은 패치길이를 짧게? / 주기성과 유사하게 패치개수만큼 분할 등
    - 시계열 학습 불알정할 가능성 매우 큼 Like GAN idea 유사
  - EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting
  - (CIKM 2025)
  - 시계열의 엔트로피 변화를 감지해 Patch를 자동으로 조절하는 모델
  - https://arxiv.org/html/2509.26157v1
PatchTST + 변수 상관관계까지 고려(Channel Attention 레이어) = CT-PatchTST (Channel-Time PatchTST)
https://arxiv.org/abs/2501.08620

EntroPE: Entropy-Guided Dynamic Patch Encoder for Time Series Forecasting

arxiv.org

CT-PatchTST: Channel-Time Patch Time-Series Transformer for Long-Term Renewable Energy Forecasting

arxiv.org

728x90

저작자표시 (새창열림)

'Paper review' 카테고리의 다른 글

[Paper review] GAN(Generative Adversarial Nets) (0)	2026.01.29
[Paper review] DLinear (0)	2026.01.12
[Paper review] Prophet 톺아보기 (0)	2025.12.07
[Paper review] A Comprehensive Survey of Deep Learning for Time Series Forecasting: Architectural Diversity and Open Challenges (0)	2025.11.25
[Paper review] Time-LLM: Time Series Forecasting by Reprogramming Large Language Models (10)	2025.07.16

'Paper review' Related Articles

Hippo's data

[Paper review] PatchTST 본문

[Paper review] PatchTST

1. SUMMERIZE

2. DETAIL

1. Introduction

2. RELATED WORK

3. PROPOSED METHOD

3-1. MODEL STRUCTURE

3-2. REPRESENTATION LEARNING

4. EXPERIMENTS

4-1. LONG-TERM TIME SERIES FORECASTING

4-2. REPRESENTATION LEARNING

4-3. ABLATION STUDY

4-4. Appendex

5. CONCLUSION AND FUTURE WORK

3. Implementation

4. Discussion

'Paper review' 카테고리의 다른 글

티스토리툴바