[Paper Review] FNet: Mixing Tokens with Fourier Transforms

Sdílet
Vložit
  • čas přidán 27. 08. 2024
  • 발표자 : 고려대학교 DSBA 연구실 석사과정 김수빈 (subin-kim@korea.ac.kr)
    1. Topic : FNet 논문 리뷰 (Paper : arxiv.org/abs/...)
    2. Keyword : Fourier Transform, Transformer, Natural Language Process, Self-attention, Token mixing
    3. Contents :
    00:15 Introduction
    03:05 Related Works
    12:46 Methodology
    18:26 Experiment
    24:25 Conclusion
    4. Reference source는 발표자료 내부에 표기

Komentáře • 3

  • @user-dw1jm5jj4f
    @user-dw1jm5jj4f Před rokem

    발표 잘 들었습니다. 12:40 즈음에 본 논문의 'Longformer 등이 "global token"에 대해서는 quadratic 연산을 했다고 주장했다'라고 하셨는데, global token이 어떤 걸 말하는지 알 수 있을까요?

    • @user-dw1jm5jj4f
      @user-dw1jm5jj4f Před rokem

      논문에도 자세한 설명은 없는 것 같아서, 제가 이해하기로는 긴 시퀀스에서 기준 토큰과 거리가 먼 토큰을 말하는게 아닐까 하는데, 혹시 다르게 이해하셨는지 궁금합니다:)

    • @user-vt5gp2wm9p
      @user-vt5gp2wm9p Před rokem +1

      @@user-dw1jm5jj4f ​ 안녕하세요 발표자 DSBA 연구실 김수빈입니다. 제가 이해하고 있는 global token이란, 연구자에 의해 full attention을 수행하도록 설정된 token입니다! 즉, Longformer같은 경우에는 기본적으로 Sparse attention의 연산 효율을 가져가면서도 일부 지정된 global token은 input token 모두와 attention 연산을 수행하게 되어 중요한 정보를 보다 잘 학습할 수 있게 됩니다. 예를들어 [cls] token을 global token으로 정하여 모든 단어와의 attention 연산을 수행할 수 있습니다!
      조금 더 덧붙이면, 결국 global token의 수 N이 커지면 full attention 연산 복잡도에 따라 global token에 대해서는 이론적으로 O(N^2)의 연산 복잡도를 갖게 됩니다.
      감사합니다:)