전체 글 (3) 썸네일형 리스트형 [논문 리뷰] RepQ-ViT: Reparameterization for Post-Training Quantization of Vision Transformers 1. IntroductionViT를 통해 Self-attention mechanism을 이용하는 Transformer가 Vision 분야에 도입된 이후, classification, object detection, semantic segmentation 등 다양한 vision 분야에서 Transformer의 잠재력과 우수성을 확인할 수 있었습니다. 하지만 이런 ViT는 model의 크기가 크고 계산량이 많기 때문에(특히, attention 계산 과정에서) resource가 제한된 엣지 디바이스(클라우드 서버가 아닌 데이터 소스의 물리적 위치나 그 근처에서 컴퓨팅일 수행하는 장치)에서 그대로 사용하기엔 한계가 있습니다. 이러한 문제를 해결하기 위해선 ViT를 적절히 Quantization 하는 것이 중요합.. [논문리뷰] LoRA: Low-Rank Adaptation of Large Language Models 자연어처리 모델은 general domain data에서 대규모 모델을 pre-train한 이후, 세부적인 task와 domain에 맞게 fine-tuning하는 방식으로 학습됩니다. 모델의 크기가 커짐에 따라 full-fine tunning은 메모리와, 시간적 비효율성으로 인해 사실상 불가능해졌고 이러한 문제를 해결하기 위해 제안된 논문이 LoRA (LoW-Rank Adaptation)였습니다. ex) GPT-3 175B 1. Introduction앞서 말했듯이 full-fine tuning의 문제는 adaptation시, new model이 original model과 같은 수의 parameters를 training해야 한다는 것에 있습니다.LoRA는 Li et al. (2018a); Aghajan.. [논문리뷰] BRECQ 1. IntroductionQuantization 방법은 크게 PTQ(Post-Training Quantization)과 QAT(Quantization-Aware Training) 두 가지로 분류할 수 있다.QAT(Quantization-Aware Training)는 original model을 training 한 이후, quantized 모델을 fine-tune 하는 방법이다. Full training dataset을 이용하고 end-to-end backpropagation을 사용하기 때문에 많은 computation resources를 요구하고, 이 때문에 compressed models를 만들 기 위해선 많은 시간이 소요된 다는 단점이 있다. 추가로, privacy 문제로 Full data set을.. 이전 1 다음