'2025/05/21 글 목록

vLLM 0.5 -> 0.6 버전 디자인 변화만으로 Throughput 2.7배 높이기

안녕하세요 vllm 0.5 , 0.6 버전으로의 디자인 변화만으로 throughput 20% 높이기 를 주제를 들고왔습니다. 이전에 포스팅한글인데, v1 아키텍처가 나오면서 부랴부랴 포스팅합니다. 업그레이드가 빠르네요, vllm 0.6버전 업데이트이후 throughput이 향상되었는데요, 왜 향상 되었을지에 대해서 vllm 디자인과 함께 설명해보고자합니다.3줄 요약하자면, 다음과 같습니다.vLLM 0.6 버전 업데이트 있다. GPU 최적화 어느정도 진행해서 CPU 오버헤드가 커보여 개선했다. 효과 있다.https://blog.vllm.ai/2024/09/05/perf-update.html Dataset: ShareGPT 500 prompts randomly sampled from ShareGPT ..

vllm 2025. 5. 21. 17:30

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

자기소개
깃허브

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

killog

티스토리툴바