'vllm' 카테고리의 글 목록

vLLM 0.5 -> 0.6 버전 디자인 변화만으로 Throughput 2.7배 높이기

안녕하세요 vllm 0.5 , 0.6 버전으로의 디자인 변화만으로 throughput 20% 높이기 를 주제를 들고왔습니다. 이전에 포스팅한글인데, v1 아키텍처가 나오면서 부랴부랴 포스팅합니다. 업그레이드가 빠르네요, vllm 0.6버전 업데이트이후 throughput이 향상되었는데요, 왜 향상 되었을지에 대해서 vllm 디자인과 함께 설명해보고자합니다.3줄 요약하자면, 다음과 같습니다.vLLM 0.6 버전 업데이트 있다. GPU 최적화 어느정도 진행해서 CPU 오버헤드가 커보여 개선했다. 효과 있다.https://blog.vllm.ai/2024/09/05/perf-update.html Dataset: ShareGPT 500 prompts randomly sampled from ShareGPT ..

vllm 2025. 5. 21. 17:30

vLLM 실행구조 파악하기 (v0.8.4)

Online and Offline inferencevLLM은 온라인과 오프라인, 두 가지 모드로 작동합니다. 오프라인 추론에서는 PyTorch 모듈과 유사하게 작동하여 입력 데이터로 실행할 수 있습니다. 반면 온라인 추론은 서버와 유사하게 작동합니다. 일단 시작되면 클라이언트의 요청을 기다리며 여러 요청을 동시에 처리할 수 있습니다.두 모드 모두 겉보기에는 다르지만, 동일한 inference engine을 공유합니다. 서버, 엔진 초기화, 새로운 요청 처리, 엔진의 메인 루프, 그리고 스케줄러의 다섯 가지 코드 섹션을 살펴보겠습니다. 1. vLLM ServervLLM은 FastAPI를 사용하여 서버를 호스팅합니다. 서버 내에서 AsyncLLMEngine이 인스턴스화됩니다. 이름과 달리 AsyncLLMEn..

vllm 2025. 4. 20. 14:04

vllm 도큐먼트로 보는 architecture 개요 (한국어번역+ 코드 추가 )

https://docs.vllm.ai/en/latest/design/arch_overview.html2024.11.24 에 작성한 글입니다. 업데이트를 반영하지 않았습니다. Table of ContentsEntrypointsLLM ClassOpenAI-compatible API serverLLM EngineLLMEngineAsyncLLMEngineWorkerModel RunnerModelClass HierarchyEntrypointsvLLM은 시스템과 상호작용하기 위한 여러 entrypoint를 제공합니다. 아래 다이어그램은 이들 간의 관계를 보여줍니다.LLM Classhttps://docs.vllm.ai/en/latest/dev/offline_inference/llm.htmlLLM 클래스는 별도의 m..

vllm 2024. 11. 24. 21:43

2024.09.19 Neural Magic Office Hour 에서 확인하는 vLLM 아키텍처

vLLM은 asyncLLMEngine이라는 클래스를 사용해 요청을 처리하며, 이 엔진은 *Continous Batching을 담당합니다. LLM 엔진은 VM 내부에서 작동하며, 루프를 실행하는데, 이 루프는 세 가지 단계로 구성됩니다: 첫 번째는 스케줄링(Scheduling), 두 번째는 실행(Executing), 세 번째는 출력 처리(Processing Outputs)입니다.스케줄러(Scheduler)는 "무엇을 처리할지"를 결정합니다. 특정 요청이 완료되었는지, 새로운 요청이 들어왔는지를 확인하며,이러한 요청을 처리하기 위해 KV 캐시에 필요한 메모리를 할당합니다.본질적으로 스케줄러는 각 model executor 가 배칭 단계에서 수행해야 할 작업을 결정합니다. => 스파크드라이버랑 사실상 유사해...

vllm 2024. 11. 24. 14:07

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/12 »
일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30	31

글 보관함

killog

티스토리툴바