'2025/04 글 목록

vLLM 실행구조 파악하기 (v0.8.4)

Online and Offline inferencevLLM은 온라인과 오프라인, 두 가지 모드로 작동합니다. 오프라인 추론에서는 PyTorch 모듈과 유사하게 작동하여 입력 데이터로 실행할 수 있습니다. 반면 온라인 추론은 서버와 유사하게 작동합니다. 일단 시작되면 클라이언트의 요청을 기다리며 여러 요청을 동시에 처리할 수 있습니다.두 모드 모두 겉보기에는 다르지만, 동일한 inference engine을 공유합니다. 서버, 엔진 초기화, 새로운 요청 처리, 엔진의 메인 루프, 그리고 스케줄러의 다섯 가지 코드 섹션을 살펴보겠습니다. 1. vLLM ServervLLM은 FastAPI를 사용하여 서버를 호스팅합니다. 서버 내에서 AsyncLLMEngine이 인스턴스화됩니다. 이름과 달리 AsyncLLMEn..

vllm 2025. 4. 20. 14:04

디코딩 알고리즘 종류

https://huggingface.co/docs/transformers/generation_strategies#decoding-strategieshttps://huggingface.co/blog/how-to-generatehttps://dytis.tistory.com/53 1. 이야기 주제이번에는 LLM에서 Greedy Decoding 외에 어떤 디코딩 전략들이 있는지를 설명합니다.2. 이야기할 전략은 총 네 가지입니다Greedy Decoding (기본)Sampling (Top-k, Top-p)Beam SearchContrastive Search (최신 기법)3. 결론부터 말하면디코딩은 LLM이 다음 토큰을 선택하는 방식이며,각 전략은 속도, 다양성, 정확성 간의 trade-off를 조절합니다.→ 상..

카테고리 없음 2025. 4. 19. 11:55

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

글 보관함

killog

티스토리툴바