https://docs.vllm.ai/en/latest/design/arch_overview.html2024.11.24 에 작성한 글입니다. 업데이트를 반영하지 않았습니다. Table of ContentsEntrypointsLLM ClassOpenAI-compatible API serverLLM EngineLLMEngineAsyncLLMEngineWorkerModel RunnerModelClass HierarchyEntrypointsvLLM은 시스템과 상호작용하기 위한 여러 entrypoint를 제공합니다. 아래 다이어그램은 이들 간의 관계를 보여줍니다.LLM Classhttps://docs.vllm.ai/en/latest/dev/offline_inference/llm.htmlLLM 클래스는 별도의 m..
vLLM은 asyncLLMEngine이라는 클래스를 사용해 요청을 처리하며, 이 엔진은 *Continous Batching을 담당합니다. LLM 엔진은 VM 내부에서 작동하며, 루프를 실행하는데, 이 루프는 세 가지 단계로 구성됩니다: 첫 번째는 스케줄링(Scheduling), 두 번째는 실행(Executing), 세 번째는 출력 처리(Processing Outputs)입니다.스케줄러(Scheduler)는 "무엇을 처리할지"를 결정합니다. 특정 요청이 완료되었는지, 새로운 요청이 들어왔는지를 확인하며,이러한 요청을 처리하기 위해 KV 캐시에 필요한 메모리를 할당합니다.본질적으로 스케줄러는 각 model executor 가 배칭 단계에서 수행해야 할 작업을 결정합니다. => 스파크드라이버랑 사실상 유사해...
- Total
- Today
- Yesterday
- https://cupjoo.tistory.com/96
- 크론탭
- vim
- 언제나 함께해요
- 파이참
- 디비
- 세션불일치
- 스프링 프레임워크 핵심 기술
- 자바인강
- 쉘스크립트
- 유용한웹사이트
- linter
- 참고 링크
- pycharm
- 패스트캠퍼스
- 쿠버네티스
- 주피터노트북 설치
- 마크다운
- 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
- 패스트 캠퍼스
- 자스계의백과사전
- 자바
- 환경세팅
- CKA
- hot
- 배포
- 자바 인강
- EC2
- django
- AWS
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 | 31 |