vLLM 실행구조 파악하기 (v0.8.4)
Online and Offline inferencevLLM은 온라인과 오프라인, 두 가지 모드로 작동합니다. 오프라인 추론에서는 PyTorch 모듈과 유사하게 작동하여 입력 데이터로 실행할 수 있습니다. 반면 온라인 추론은 서버와 유사하게 작동합니다. 일단 시작되면 클라이언트의 요청을 기다리며 여러 요청을 동시에 처리할 수 있습니다.두 모드 모두 겉보기에는 다르지만, 동일한 inference engine을 공유합니다. 서버, 엔진 초기화, 새로운 요청 처리, 엔진의 메인 루프, 그리고 스케줄러의 다섯 가지 코드 섹션을 살펴보겠습니다. 1. vLLM ServervLLM은 FastAPI를 사용하여 서버를 호스팅합니다. 서버 내에서 AsyncLLMEngine이 인스턴스화됩니다. 이름과 달리 AsyncLLMEn..
vllm
2025. 4. 20. 14:04
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 디비
- EC2
- 주피터노트북 설치
- 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
- 스프링 프레임워크 핵심 기술
- 패스트 캠퍼스
- 크론탭
- CKA
- 자바
- pycharm
- 자스계의백과사전
- 참고 링크
- 자바 인강
- 딥러닝
- 환경세팅
- 파이참
- 혁펜하임
- 세션불일치
- AWS
- 유용한웹사이트
- 쉘스크립트
- 쿠버네티스
- linter
- https://cupjoo.tistory.com/96
- 딥러닝책
- 자바인강
- 패스트캠퍼스
- hot
- 언제나 함께해요
- 마크다운
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
글 보관함