2024.09.19 Neural Magic Office Hour 에서 확인하는 vLLM 아키텍처
vLLM은 asyncLLMEngine이라는 클래스를 사용해 요청을 처리하며, 이 엔진은 *Continous Batching을 담당합니다. LLM 엔진은 VM 내부에서 작동하며, 루프를 실행하는데, 이 루프는 세 가지 단계로 구성됩니다: 첫 번째는 스케줄링(Scheduling), 두 번째는 실행(Executing), 세 번째는 출력 처리(Processing Outputs)입니다.스케줄러(Scheduler)는 "무엇을 처리할지"를 결정합니다. 특정 요청이 완료되었는지, 새로운 요청이 들어왔는지를 확인하며,이러한 요청을 처리하기 위해 KV 캐시에 필요한 메모리를 할당합니다.본질적으로 스케줄러는 각 model executor 가 배칭 단계에서 수행해야 할 작업을 결정합니다. => 스파크드라이버랑 사실상 유사해...
vllm
2024. 11. 24. 14:07
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 쿠버네티스
- 자바인강
- 세션불일치
- 패스트 캠퍼스
- AWS
- 쉘스크립트
- 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
- 자바 인강
- https://cupjoo.tistory.com/96
- 참고 링크
- 배포
- 스프링 프레임워크 핵심 기술
- 언제나 함께해요
- 파이참
- pycharm
- 자스계의백과사전
- django
- 마크다운
- 크론탭
- hot
- CKA
- 주피터노트북 설치
- 디비
- EC2
- 유용한웹사이트
- linter
- 패스트캠퍼스
- vim
- 환경세팅
- 자바
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
글 보관함