본문 바로가기 메뉴 바로가기

killog

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

killog

검색하기 폼
  • 분류 전체보기 (470)
    • 스프링, 자바 (113)
    • 알고리즘 (218)
    • 끄적끄적 - 글 (27)
    • 독후감 (25)
    • 프로젝트 - gift-shop (6)
    • 구버전 팁 (24)
    • 용어정리 (17)
    • 웹 (1)
    • tips (4)
    • 쉘 (6)
    • 스파크 (4)
    • argo (2)
    • 쿠버네티스 (3)
    • vllm (3)
  • 방명록

kill.og.kil.log.
vLLM 실행구조 파악하기 (v0.8.4)

Online and Offline inferencevLLM은 온라인과 오프라인, 두 가지 모드로 작동합니다. 오프라인 추론에서는 PyTorch 모듈과 유사하게 작동하여 입력 데이터로 실행할 수 있습니다. 반면 온라인 추론은 서버와 유사하게 작동합니다. 일단 시작되면 클라이언트의 요청을 기다리며 여러 요청을 동시에 처리할 수 있습니다.두 모드 모두 겉보기에는 다르지만, 동일한 inference engine을 공유합니다. 서버, 엔진 초기화, 새로운 요청 처리, 엔진의 메인 루프, 그리고 스케줄러의 다섯 가지 코드 섹션을 살펴보겠습니다. 1. vLLM ServervLLM은 FastAPI를 사용하여 서버를 호스팅합니다. 서버 내에서 AsyncLLMEngine이 인스턴스화됩니다. 이름과 달리 AsyncLLMEn..

vllm 2025. 4. 20. 14:04
디코딩 알고리즘 종류

https://huggingface.co/docs/transformers/generation_strategies#decoding-strategieshttps://huggingface.co/blog/how-to-generatehttps://dytis.tistory.com/53 1. 이야기 주제이번에는 LLM에서 Greedy Decoding 외에 어떤 디코딩 전략들이 있는지를 설명합니다.2. 이야기할 전략은 총 네 가지입니다Greedy Decoding (기본)Sampling (Top-k, Top-p)Beam SearchContrastive Search (최신 기법)3. 결론부터 말하면디코딩은 LLM이 다음 토큰을 선택하는 방식이며,각 전략은 속도, 다양성, 정확성 간의 trade-off를 조절합니다.→ 상..

카테고리 없음 2025. 4. 19. 11:55
이전 1 다음
이전 다음
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
  • 자기소개
  • 깃허브
TAG
  • 주피터노트북 설치
  • 혁펜하임
  • 크론탭
  • 자바인강
  • 파이참
  • EC2
  • 자바 인강
  • 스프링 프레임워크 핵심 기술
  • linter
  • 유용한웹사이트
  • 자바 인강이 듣고 싶다면 => https://bit.ly/3ilMbIO
  • 자스계의백과사전
  • hot
  • AWS
  • 언제나 함께해요
  • 패스트캠퍼스
  • 세션불일치
  • 디비
  • CKA
  • 자바
  • 딥러닝책
  • 딥러닝
  • 환경세팅
  • 참고 링크
  • 쿠버네티스
  • https://cupjoo.tistory.com/96
  • 마크다운
  • 패스트 캠퍼스
  • pycharm
  • 쉘스크립트
more
«   2025/04   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30
글 보관함

성실한 노동과 공부, 주변 개발자들에 대한 믿음, 그리고 약간의 위트면 인생 다산거죠

티스토리툴바