스토리 · 연속 1일 · 2026-06-04
llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가
1개 기사Mobile · AI/LLM · Performance
타임라인
- 2026-06-04
Qwen3.5는 최신 중국 대형 언어 모델로, MTP(Multi-Token Prediction)는 추론 속도를 높이는 기술입니다. llama.cpp에서 이를 지원함으로써 로컬에서 더 빠른 추론이 가능해집니다.
· 매일 08:00 KST
스토리 · 연속 1일 · 2026-06-04
타임라인
Qwen3.5는 최신 중국 대형 언어 모델로, MTP(Multi-Token Prediction)는 추론 속도를 높이는 기술입니다. llama.cpp에서 이를 지원함으로써 로컬에서 더 빠른 추론이 가능해집니다.