Mrbaeksang
접속·오늘

· 매일 08:00 KST

스토리 · 연속 1일 · 2026-06-04

llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가

1개 기사Mobile · AI/LLM · Performance

타임라인

  1. 2026-06-04

    Qwen3.5는 최신 중국 대형 언어 모델로, MTP(Multi-Token Prediction)는 추론 속도를 높이는 기술입니다. llama.cpp에서 이를 지원함으로써 로컬에서 더 빠른 추론이 가능해집니다.

← 전체 아카이브로
llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가 · 백상현