스토리 · 연속 1일 · 2026-06-04

llama.cpp, SYCL MoE Prefill 처리량 대폭 개선한 b9291 출시

1개 기사Mobile · AI/LLM · Performance

타임라인

2026-06-04
llama.cpp는 로컬 LLM 실행의 사실상 표준입니다. SYCL 백엔드는 Intel GPU 사용자에게 중요한데, MoE 모델의 Prefill 병목을 줄인 점이 의미 있습니다.
- github.com/ggml-org/llama.cpp/releases/tag/b9291