№ 044 · 2026-06-04

№ 044

오늘은 PDF를 AI가 바로 읽게 만드는 오픈소스 파서 'opendataloader-pdf'가 하루 만에 573스타를 받으며 화제네요. PDF 파싱은 생각보다 까다로운 문제인데, 이 도구가 많은 개발자의 니즈를 정확히 짚은 것 같아요. 또한 4GB GPU로 70B 모델을 돌리는 AirLLM도 208스타를 기록하며 로컬 AI 실행에 대한 관심을 보여주고 있습니다.

릴리스 · 신모델

02 items

01
llama.cpp, SYCL MoE Prefill 처리량 대폭 개선한 b9291 출시
llama.cpp b9291에서 SYCL 백엔드의 MoE(혼합 전문가) 모델 Prefill 처리량을 크게 개선했습니다. 기존 O(n_as * n_routed_rows) 복잡도를 O(n_as + n_routed_rows)로 줄여 Intel GPU 등 SYCL 기반 환경에서 MoE 모델 추론 속도가 향상됩니다.
- 출시 주체: ggerganov/llama.cpp b9291
- 가장 새로운 기능: SYCL 백엔드 MoE Prefill 처리량 개선 (O(n_as * n_routed_rows) → O(n_as + n_routed_rows))
- 기존 사용자에게 의미: Intel GPU 사용자는 MoE 모델 추론 속도 향상
- 신규 사용자에게 의미: SYCL 환경에서 llama.cpp 성능 더 좋아짐
- 설치 경로: GitHub Releases에서 바이너리 다운로드
얻는 것
Intel GPU에서 MoE 모델(예: Mixtral, Qwen2-MoE)의 첫 응답 속도가 빨라집니다.
지금 할 일
$llama.cpp b9291 바이너리를 다운로드하거나 소스에서 빌드해보세요.
왜 지금 — llama.cpp는 로컬 LLM 실행의 사실상 표준입니다. SYCL 백엔드는 Intel GPU 사용자에게 중요한데, MoE 모델의 Prefill 병목을 줄인 점이 의미 있습니다.
github-releases6/10스토리
02
llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가
llama.cpp b9297에서 NVIDIA FP4 (NVFP4) MTP(Multi-Token Prediction) 스케일 텐서를 추가했습니다. Qwen3.5 모델의 MTP 가중치를 지원하여 추론 정확도와 효율을 높입니다.
- 출시 주체: ggerganov/llama.cpp b9297
- 가장 새로운 기능: NVFP4 MTP 스케일 텐서 추가, Qwen3.5 MTP 텐서 연결
- 기존 사용자에게 의미: Qwen3.5 사용자는 MTP 기능 활용 가능
- 신규 사용자에게 의미: 최신 모델 지원 확대
- 설치 경로: GitHub Releases
얻는 것
Qwen3.5 모델을 llama.cpp에서 더 정확하고 빠르게 실행할 수 있습니다.
지금 할 일
$llama.cpp b9297로 업데이트하고 Qwen3.5 모델을 테스트해보세요.
왜 지금 — Qwen3.5는 최신 중국 대형 언어 모델로, MTP(Multi-Token Prediction)는 추론 속도를 높이는 기술입니다. llama.cpp에서 이를 지원함으로써 로컬에서 더 빠른 추론이 가능해집니다.
github-releases5/10스토리

핫 레포

04 items

01
PDF를 AI가 바로 읽게 만드는 오픈소스 파서 'opendataloader-pdf', 오늘 +573스타
Java 기반 오픈소스 PDF 파서 opendataloader-pdf가 공개됐어요. AI 학습용 데이터로 PDF를 바로 변환하고 접근성까지 자동화합니다. 현재 2만 3223 스타, 오늘 하루 573스타 추가되며 GitHub 트렌딩 1위를 기록 중이에요.
- PDF를 AI 학습용 데이터로 바로 변환해주는 오픈소스 파서
- 총 2만 3223 스타, 오늘 +573스타로 데일리 트렌딩 1위
- Java로 개발, PDF 접근성 자동화 기능 포함
- AI 데이터 파이프라인에서 PDF 전처리 병목 해소
- GitHub에서 바로 클론해서 써볼 수 있음
얻는 것
AI 학습용 PDF 데이터를 별도 API 없이 로컬에서 바로 파싱할 수 있어요. 접근성 태그 자동 생성도 지원해서 문서 처리 자동화에 활용 가능합니다.
지금 할 일
$GitHub에서 opendataloader-pdf 레포를 방문해 README를 읽어보세요.
왜 지금 — PDF는 여전히 많은 데이터가 저장된 형식인데, AI가 읽기 좋게 파싱하는 게 생각보다 어려워요. 이 레포는 그 문제를 오픈소스로 해결하려는 시도라서 의미가 큽니다.
github-trending7/10스토리
02
4GB GPU로 70B 모델 돌리는 'AirLLM', 오늘 +208스타
AirLLM은 단일 4GB GPU로 70B 파라미터 LLM 추론을 가능하게 하는 오픈소스 프로젝트예요. 메모리 최적화 기법으로 고사양 GPU 없이도 대형 모델을 쓸 수 있게 해줍니다. 현재 1만 8857 스타, 오늘 208스타 추가됐습니다.
- 4GB GPU로 70B 모델 추론 가능하게 하는 최적화 기법
- 총 1만 8857 스타, 오늘 +208스타
- Jupyter Notebook 기반, lyogavin 개발
- 로컬에서 대형 LLM을 돌리고 싶은 개발자에게 유용
- GitHub에서 바로 코드와 사용법 확인
얻는 것
4GB GPU만 있어도 70B 모델을 추론할 수 있는 방법을 배우고 바로 적용할 수 있어요.
지금 할 일
$레포의 설치 가이드를 따라 로컬에서 테스트해보세요.
왜 지금 — 고가 GPU 없이도 대형 모델을 쓸 수 있다는 게 매력적이에요. 로컬 AI 실행을 원하는 많은 개발자에게 실질적인 도구입니다.
github-trending7/10스토리
03
개인 트레이딩 에이전트 'Vibe-Trading', 오늘 +221스타
HKUDS에서 만든 개인 맞춤형 트레이딩 에이전트 Vibe-Trading이 공개됐어요. Python 기반으로, 사용자 감정이나 시장 분위기(vibe)를 반영한 트레이딩 전략을 제안합니다. 현재 9861 스타, 오늘 221스타 추가됐습니다.
- 개인 맞춤형 트레이딩 에이전트, 시장 분위기 반영
- 총 9861 스타, 오늘 +221스타
- Python 기반, HKUDS(홍콩대) 연구팀 개발
- AI 에이전트가 투자 판단을 도와주는 트렌드 반영
- GitHub에서 코드와 예제 확인 가능
얻는 것
자신만의 트레이딩 에이전트를 로컬에서 돌려볼 수 있어요. 시장 데이터를 분석해 매매 신호를 제안받는 식입니다.
지금 할 일
$레포의 README를 보고 설치 방법을 확인해보세요.
왜 지금 — AI 에이전트가 금융 트레이딩까지 영역을 넓히는 흐름을 보여줘요. 개인 투자자도 쓸 수 있는 오픈소스라는 점이 흥미롭습니다.
github-trending6/10스토리
04
사이버보안 분석을 위한 그래프 기반 조사 플랫폼 'flowsint', 오늘 +190스타
reconurge/flowsint는 사이버보안 분석가를 위한 시각적이고 유연한 그래프 기반 조사 플랫폼이에요. TypeScript로 개발됐으며, 보안 위협 추적과 분석을 직관적으로 할 수 있습니다. 현재 4477 스타, 오늘 190스타 추가됐습니다.
- 사이버보안 분석을 위한 그래프 기반 시각적 조사 플랫폼
- 총 4477 스타, 오늘 +190스타
- TypeScript 기반, reconurge 개발
- 보안 분석가가 위협을 그래프로 연결해 추적 가능
- GitHub에서 데모와 문서 확인
얻는 것
사이버보안 위협을 그래프로 시각화하고 분석할 수 있는 도구를 무료로 쓸 수 있어요.
지금 할 일
$레포의 스크린샷과 문서를 보고 어떤 식으로 동작하는지 살펴보세요.
왜 지금 — 보안 분석 도구는 대부분 복잡한데, flowsint는 그래프 UI로 직관성을 높였어요. 오픈소스라서 커스터마이징도 자유롭습니다.
github-trending5/10스토리

주목할 페이퍼

01 items

01
멀티스트림 LLM: AI 에이전트의 단일 스트림 병목 해소
기존 LLM은 메시지를 주고받는 단일 스트림 방식으로 동작해 에이전트가 생각하는 동안 도구 호출이나 출력을 못 하는 병목이 있었어요. 새 논문 'Multi-Stream LLMs'는 생각, 입력, 출력을 병렬 스트림으로 처리하는 아키텍처를 제안해 에이전트의 효율과 응답성을 크게 높일 수 있다고 해요.
- 기존 LLM 에이전트는 단일 메시지 스트림으로 동작해 생각(CoT) 중에는 도구 호출이나 출력을 못 하는 병목 존재
- Multi-Stream LLM은 생각, 입력, 출력을 각각 독립적인 병렬 스트림으로 분리해 동시 처리 가능
- 에이전트가 추론하면서 동시에 도구를 호출하거나 중간 결과를 출력할 수 있어 응답 속도와 효율 개선
- 코드 작성이나 컴퓨터 사용 같은 복잡한 에이전트 작업에서 특히 유용할 것으로 예상
- 기존 모델 아키텍처 변경 없이도 적용 가능한 방식인지, 실제 구현 난이도는 아직 공개되지 않음
얻는 것
LLM 에이전트가 왜 느린지, 그 원인과 해결 방안을 이해할 수 있어요. 앞으로 나올 멀티스트림 기반 에이전트 설계의 방향성을 미리 알 수 있어요.
지금 할 일
$논문 원문을 읽어보고, 자신의 에이전트 프로젝트에 단일 스트림 병목이 있는지 점검해보세요.
왜 지금 — LLM 에이전트의 가장 큰 병목 중 하나인 '생각하는 동안 아무것도 못 하는' 문제를 해결할 수 있는 새로운 패러다임을 제시했어요. 실제 구현 가능하다면 AI 에이전트의 UX와 효율이 크게 바뀔 수 있어요.
arxiv7/10스토리

내일은 llama.cpp의 SYCL MoE Prefill 개선이 실제 Intel GPU 사용자에게 어떤 성능 차이를 가져올지 벤치마크 결과가 나올지 주목됩니다. 로컬 LLM 생태계가 점점 더 다양한 하드웨어를 지원하는 방향으로 가고 있네요.

단톡방에 공유

카카오톡 공유 버튼 한 번 누르면 단톡방 여러 개에 카드 형태로 한 번에 보낼 수 있어요. 텍스트 붙여넣기로 보내고 싶으면 펼치기 눌러서 전체 텍스트 복사.

← № 043 · 2026-06-03

아카이브

· 최신 호 ·

№ 044

llama.cpp, SYCL MoE Prefill 처리량 대폭 개선한 b9291 출시↗

llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가↗

PDF를 AI가 바로 읽게 만드는 오픈소스 파서 'opendataloader-pdf', 오늘 +573스타↗

4GB GPU로 70B 모델 돌리는 'AirLLM', 오늘 +208스타↗

개인 트레이딩 에이전트 'Vibe-Trading', 오늘 +221스타↗

사이버보안 분석을 위한 그래프 기반 조사 플랫폼 'flowsint', 오늘 +190스타↗

멀티스트림 LLM: AI 에이전트의 단일 스트림 병목 해소↗

llama.cpp, SYCL MoE Prefill 처리량 대폭 개선한 b9291 출시

llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가

PDF를 AI가 바로 읽게 만드는 오픈소스 파서 'opendataloader-pdf', 오늘 +573스타

4GB GPU로 70B 모델 돌리는 'AirLLM', 오늘 +208스타

개인 트레이딩 에이전트 'Vibe-Trading', 오늘 +221스타

사이버보안 분석을 위한 그래프 기반 조사 플랫폼 'flowsint', 오늘 +190스타

멀티스트림 LLM: AI 에이전트의 단일 스트림 병목 해소