№ 044 · 2026-06-04
№ 044
오늘은 PDF를 AI가 바로 읽게 만드는 오픈소스 파서 'opendataloader-pdf'가 하루 만에 573스타를 받으며 화제네요. PDF 파싱은 생각보다 까다로운 문제인데, 이 도구가 많은 개발자의 니즈를 정확히 짚은 것 같아요. 또한 4GB GPU로 70B 모델을 돌리는 AirLLM도 208스타를 기록하며 로컬 AI 실행에 대한 관심을 보여주고 있습니다.
릴리스 · 신모델
02 itemsllama.cpp, SYCL MoE Prefill 처리량 대폭 개선한 b9291 출시
llama.cpp b9291에서 SYCL 백엔드의 MoE(혼합 전문가) 모델 Prefill 처리량을 크게 개선했습니다. 기존 O(n_as * n_routed_rows) 복잡도를 O(n_as + n_routed_rows)로 줄여 Intel GPU 등 SYCL 기반 환경에서 MoE 모델 추론 속도가 향상됩니다.
- 출시 주체: ggerganov/llama.cpp b9291
- 가장 새로운 기능: SYCL 백엔드 MoE Prefill 처리량 개선 (O(n_as * n_routed_rows) → O(n_as + n_routed_rows))
- 기존 사용자에게 의미: Intel GPU 사용자는 MoE 모델 추론 속도 향상
- 신규 사용자에게 의미: SYCL 환경에서 llama.cpp 성능 더 좋아짐
- 설치 경로: GitHub Releases에서 바이너리 다운로드
얻는 것Intel GPU에서 MoE 모델(예: Mixtral, Qwen2-MoE)의 첫 응답 속도가 빨라집니다.
지금 할 일$llama.cpp b9291 바이너리를 다운로드하거나 소스에서 빌드해보세요.
왜 지금 — llama.cpp는 로컬 LLM 실행의 사실상 표준입니다. SYCL 백엔드는 Intel GPU 사용자에게 중요한데, MoE 모델의 Prefill 병목을 줄인 점이 의미 있습니다.
llama.cpp b9297, Qwen3.5 MTP 지원 위한 NVFP4 텐서 추가
llama.cpp b9297에서 NVIDIA FP4 (NVFP4) MTP(Multi-Token Prediction) 스케일 텐서를 추가했습니다. Qwen3.5 모델의 MTP 가중치를 지원하여 추론 정확도와 효율을 높입니다.
- 출시 주체: ggerganov/llama.cpp b9297
- 가장 새로운 기능: NVFP4 MTP 스케일 텐서 추가, Qwen3.5 MTP 텐서 연결
- 기존 사용자에게 의미: Qwen3.5 사용자는 MTP 기능 활용 가능
- 신규 사용자에게 의미: 최신 모델 지원 확대
- 설치 경로: GitHub Releases
얻는 것Qwen3.5 모델을 llama.cpp에서 더 정확하고 빠르게 실행할 수 있습니다.
지금 할 일$llama.cpp b9297로 업데이트하고 Qwen3.5 모델을 테스트해보세요.
왜 지금 — Qwen3.5는 최신 중국 대형 언어 모델로, MTP(Multi-Token Prediction)는 추론 속도를 높이는 기술입니다. llama.cpp에서 이를 지원함으로써 로컬에서 더 빠른 추론이 가능해집니다.
핫 레포
04 itemsPDF를 AI가 바로 읽게 만드는 오픈소스 파서 'opendataloader-pdf', 오늘 +573스타
Java 기반 오픈소스 PDF 파서 opendataloader-pdf가 공개됐어요. AI 학습용 데이터로 PDF를 바로 변환하고 접근성까지 자동화합니다. 현재 2만 3223 스타, 오늘 하루 573스타 추가되며 GitHub 트렌딩 1위를 기록 중이에요.
- PDF를 AI 학습용 데이터로 바로 변환해주는 오픈소스 파서
- 총 2만 3223 스타, 오늘 +573스타로 데일리 트렌딩 1위
- Java로 개발, PDF 접근성 자동화 기능 포함
- AI 데이터 파이프라인에서 PDF 전처리 병목 해소
- GitHub에서 바로 클론해서 써볼 수 있음
얻는 것AI 학습용 PDF 데이터를 별도 API 없이 로컬에서 바로 파싱할 수 있어요. 접근성 태그 자동 생성도 지원해서 문서 처리 자동화에 활용 가능합니다.
지금 할 일$GitHub에서 opendataloader-pdf 레포를 방문해 README를 읽어보세요.
왜 지금 — PDF는 여전히 많은 데이터가 저장된 형식인데, AI가 읽기 좋게 파싱하는 게 생각보다 어려워요. 이 레포는 그 문제를 오픈소스로 해결하려는 시도라서 의미가 큽니다.
4GB GPU로 70B 모델 돌리는 'AirLLM', 오늘 +208스타
AirLLM은 단일 4GB GPU로 70B 파라미터 LLM 추론을 가능하게 하는 오픈소스 프로젝트예요. 메모리 최적화 기법으로 고사양 GPU 없이도 대형 모델을 쓸 수 있게 해줍니다. 현재 1만 8857 스타, 오늘 208스타 추가됐습니다.
- 4GB GPU로 70B 모델 추론 가능하게 하는 최적화 기법
- 총 1만 8857 스타, 오늘 +208스타
- Jupyter Notebook 기반, lyogavin 개발
- 로컬에서 대형 LLM을 돌리고 싶은 개발자에게 유용
- GitHub에서 바로 코드와 사용법 확인
얻는 것4GB GPU만 있어도 70B 모델을 추론할 수 있는 방법을 배우고 바로 적용할 수 있어요.
지금 할 일$레포의 설치 가이드를 따라 로컬에서 테스트해보세요.
왜 지금 — 고가 GPU 없이도 대형 모델을 쓸 수 있다는 게 매력적이에요. 로컬 AI 실행을 원하는 많은 개발자에게 실질적인 도구입니다.
개인 트레이딩 에이전트 'Vibe-Trading', 오늘 +221스타
HKUDS에서 만든 개인 맞춤형 트레이딩 에이전트 Vibe-Trading이 공개됐어요. Python 기반으로, 사용자 감정이나 시장 분위기(vibe)를 반영한 트레이딩 전략을 제안합니다. 현재 9861 스타, 오늘 221스타 추가됐습니다.
- 개인 맞춤형 트레이딩 에이전트, 시장 분위기 반영
- 총 9861 스타, 오늘 +221스타
- Python 기반, HKUDS(홍콩대) 연구팀 개발
- AI 에이전트가 투자 판단을 도와주는 트렌드 반영
- GitHub에서 코드와 예제 확인 가능
얻는 것자신만의 트레이딩 에이전트를 로컬에서 돌려볼 수 있어요. 시장 데이터를 분석해 매매 신호를 제안받는 식입니다.
지금 할 일$레포의 README를 보고 설치 방법을 확인해보세요.
왜 지금 — AI 에이전트가 금융 트레이딩까지 영역을 넓히는 흐름을 보여줘요. 개인 투자자도 쓸 수 있는 오픈소스라는 점이 흥미롭습니다.
사이버보안 분석을 위한 그래프 기반 조사 플랫폼 'flowsint', 오늘 +190스타
reconurge/flowsint는 사이버보안 분석가를 위한 시각적이고 유연한 그래프 기반 조사 플랫폼이에요. TypeScript로 개발됐으며, 보안 위협 추적과 분석을 직관적으로 할 수 있습니다. 현재 4477 스타, 오늘 190스타 추가됐습니다.
- 사이버보안 분석을 위한 그래프 기반 시각적 조사 플랫폼
- 총 4477 스타, 오늘 +190스타
- TypeScript 기반, reconurge 개발
- 보안 분석가가 위협을 그래프로 연결해 추적 가능
- GitHub에서 데모와 문서 확인
얻는 것사이버보안 위협을 그래프로 시각화하고 분석할 수 있는 도구를 무료로 쓸 수 있어요.
지금 할 일$레포의 스크린샷과 문서를 보고 어떤 식으로 동작하는지 살펴보세요.
왜 지금 — 보안 분석 도구는 대부분 복잡한데, flowsint는 그래프 UI로 직관성을 높였어요. 오픈소스라서 커스터마이징도 자유롭습니다.
주목할 페이퍼
01 items멀티스트림 LLM: AI 에이전트의 단일 스트림 병목 해소
기존 LLM은 메시지를 주고받는 단일 스트림 방식으로 동작해 에이전트가 생각하는 동안 도구 호출이나 출력을 못 하는 병목이 있었어요. 새 논문 'Multi-Stream LLMs'는 생각, 입력, 출력을 병렬 스트림으로 처리하는 아키텍처를 제안해 에이전트의 효율과 응답성을 크게 높일 수 있다고 해요.
- 기존 LLM 에이전트는 단일 메시지 스트림으로 동작해 생각(CoT) 중에는 도구 호출이나 출력을 못 하는 병목 존재
- Multi-Stream LLM은 생각, 입력, 출력을 각각 독립적인 병렬 스트림으로 분리해 동시 처리 가능
- 에이전트가 추론하면서 동시에 도구를 호출하거나 중간 결과를 출력할 수 있어 응답 속도와 효율 개선
- 코드 작성이나 컴퓨터 사용 같은 복잡한 에이전트 작업에서 특히 유용할 것으로 예상
- 기존 모델 아키텍처 변경 없이도 적용 가능한 방식인지, 실제 구현 난이도는 아직 공개되지 않음
얻는 것LLM 에이전트가 왜 느린지, 그 원인과 해결 방안을 이해할 수 있어요. 앞으로 나올 멀티스트림 기반 에이전트 설계의 방향성을 미리 알 수 있어요.
지금 할 일$논문 원문을 읽어보고, 자신의 에이전트 프로젝트에 단일 스트림 병목이 있는지 점검해보세요.
왜 지금 — LLM 에이전트의 가장 큰 병목 중 하나인 '생각하는 동안 아무것도 못 하는' 문제를 해결할 수 있는 새로운 패러다임을 제시했어요. 실제 구현 가능하다면 AI 에이전트의 UX와 효율이 크게 바뀔 수 있어요.
내일은 llama.cpp의 SYCL MoE Prefill 개선이 실제 Intel GPU 사용자에게 어떤 성능 차이를 가져올지 벤치마크 결과가 나올지 주목됩니다. 로컬 LLM 생태계가 점점 더 다양한 하드웨어를 지원하는 방향으로 가고 있네요.
단톡방에 공유
카카오톡 공유 버튼 한 번 누르면 단톡방 여러 개에 카드 형태로 한 번에 보낼 수 있어요. 텍스트 붙여넣기로 보내고 싶으면 펼치기 눌러서 전체 텍스트 복사.