№ 041 · 2026-06-01
№ 041
오늘 뉴스레터는 AI 구독을 다시 생각해 보자는 글에서 시작해 볼까 해요. 기술은 계속 발전하지만, 우리 삶에 꼭 필요한지, 비용은 괜찮은지 같은 질문들을 던지고 있거든요. vLLM 같은 서빙 프레임워크 업데이트 소식도 있지만, 결국은 AI를 어떻게 '잘' 쓸지가 더 중요해지는 요즘입니다.
오늘의 헤드라인
01 itemsAI 구독 취소, 그것이 해결책일지도 모른다는 고찰
최근 HN에서 329점의 높은 공감을 얻은 글입니다. AI 서비스 구독료 부담이 커지면서, 오히려 AI 사용을 줄이거나 구독을 취소하는 것이 합리적인 해결책이 될 수 있다는 주장이 나왔습니다. AI의 효용성과 비용 사이의 균형점을 다시 생각하게 합니다.
- AI 구독료 부담이 커지면서, 비용 대비 효용성에 대한 의문이 제기되고 있습니다.
- 글쓴이는 AI 사용을 줄이거나 구독을 취소하는 것이 오히려 합리적인 선택일 수 있다고 주장합니다.
- AI 기술 발전 속도와 실제 업무 적용 사이의 간극이 구독 취소 논의를 촉발했습니다.
- AI 서비스의 과도한 비용 지출에 대한 개발자 커뮤니티의 솔직한 고민을 담고 있습니다.
얻는 것AI 구독료 지출에 대한 새로운 관점과 함께, 자신에게 맞는 AI 활용 방안을 재점검할 기회를 얻습니다.
지금 할 일$자신의 AI 구독 목록을 돌아보고, 비용 대비 효용성을 따져보세요.
왜 지금 — AI 기술이 빠르게 발전하고 있지만, 실제 사용자의 비용 부담과 효용성에 대한 현실적인 고민이 깊어지고 있습니다. 이 글은 AI 도입의 현주소를 짚어보며, 기술의 발전 방향과 사용자 경험 사이의 균형점을 다시 생각하게 합니다.
릴리스 · 신모델
02 itemsvLLM, Transformers v4 지원 중단 및 C++20 요구하는 v0.21.0 출시
vLLM이 v0.21.0 버전을 출시했습니다. 이번 업데이트는 기존 Transformers v4 지원을 공식적으로 중단하고 C++20 컴파일러를 요구하는 것이 특징입니다. 또한 KV 오프로딩 서브시스템과 하이브리드 메모리 할당기(HMA) 통합이 개선되었습니다.
- vLLM v0.21.0 버전 출시, 20명의 기여자 참여
- Transformers v4 지원 공식 중단 및 v5로의 마이그레이션 권고
- C++20 호환 컴파일러 필수 요구사항으로 변경 (빌드 호환성 변경)
- KV 오프로딩 서브시스템과 하이브리드 메모리 할당기(HMA) 통합 강화
- 새로운 빌드 요구사항으로 인해 기존 사용자들은 컴파일러 업데이트 필요
얻는 것vLLM 최신 버전으로 업그레이드 시, 더 안정적이고 효율적인 모델 서빙 환경을 구축할 수 있습니다. 특히 대규모 모델 운영 시 메모리 관리 개선 효과를 기대할 수 있습니다.
지금 할 일$vLLM 사용 중이라면, v0.21.0으로 업데이트하고 C++20 컴파일러 환경을 준비하세요.
왜 지금 — AI 모델 서빙 프레임워크인 vLLM의 이번 업데이트는 PyTorch와의 호환성을 높이고 최신 C++ 표준을 도입하며, 메모리 관리 효율성을 개선하여 대규모 언어 모델 운영의 안정성과 성능을 한 단계 끌어올립니다.
llama.cpp, 추론 속도 높이는 MTP 지원 추가한 b9180 릴리스
llama.cpp가 새로운 b9180 버전을 공개했습니다. 이번 업데이트의 핵심은 추론 모델을 위한 MTP(Multi-Turn Prediction) 지원 추가로, 특히 추측적 디코딩(speculative decoding) 시 성능 향상을 기대할 수 있습니다.
- llama.cpp, b9180 버전으로 업데이트
- 추측적 디코딩(speculative decoding)을 위한 MTP(Multi-Turn Prediction) 지원 추가
- MTP 지원으로 모델의 추론 속도 및 효율성 향상 기대
- 새로운 MTP 모델 식별을 위한 'mtp-' 접두사 사용
- 기존 llama.cpp 사용자들은 MTP 지원 모델 활용 시 성능 개선 가능
얻는 것llama.cpp를 사용해 MTP 지원 모델을 실행하면, 추론 속도가 향상되어 더 부드러운 AI 경험을 할 수 있습니다. 특히 복잡한 추론 작업에서 효과를 볼 수 있습니다.
지금 할 일$llama.cpp 최신 버전으로 업데이트하고 MTP 지원 모델을 테스트해보세요.
왜 지금 — 로컬 LLM 실행의 표준으로 자리 잡은 llama.cpp가 추측적 디코딩 성능을 개선하는 MTP 지원을 추가하며, 더 빠르고 효율적인 AI 모델 실행 환경을 제공합니다. 이는 개인용 AI 기기나 제한된 환경에서의 LLM 활용성을 높입니다.
핫 레포
01 itemsHermes WebUI 등장: 웹·폰에서 Hermes Agent 쓴다
Hermes Agent를 웹브라우저나 휴대폰에서 바로 쓸 수 있는 WebUI가 나왔어요. 파이썬 기반이며 현재 9,917 스타, 오늘만 320 스타 추가되며 빠르게 확산 중입니다. 공식 앱 없이도 Hermes Agent를 어디서든 쓸 수 있게 된 셈이죠.
- Hermes Agent를 웹/모바일에서 사용 가능하게 만든 WebUI
- 파이썬 기반, 현재 9,917 스타, 오늘 +320 스타 추가
- 공식 Hermes Agent CLI만 있던 문제를 해결, 접근성 대폭 향상
- 직접 설치 없이도 웹에서 바로 Hermes Agent 실험 가능
- README에서 설치·실행 방법 확인: pip install 후 바로 시작
얻는 것Hermes Agent를 웹이나 폰에서 써볼 수 있는 방법을 알게 됩니다. 터미널 없이도 복잡한 에이전트 작업을 시도할 수 있어요.
지금 할 일$pip install hermes-webui 로 설치하고 브라우저에서 localhost 열어보기
왜 지금 — AI 에이전트는 보통 터미널 중심이다 보니 일반 사용자 접근이 어려운데, Hermes WebUI는 브라우저와 모바일에서도 쓸 수 있게 열어줬어요. 에이전트 대중화의 작은 신호로 볼 수 있습니다.
개발 툴
02 itemsClaude Code 개발자를 위한 TDD 툴킷 'EvanFlow' 등장
HN에서 102점의 주목을 받은 'EvanFlow'는 Claude Code 사용자를 위한 테스트 주도 개발(TDD) 피드백 루프 도구입니다. 이 도구를 사용하면 Claude Code로 작성된 코드에 대한 테스트 케이스를 쉽게 만들고, 코드 변경 시 즉각적인 피드백을 받아 개발 효율성을 높일 수 있습니다.
- Claude Code 개발자를 위한 TDD(테스트 주도 개발) 지원 도구 'EvanFlow'가 공개되었습니다.
- 코드 변경 시 즉각적인 피드백을 제공하여 개발 생산성을 향상시킵니다.
- 테스트 케이스 작성 및 관리를 간소화하여 코드 품질을 높이는 데 기여합니다.
- AI 코딩 도구와 전통적인 개발 방법론을 결합하는 새로운 시도를 보여줍니다.
얻는 것Claude Code를 사용하며 코드 품질과 개발 속도를 동시에 높일 수 있는 새로운 도구와 방법을 알게 됩니다.
지금 할 일$Claude Code를 사용한다면 EvanFlow를 설치하고 TDD 워크플로우에 적용해보세요.
왜 지금 — AI 코딩 도구가 보편화되면서, AI로 생성된 코드의 품질을 보증하고 안정성을 확보하는 것이 중요해지고 있습니다. EvanFlow는 TDD라는 검증된 개발 방법론을 AI 코딩에 적용하여 이러한 문제를 해결하려는 시도로 주목받고 있습니다.
AI 에이전트 위한 초저토큰 코드 검색기 'Semble' 등장
HN에서 97점의 관심을 받은 'Semble'은 AI 에이전트가 코드를 검색할 때 사용하는 토큰 수를 획기적으로 줄여주는 도구입니다. 기존 grep 방식 대비 98% 적은 토큰을 사용하면서도 높은 검색 정확도를 제공하여, LLM 기반 코드 분석 및 검색 비용을 절감할 수 있습니다.
- AI 에이전트의 코드 검색 효율성을 높이는 'Semble'이 오픈소스로 공개되었습니다.
- 기존 grep 방식 대비 토큰 사용량을 98% 이상 절감합니다.
- LLM 기반 코드 분석 및 검색 시 발생하는 비용을 크게 줄일 수 있습니다.
- 정적 임베딩과 BM25 검색을 결합하여 높은 정확도를 제공합니다.
얻는 것AI 에이전트 사용 시 발생하는 토큰 비용을 절감하고, 더 빠르고 정확한 코드 검색 기능을 활용할 수 있는 방법을 알게 됩니다.
지금 할 일$AI 에이전트나 LLM 기반 코드 분석 도구를 사용한다면 Semble을 설치하여 테스트해보세요.
왜 지금 — AI 에이전트가 복잡한 코드베이스를 다룰 때 발생하는 높은 토큰 비용은 큰 문제입니다. Semble은 이러한 비용 문제를 해결하며 AI 에이전트의 실질적인 활용도를 높이는 데 기여할 수 있습니다. 이는 AI 기반 개발 도구의 경제성과 효율성을 개선하는 중요한 발전입니다.
커뮤니티 반응
02 items로컬 기기에서도 쌩쌩! 1비트 본사이 이미지 생성 모델 4B 공개
HN에서 248점의 주목을 받은 '1-Bit Bonsai Image 4B' 모델이 공개되었습니다. 이 모델은 40억 개의 파라미터를 가지면서도 극도로 낮은 비트 수를 사용하여 로컬 기기에서도 효율적인 이미지 생성을 가능하게 합니다. 저사양 환경에서의 AI 이미지 생성 가능성을 열었습니다.
- 40억 개 파라미터의 '1-Bit Bonsai Image 4B' 모델이 로컬 기기 이미지 생성을 위해 출시되었습니다.
- 극도로 낮은 비트 수를 사용하여 메모리 및 연산 효율성을 극대화했습니다.
- 저사양 하드웨어에서도 고품질 이미지 생성이 가능해져 접근성이 크게 향상되었습니다.
- AI 이미지 생성 기술의 경량화 및 최적화 방향을 제시합니다.
얻는 것로컬 PC나 저사양 기기에서도 AI 이미지 생성을 시도해볼 수 있는 새로운 도구와 가능성을 알게 됩니다.
지금 할 일$1-Bit Bonsai Image 4B 모델의 데모나 코드를 찾아 로컬 환경에서 테스트해보세요.
왜 지금 — 최근 AI 모델들은 점점 더 거대해지고 있지만, 이 모델은 반대로 경량화와 효율성에 집중하여 로컬 환경에서의 AI 활용 가능성을 넓혔습니다. 이는 AI 접근성을 높이고 다양한 기기에서의 AI 적용을 촉진할 것입니다.
AI가 라디오 방송국을 운영한다면? 실험 결과 공개
HN에서 105점의 관심을 받은 흥미로운 실험입니다. Andon Labs에서 AI 에이전트에게 라디오 방송국 운영의 모든 권한을 주고, 인간 개입 없이 방송 송출과 비즈니스 운영을 맡겼습니다. AI가 만든 라디오 쇼는 때로는 재미있지만, 수익 창출에는 어려움을 겪는 모습이 관찰되었습니다.
- AI 에이전트에게 라디오 방송국 운영의 전권을 부여하는 실험이 진행되었습니다.
- 방송 송출, 광고 판매 등 비즈니스 전반을 AI가 인간 없이 수행했습니다.
- AI가 만든 라디오 쇼는 독특한 재미를 선사했지만, 수익성은 매우 낮았습니다.
- 인간의 창의성과 비즈니스 감각이 AI에게 아직은 필수적임을 시사합니다.
얻는 것AI가 실제 비즈니스를 운영할 때 발생할 수 있는 흥미로운 결과와 예상치 못한 문제점들을 간접적으로 경험할 수 있습니다.
지금 할 일$Andon Labs의 AI 라디오 방송국 'andon.fm'을 방문해 AI가 만든 쇼를 직접 들어보세요.
왜 지금 — AI가 인간의 영역으로 여겨졌던 창작 및 운영 분야까지 확장되는 현상을 보여줍니다. AI의 자율 운영 가능성과 한계를 동시에 보여주며, 미래 미디어 산업의 변화 가능성을 엿볼 수 있습니다.
AI가 우리 삶에 더 깊숙이 들어오면서, 기술 자체의 발전만큼이나 '어떻게' 활용할지에 대한 고민이 중요해지는 것 같아요. 앞으로도 이런 균형점을 찾아가는 여정을 함께 관찰해 봐요.
단톡방에 공유
카카오톡 공유 버튼 한 번 누르면 단톡방 여러 개에 카드 형태로 한 번에 보낼 수 있어요. 텍스트 붙여넣기로 보내고 싶으면 펼치기 눌러서 전체 텍스트 복사.