어느덧 한 주가 지나버린 주간 아침 주간 AI #13 입니다.
GGML과 llama.cpp가 Hugging Face에 합류하며 로컬 AI의 새 시대를 열고, Microsoft Agent Framework RC가 .NET/Python 기반 에이전트 개발의 안정적 기반을 제공합니다. Cursor의 클라우드 에이전트가 내부 PR의 35%를 처리하고, OpenAI Codex와 Figma의 MCP 기반 코드-디자인 통합이 100만+ 주간 사용자에게 제공됩니다. 한편, Anthropic의 RCT 연구에서 AI 코딩 도구가 주니어 개발자의 스킬 형성을 17% 저하시킨다는 충격적 결과가 나왔고, 멀티 에이전트 시스템의 숨겨진 비용과 98% 정확도가 10개 에이전트 체인에서 81.7%로 추락하는 복합 실패 수학이 공개되었습니다. Context Engineering의 12단계 상용 가이드부터 자기 개선 코딩 에이전트 bmo의 실험 교훈까지, 에이전트 시대의 실전 지식을 만나보세요.
주요 뉴스
Microsoft Agent Framework RC 출시 — .NET과 Python 기반 에이전트 개발의 안정적 토대
Microsoft가 Agent Framework의 RC(Release Candidate) 버전을 공개했습니다. Semantic Kernel과 AutoGen을 계승하는 오픈소스 프레임워크로, .NET과 Python을 지원하며 안정적인 API, MCP(Model Context Protocol) 지원, 멀티 에이전트 오케스트레이션을 제공합니다. 이제 프로덕션 환경에서의 에이전트 개발이 한층 수월해집니다.
GitHub Copilot CLI 정식 출시 — 터미널에서 에이전트와 함께 코딩하기
GitHub Copilot CLI가 GA(정식 출시)되었습니다. Plan 모드와 Autopilot 모드를 통해 터미널에서 에이전트 기반 코딩이 가능하며, MCP 서버 연결, 멀티모델 지원, 무한 세션 기능을 제공합니다. 터미널을 떠나지 않고도 AI와 협업하는 새로운 워크플로우가 열립니다.
Anthropic 연구: AI 코딩 도구가 주니어 개발자의 스킬 형성을 방해한다
Anthropic이 52명의 엔지니어를 대상으로 한 무작위 대조 시험(RCT) 결과를 발표했습니다. AI 도구를 사용한 그룹은 퀴즈에서 50%를 기록한 반면, 수동 코딩 그룹은 67%를 달성해 AI 그룹의 스킬 형성이 17% 낮았습니다. AI가 생산성은 높이지만 학습을 저해할 수 있다는 경고입니다.
Anthropic, DeepSeek의 Claude 모델 증류를 공식 비난
Anthropic이 중국 AI 기업 DeepSeek가 Claude 모델을 무단 증류(distillation)하여 자사 모델 개발에 활용했다고 공식 비난했습니다. AI 업계의 지적재산권 분쟁이 새로운 국면에 접어들고 있습니다.
Microsoft 임원들, AI가 신입 개발자 일자리를 잠식할 것을 우려
Azure CTO Mark Russinovich와 VP Scott Hanselman이 ACM 논문을 통해 AI 코딩 에이전트가 시니어에겐 생산성 부스트를, 주니어에겐 드래그 효과를 가져온다고 경고했습니다. 시니어 엔지니어의 멘토링 없이는 차세대 기술 리더 양성이 공동화될 수 있다며, 이는 모든 고객사에서 확인되는 현상이라고 밝혔습니다.
GGML과 llama.cpp, Hugging Face에 합류 — 로컬 AI의 새로운 도약
Georgi Gerganov와 GGML 팀이 Hugging Face에 합류했습니다. llama.cpp(로컬 추론의 핵심)와 transformers(모델 정의의 핵심)의 결합으로, 신규 모델의 원클릭 배포와 일반 사용자를 위한 로컬 추론 패키징 개선이 예정됩니다. “오픈소스 초지능을 세계에 접근 가능하게” 만드는 것이 공동 목표입니다.
OpenAI Codex와 Figma, MCP 기반 코드-디자인 통합 출시
OpenAI Codex와 Figma가 MCP 서버를 통한 양방향 코드-디자인 워크플로우를 공개했습니다. 코드에서 편집 가능한 Figma 디자인을 생성하고, 디자인에서 코드를 구현하는 라운드트립이 가능합니다. Codex는 주간 100만+ 사용자를 돌파했으며, 올해 사용량이 400% 이상 증가했습니다.
새로운 도구/서비스
Cursor 클라우드 에이전트 — 자체 VM에서 코드를 작성하는 AI
Cursor가 전용 VM에서 실행되는 클라우드 에이전트를 공개했습니다. 내부 PR의 30%를 클라우드 에이전트가 처리하며, 테스트 실행, 검증, 비디오 아티팩트 생성까지 자동화합니다. 개발자는 코드 작성에서 '공장 설계’로 역할이 전환되고 있습니다.
Google Gemini, 삼성 S26·Pixel 10·Uber에서 에이전트 기능 확장
Google이 Gemini의 에이전트 기능을 삼성 Galaxy S26, Pixel 10, Uber 등 다양한 플랫폼으로 확장합니다. 기기에서 직접 작업을 수행하는 에이전트 AI의 생태계가 빠르게 넓어지고 있습니다.
GitHub Copilot 코딩 에이전트 업데이트 — 모델 선택, 자체 리뷰, 보안 스캔
GitHub Copilot 코딩 에이전트에 모델 피커, 자체 코드 리뷰, 보안 스캐닝, 커스텀 에이전트 설정, CLI 핸드오프 기능이 추가되었습니다. 에이전트가 PR을 생성하고 스스로 리뷰까지 수행하는 완결형 워크플로우가 가능해졌습니다.
Claude Code Remote Control — 웹·iOS에서 로컬 머신 원격 제어
Simon Willison이 Claude Code의 원격 제어 기능을 리뷰했습니다. 웹, iOS, 데스크톱 앱에서 로컬 머신의 Claude Code를 제어할 수 있어, 이동 중에도 에이전트에게 작업을 지시할 수 있습니다. 아직 초기 단계지만 작동하는 “janky but working” 경험입니다.
Google Nano Banana 2 — Gemini 3.1 Flash Image로 고해상도 이미지 생성
Google이 Gemini 3.1 Flash Image 기반의 Nano Banana 2를 출시했습니다. 512px부터 4K까지 고해상도 이미지를 생성하며, Google 전 제품에 걸쳐 순차 적용됩니다. 텍스트와 이미지를 자연스럽게 결합하는 멀티모달 생성의 새 기준입니다.
Microsoft Copilot Tasks — 답변에서 실행으로, AI가 할 일을 대신하다
Microsoft가 Copilot Tasks를 발표했습니다. 자연어로 작업을 설명하면 AI가 자체 컴퓨터와 브라우저로 백그라운드에서 실행합니다. 반복 작업, 문서 생성, 예약, 물류 관리 등을 자동화하며, 돈 지출이나 메시지 전송 전에는 반드시 사용자 동의를 구합니다. 개발자가 아닌 모든 사용자를 위한 에이전트입니다.
VS Code 1.110 — 네이티브 브라우저, 백그라운드 에이전트, MCP 샌드박스
VS Code 1.110 Insiders에 네이티브 브라우저 통합, 백그라운드 에이전트 실행, /fork 명령, 프롬프트 큐잉, ~/.copilot/instructions 글로벌 설정, MCP 샌드박스가 추가되었습니다. 에디터 자체가 에이전트 플랫폼으로 진화하고 있습니다.
학습 자료
상용 에이전트 시스템을 위한 Context Engineering 완벽 가이드
Jeremy Daly의 15,000단어 규모 대작 가이드입니다. 타입드 메모리, 스코프 스토리지, 프로모션 게이트, 트레이스 엔벨로프, 멀티테넌트 격리 등 12개 파트를 통해 상용 멀티테넌트 에이전트의 컨텍스트 인프라를 설계하는 방법을 상세히 다룹니다. "RAG는 족하지 않다 — 컨텍스트 엔진을 구축하라"는 핵심 메시지입니다.
OpenAI 프롬프트 캐싱 201 — 비용 50~90% 절감의 실전 기법
OpenAI의 심화 가이드로, 캐시 히트에 1,024+ 토큰이 필요하고, 프리픽스 안정성이 핵심이며, prompt_cache_key로 라우팅 고정 시 ~15 RPM을 달성할 수 있습니다. Responses API가 40~80% 더 나은 캐시율을 보이며, 확장 보존으로 최대 24시간 캐시가 유지됩니다.
GitHub: 멀티 에이전트 워크플로우가 자주 실패하는 이유와 설계 패턴
GitHub 엔지니어링 팀이 멀티 에이전트 시스템의 3가지 핵심 패턴을 제시합니다 — 타입드 스키마, 액션 스키마, MCP 강제 적용. 실패 우선 설계, 경계 검증, 액션 제약, 상태 로깅, 재시도 예상 등 분산 시스템으로 접근하는 설계 원칙을 강조합니다.
AI에게 규칙과 테스트로 코딩을 안내하는 7단계 워크플로우
freeCodeCamp의 실전 가이드로, 목표 → 규칙 → 예시 → 엣지 케이스 → 작은 단위 분할 → 테스트 → 반복의 7단계 워크플로우를 쇼핑 카트 예제와 함께 설명합니다. “사용자 가격을 절대 신뢰하지 마라”, 실패하는 테스트를 손전등처럼 활용하라는 실전 교훈이 담겨 있습니다.
AI 에이전트를 위한 좋은 스펙 작성법 — Addy Osmani의 5가지 원칙
Addy Osmani가 제시하는 5가지 원칙: (1) 높은 수준의 비전 먼저, (2) 6개 핵심 영역(명령어, 테스팅, 프로젝트 구조, 코드 스타일, Git 워크플로우, 경계)을 포함한 PRD 구조, (3) 하나의 거대 프롬프트 대신 모듈형 프롬프트, (4) 항상/먼저 물어보기/절대 안 됨의 3단계 경계와 자체 검사, (5) 반복적 테스트와 개선 사이클.
멀티 에이전트 시스템에 메모리 엔지니어링이 필요한 이유
O’Reilly 보고서에 따르면 멀티 에이전트 실패의 36%가 에이전트 간 정렬 오류에서 발생합니다. 메모리 엔지니어링의 5대 축(분류법, 영속성, 검색, 조율, 일관성)을 제시하며, 컨텍스트 부패가 에이전트 간 전파되고 단일 에이전트 대비 토큰 사용량이 15배에 달한다고 경고합니다.
Microsoft Tech Community의 튜토리얼로, Azure Functions를 활용하여 MCP(Model Context Protocol) 호환 앱을 구축하는 방법을 단계별로 안내합니다. 서버리스 환경에서 에이전트가 외부 도구와 데이터에 접근하는 실전 패턴을 제공합니다.
AI 개발의 세 번째 시대 — Tab에서 에이전트, 그리고 클라우드 에이전트로
Cursor가 AI 개발의 진화를 3단계로 정리합니다: Tab(자동완성) → 동기식 에이전트 → 클라우드 에이전트. 에이전트 사용자가 Tab 사용자의 2배이며, 클라우드 에이전트가 내부 PR의 35%를 처리합니다. 개발자의 역할이 '코드 작성’에서 '문제 정의 + 리뷰 + 피드백’으로 전환되고 있습니다.
인사이트
Docker 에이전틱 AI 현황 보고서 — 60%가 이미 프로덕션에 에이전트 배포
Docker의 조사에 따르면 60%의 조직이 에이전트를 프로덕션에 배포했으며, 94%가 전략적 우선순위로 봅니다. 40%가 보안을 최대 과제로 꼽고, 85%가 MCP를 알지만 엔터프라이즈 준비는 미흡합니다. 76%가 벤더 락인을 우려하며, 94%가 컨테이너를 사용합니다. "10년간의 변혁"이 시작되었습니다.
AI 바이브 코딩이 오픈소스를 위협한다 — cURL 버그 바운티 폐쇄, Ghostty AI 코드 금지
cURL이 6년간의 버그 바운티를 폐쇄하고, Ghostty가 AI 생성 코드를 금지하고, tldraw가 외부 PR을 자동 닫기 시작했습니다. "AI 슬로패거돈(Slopageddon)"이란 용어가 등장하며, Stack Overflow 활동이 25% 감소, Tailwind 문서 트래픽 -40%, 수익 -80%를 기록했습니다. OSS 지속가능성을 위한 “Spotify 모델” 펀딩 제안도 나왔습니다.
MCP, 프로덕션으로 올라가야 한다 — 런던 MCPconference 현장
런던 MCPconference 현장 요약입니다. MCP는 아직 자기 정체성을 찾는- 중이며, OAuth 2.1 기반 보안이 난제입니다. 도구가 컨텍스트 윈도우 공간을 차지하므로 점진적 공개(progressive disclosure) 개념이 필요하고, "지금까지 이렇게 쉽게 해킹당한 적이 없었다"는 보안 전문가의 경고가 인상적입니다.
빅테크의 에이전트 프레임워크 전쟁 — 컨테이너 전쟁의 재현
컨테이너 오케스트레이션 전쟁의 데자뷔입니다. AWS Strands+Bedrock, Google ADK+Vertex, MS Agent Framework+Foundry, OpenAI Agents SDK+API — 모두 무료 프레임워크를 뿌리고 유료 런타임으로 수익화합니다. 모델이 똑똑해질수록 프레임워크는 얇아지며, 진짜 가치는 컨텍스트 엔지니어링, 평가/관측성, 보안, 상호운용 프로토콜(MCP/A2A)에 있습니다. “에이전트의 Kubernetes는 프로토콜 레이어가 될 것.”
에이전틱 실패의 숨겨진 비용 — 98%가 81.7%로 추락하는 수학
O’Reilly의 Nicole Königstein이 멀티 에이전트 시스템의 복합 실패 수학을 공개합니다. 에이전트당 98% 정확도라도 10개 체인에서 시스템 정확도는 81.7%로 추락합니다. 검증 게이트(catch rate 90%)를 도입하면 유효 정확도가 99.8%로 올라가 10개 체인에서도 98%를 유지합니다. Pydantic/Instructor를 활용한 스키마 강제, best-of-N 탐색, GRPO/GSPO 강화학습이 대안입니다.
A2H(Agent-to-Human) 커뮤니케이션 프로토콜 소개
Twilio가 에이전트-인간 간 커뮤니케이션을 표준화하는 A2H 프로토콜을 발표했습니다. AI 에이전트가 사람과 소통하는 방식을 체계화하여, 에이전트 시대에 인간과의 상호작용 품질을 보장하는 새로운 표준을 제시합니다.
ngrok의 Joel Hans가 자기 개선 코딩 에이전트 bmo를 2주간 사용한 실험기입니다. 4가지 자기 개선 루프(즉시 빌드, 능동 학습, 세션 성찰, 배터리 교체)를 설계했으나, LLM의 "지연 본능"이 강력해 자기 개선이 병렬로 작동하지 못했습니다. 특수 도구(safe_read 87%, search_code 93%)가 범용 도구(run_command 84%)보다 신뢰성이 높았고, 텔레메트리가 자기 개선의 숨은 영웅이었습니다. “유연성은 비싸다 — 자주 하는 작업에서 run_command를 불필요하게 만드는 것이 진짜 개선.”
