Google Gemini 3.1 Pro가 APEX 에이전트 리더보드 1위를 차지하고, Anthropic Claude Sonnet 4.6이 무료/유료 사용자 기본 모델로 등극하며, Microsoft Agent Framework가 Semantic Kernel과 AutoGen을 통합한 RC에 도달했습니다. GitHub Agentic Workflows는 저장소 자동화의 새 장을 열었고, AWS Agent Plugins과 Firebase Agent Skills이 코딩 에이전트 생태계를 확장합니다. Qwen3.5 397B 오픈웨이트 MoE 모델 공개, WebMCP 얼리 프리뷰, Visual Studio 커스텀 에이전트까지—Addy Osmani는 “지휘자에서 오케스트레이터로” 개발자 역할 전환을 선언하고, cURL Daniel Stenberg은 AI 슬롭이 오픈소스를 DDoS하면서 동시에 100개 이상 버그를 잡아내는 양면성을 경고합니다. Vibe coding의 불편한 진실부터 AI를 비결정적 의존성으로 설계해야 하는 이유까지, 이번 주는 에이전트 시대의 본격 개막을 알리는 한 주였습니다.
주요 뉴스
Google Gemini 3.1 Pro, 역대 최고 벤치마크 점수를 또다시 경신
Google이 Gemini Pro의 최신 버전 3.1을 출시했습니다. 독립 벤치마크 Humanity’s Last Exam과 AI 스타트업 Mercor의 APEX-Agents 리더보드에서 1위를 차지하며 이전 버전 대비 대폭 성능이 향상되었습니다. CEO Brendan Foody는 "에이전트가 실제 지식 노동에서 얼마나 빠르게 개선되고 있는지 보여준다"고 평가했습니다.
Anthropic, Claude Sonnet 4.6을 무료/유료 사용자 기본 모델로 출시
Anthropic이 Claude Sonnet 4.6을 출시하며 Opus급 코딩 성능을 Sonnet 가격대에 제공합니다. Windsurf, Microsoft Foundry 등 주요 플랫폼에서 즉시 지원되며, 프론티어 성능과 확장성의 균형을 맞춘 모델로 평가받고 있습니다.
Microsoft Agent Framework, Release Candidate 도달
Semantic Kernel과 AutoGen의 후속인 Microsoft Agent Framework가 .NET과 Python 모두에서 RC 상태에 도달했습니다. 몇 줄의 코드로 에이전트를 생성하고, 순차/동시/핸드오프/그룹챗 등 그래프 기반 멀티에이전트 워크플로를 구성할 수 있으며, A2A·AG-UI·MCP 표준을 지원합니다.
GitHub Agentic Workflows, AI 기반 저장소 자동화 시대를 열다
GitHub이 기술 프리뷰로 Agentic Workflows를 공개했습니다. 마크다운 파일에 자연어로 자동화 목표를 정의하면 코딩 에이전트가 GitHub Actions를 통해 이슈 트리아지, 문서 업데이트, CI 트러블슈팅, 테스트 개선 등을 자동 수행합니다. 읽기 전용 기본 권한과 격리된 샌드박스로 보안 가드레일을 강화했습니다.
Meta, Nvidia와 수백만 개 AI 칩 대규모 계약 체결
Meta가 Nvidia의 Grace Vera 칩을 수백만 개 규모로 구매하는 대형 계약을 체결했습니다. AI 인프라 경쟁이 본격화되면서 빅테크 기업들의 AI 칩 확보 전쟁이 가속화되고 있습니다.
주요 테크 기업들, 보안 우려로 OpenClaw 금지 조치
Meta를 포함한 여러 대형 테크 기업들이 보안 우려를 이유로 OpenClaw 사용을 금지했습니다. 이전에 "무엇이든 하는 AI 어시스턴트"로 화제를 모았던 OpenClaw이 보안 취약점 문제로 "덤프스터 파이어"라는 비판을 받으며 업계의 신뢰를 잃고 있습니다.
새로운 도구/서비스
알리바바 Qwen이 3.5 시리즈 첫 모델 2종을 공개했습니다. 오픈웨이트 모델 Qwen3.5-397B-A17B는 Gated Delta Networks와 MoE 혼합 아키텍처로 총 397B 파라미터 중 17B만 활성화하여 추론 효율을 극대화합니다. 프로프라이어터리 버전 Qwen3.5 Plus는 1M 토큰 컨텍스트 길이를 지원합니다.
Google Chrome 팀이 에이전틱 웹을 위한 WebMCP를 얼리 프리뷰로 공개했습니다. 선언적 API(HTML 폼 기반)와 명령적 API(JavaScript 실행)를 통해 AI 에이전트가 웹사이트와 구조화된 방식으로 상호작용할 수 있는 표준을 제안합니다. 항공편 예약, 고객 지원, 이커머스 등의 사용 사례를 지원합니다.
AWS Agent Plugins 출시: 코딩 에이전트에 배포 스킬 부여
AWS가 Agent Plugins를 오픈소스로 출시했습니다. 첫 번째 deploy-on-aws 플러그인은 "Deploy to AWS"라고 말하면 코드베이스 분석→아키텍처 추천→비용 추정→CDK 코드 생성→배포까지 5단계를 자동 수행합니다. Claude Code와 Cursor에서 바로 사용 가능하며, 수시간 걸리던 배포 설정을 10분 이내로 단축합니다.
Firebase Agent Skills: 더 적은 토큰으로 더 나은 코드
Google이 Firebase용 Agent Skills를 출시했습니다. “프로그레시브 디스클로저” 방식으로 에이전트가 필요한 Firebase 문서만 선택적으로 로드하여 토큰 소비를 줄이고 정확도를 높입니다. 인증, Firestore, 보안 규칙, App Hosting, AI Logic 등 풀스택 웹 개발을 지원하며, 30개 이상의 AI 에이전트와 호환됩니다.
Visual Studio 커스텀 에이전트: 빌트인 + 나만의 에이전트
Visual Studio에 디버거, 프로파일러, 테스트, 모더나이즈 등 전문화된 프리셋 에이전트와 함께,
.github/agents/폴더에.agent.md파일로 커스텀 에이전트를 빌드할 수 있는 프리뷰 기능이 추가되었습니다. MCP를 통해 외부 지식 소스에 연결하여 코드 리뷰, 디자인 시스템 검증, 기획 등 팀 맞춤형 워크플로를 구성할 수 있습니다.
Budget Bytes: 25달러 이하로 강력한 AI 앱 만들기
Microsoft가 25달러 이하 예산으로 프로덕션급 AI 앱을 Azure에서 구축하는 에피소드 시리즈를 시작했습니다. Azure SQL Database 무료 오퍼를 활용하며, Microsoft Foundry부터 Copilot Studio, MCP까지 실제 비용을 라이브로 집계하는 실전형 튜토리얼입니다.
Anthropic이 Claude의 웹 검색 기능에 동적 필터링을 추가하여 검색 정확도와 효율성을 크게 개선했습니다. 에이전트가 실시간으로 검색 결과를 필터링하여 더 관련성 높은 정보를 빠르게 찾아줍니다.
학습 자료
지휘자에서 오케스트레이터로: 에이전틱 코딩의 미래 (Addy Osmani)
O’Reilly에 게재된 Addy Osmani의 심층 분석입니다. 개발자가 단일 에이전트를 지휘하는 "지휘자(Conductor)"에서 복수 에이전트를 병렬로 관리하는 "오케스트레이터(Orchestrator)"로 역할이 전환되고 있음을 설명합니다. GitHub Copilot, Google Jules, OpenAI Codex, Cursor 2.0 등 실제 도구별 사례를 상세히 다루며, 품질 관리·충돌 조정·프롬프트 명세 작성 등 오케스트레이터의 과제도 균형 있게 분석합니다.
LLM 추론 속도를 높이는 두 가지 핵심 기법을 실용적으로 설명합니다. 모델 서빙 최적화에 관심 있는 개발자에게 구체적인 구현 팁을 제공합니다.
Red Hat의 심층 분석으로, vibe coding이 프로토타이핑에는 효과적이지만 3개월 차에 코드베이스가 "두더지 잡기 게임"이 되는 현실을 지적합니다. 해결책으로 스펙 중심 개발(Spec-driven development)을 제안하며, AI가 명확한 의도를 실행하는 도구가 되어야지 예측 불가능한 협업자가 되어선 안 된다고 강조합니다. Amazon Kiro, GitHub Spec Kit 등 실제 도구도 소개합니다.
소프트웨어 엔지니어링의 기본 가정인 "같은 입력→같은 출력"을 AI가 깨뜨린다는 점에서 출발합니다. 재시도(retry)가 다른 결과를 만들고, 기존 테스트 전략이 무의미해지며, 대시보드가 초록색이어도 출력이 미묘하게 틀린 "조용한 실패"를 다룹니다. 비결정성을 일급 설계 관심사로 격리·관찰·가드레일하는 아키텍처 패턴을 제안합니다.
LangGraph로 AI 에이전트 개발하기: 실전 가이드
freeCodeCamp의 LangGraph 실전 튜토리얼로, AI 에이전트를 그래프 기반으로 설계하고 구현하는 단계별 과정을 다룹니다. 에이전트 워크플로 구축에 입문하려는 개발자에게 체계적인 학습 경로를 제공합니다.
CLAUDE.md 베스트 프랙티스: 워크플로에 Mermaid 활용하기
CLAUDE.md 파일에 Mermaid 다이어그램을 활용하여 에이전트 워크플로를 시각적으로 정의하는 베스트 프랙티스를 소개합니다. Claude Code의 작업 흐름을 더 명확하고 재현 가능하게 만드는 실용적인 팁입니다.
인사이트
전문성 패키징: Claude Skills가 판단을 아티팩트로 바꾸는 법
O’Reilly 기고문으로, MCP가 "도구함"이라면 Skills는 "교육 매뉴얼"이라는 비유로 두 기술의 관계를 명쾌하게 설명합니다. 신입 직원 온보딩 비유를 통해, 도구 접근권(MCP)과 전문성 전수(Skills)가 분리되어야 하는 이유를 분석하고, Rakuten이 Skills로 재무 워크플로를 87.5% 빠르게 완료한 사례를 소개합니다. 전문성의 SaaS화 가능성까지 전망합니다.
cURL 창시자 Daniel Stenberg: AI 슬롭이 오픈소스를 DDoS하는 동시에 버그도 고친다
FOSDEM 2026에서 Daniel Stenberg이 밝힌 AI의 양면성입니다. AI로 생성된 가짜 보안 리포트가 cURL 버그 바운티를 폐쇄하게 만들었지만(실제 보고 비율 1/6→1/30으로 하락), 동시에 AI 분석 도구로 100개 이상의 실제 버그를 발견했습니다. 2012년 이후 아무도 읽지 않은 Telnet 스펙의 잘못된 옥텟까지 찾아낸 사례를 공유하며 "AI는 도구"라고 강조합니다.
93%의 개발자가 AI를 쓰지만, 생산성은 여전히 10% 향상에 그친다
DX CTO Laura Tacho가 121,000명 개발자 조사 결과를 발표했습니다. AI 코딩 도구 채택률 92.6%, AI 작성 코드 비율 26.9%(전 분기 22%에서 상승), 온보딩 시간 절반 단축 등의 성과가 있으나, 전체 생산성 향상은 10%에서 정체 중입니다. 잘 구조화된 조직에서는 AI가 "힘의 승수"이고, 그렇지 않은 곳에서는 AI가 기존 결함만 노출시킨다는 양극화 현상을 경고합니다.
AI가 개발자의 선택을 어떻게 재편하고 있는가 (Octoverse 데이터)
GitHub가 Octoverse 데이터를 기반으로 AI가 개발자 생태계를 어떻게 변화시키고 있는지 분석합니다. AI 도구 채택이 프로그래밍 언어 선택, 프로젝트 구조, 협업 패턴까지 영향을 미치는 거시적 트렌드를 데이터로 증명합니다.
Cursor가 로컬에서 실행되는 AI 에이전트의 보안을 위해 구현한 샌드박스 아키텍처를 상세히 다룹니다. 격리, 신원 확인, 런타임 리스크 관리 등 에이전트 보안의 실전 과제와 해결 방안을 엔지니어링 관점에서 설명합니다.
OpenAI, Codex와 Sora의 접근성 확대: 속도 제한을 넘어서
OpenAI가 Codex와 Sora의 rate limit를 완화하여 더 많은 사용자가 대규모로 활용할 수 있도록 접근성을 확대했습니다. 개발자와 크리에이터가 AI 도구를 본격적으로 프로덕션 워크플로에 통합할 수 있는 기반이 마련되고 있습니다.
