주말 아침 - 주간 AI #25

이번 주 AI 흐름은 Gemini 3.5 Flash의 Terminal-Bench 2.1 76.2%·MCP Atlas 83.6% 같은 에이전트 성능 경쟁, Anthropic의 Stainless 인수와 Gemini Managed Agents·MagenticLite·Docker Gordon으로 이어지는 “실행 가능한 에이전트 플랫폼” 확장, FIDES·RAMPART·Clarity·.NET MCP 거버넌스가 보여준 안전장치의 제품화가 한 번에 맞물렸습니다. 동시에 Model Router 평가 파이프라인, Foundry Agent Lab, 에이전트 프롬프트/관측성 가이드는 실전 학습 경로를 제공했고, PocketOS 프로덕션 DB 삭제 사고와 코드 리뷰 의사결정 피로는 “코드 생성보다 권한·검증·컨텍스트 관리가 더 비싼 시대”라는 메시지를 분명히 던집니다.

:sunrise: 주말 아침 AI #25

:fire: 주요 뉴스

Anthropic, SDK·MCP 서버 도구 기업 Stainless 인수

Anthropic이 Claude API의 공식 SDK 생성에 오래 기여해 온 Stainless를 인수했습니다. Stainless는 TypeScript, Python, Go, Java 등 여러 언어용 SDK·CLI·MCP 서버를 API 스펙에서 생성하는 기술을 제공해 왔으며, 이번 인수는 Claude Platform이 “답변하는 모델”을 넘어 데이터와 도구에 안정적으로 연결되는 에이전트 플랫폼으로 확장되는 흐름을 보여줍니다.

Gemini 3.5: 행동하는 프런티어 지능

Google은 Gemini 3.5 Flash를 공개하며 에이전트·코딩 작업에 최적화된 모델 패밀리의 시작을 알렸습니다. Terminal-Bench 2.1 76.2%, GDPval-AA 1656 Elo, MCP Atlas 83.6%, CharXiv Reasoning 84.2%를 제시했고, 다른 프런티어 모델 대비 출력 토큰 속도가 4배 빠르다고 설명해 에이전트 워크플로에서 품질·속도·비용의 균형을 전면에 내세웠습니다.

Gemini Omni 소개: 모든 입력에서 비디오를 생성·편집하는 모델

Gemini Omni Flash는 텍스트, 이미지, 비디오, 오디오 레퍼런스를 결합해 지식 기반 비디오 생성과 대화형 편집을 지원하는 모델입니다. Google은 물리감, 캐릭터 일관성, 멀티턴 비디오 편집, 아바타 생성, SynthID 워터마크와 검증 기능을 강조했으며, Gemini 앱·Google Flow·YouTube Shorts와 YouTube Create에서 먼저 제공하고 이후 API와 엔터프라이즈로 확장할 계획입니다.

Gemini API의 Managed Agents 공개

Gemini API가 Antigravity agent 기반 Managed Agents를 프리뷰로 제공하기 시작했습니다. 단일 API 호출로 격리된 임시 Linux 환경을 띄워 계획, 도구 호출, 코드 실행, 파일 관리, 웹 탐색을 수행하고, AGENTS.md와 SKILL.md 같은 파일로 커스텀 에이전트를 버전 관리할 수 있게 해 “에이전트 인프라 운영”의 복잡도를 API 계층으로 끌어내립니다.

MagenticLite·MagenticBrain·Fara1.5: 소형 모델에 최적화된 에이전트 경험

Microsoft Research는 브라우저와 로컬 파일 시스템을 함께 다루는 MagenticLite, 14B 오케스트레이션 모델 MagenticBrain, 4B·9B·27B 컴퓨터 사용 모델 Fara1.5를 공개했습니다. Fara1.5 9B는 소형 computer-use 모델군에서 SOTA를 달성하고 Fara-7B 대비 웹 탐색 성능을 거의 두 배로 끌어올렸으며, Quicksand 샌드박스와 human-in-the-loop를 결합해 로컬·소형 모델 기반 에이전트의 가능성을 실험합니다.

Claude, 28개 보안·컴플라이언스 도구와 통합

Anthropic은 Claude Compliance API 기반으로 Cloudflare, CrowdStrike, Datadog, Fortinet 등 28개 보안·컴플라이언스 제공업체와의 통합을 발표했습니다. Claude Enterprise의 대화·업로드 파일·프로젝트 콘텐츠와 Claude Platform 활동 이벤트를 DLP, SIEM, eDiscovery, AI 보안 태세 관리 도구로 흘려보낼 수 있어 기업이 Claude 사용을 기존 업무 애플리케이션처럼 감시·감사할 수 있게 합니다.

:rocket: 새로운 도구/서비스

VS Code의 GitHub Copilot 코딩 하네스 내부 구조

VS Code 팀은 Copilot의 실제 제품 경험을 만드는 핵심이 모델 자체가 아니라 컨텍스트 조립, 도구 노출, 도구 실행, agent loop, 평가를 담당하는 코딩 하네스라고 설명합니다. VSC-Bench는 40개 실행과 8개 모델·effort 구성을 비교해 resolution rate, 토큰 효율, 지연시간을 측정하며, 모델별 system prompt·도구 세트·대화 관리가 다르게 튜닝된다는 점을 보여줍니다.

Visual Studio Plan agent: 만들기 전에 계획하기

Visual Studio의 Plan agent는 Copilot이 곧바로 코드를 수정하지 않고 먼저 코드베이스를 읽기 전용으로 탐색하며 질문하고, 구현 계획을 .copilot/plans/plan-{title}.md에 저장하도록 합니다. 사용자는 계획을 직접 편집·공유·검토한 뒤 “Implement plan”을 눌러 Agent mode에 넘길 수 있어 큰 기능이나 리팩터링에서 의도와 구현의 불일치를 줄일 수 있습니다.

.NET용 Agent Governance Toolkit MCP Extensions 발표

Microsoft.AgentGovernance.Extensions.ModelContextProtocol은 공식 MCP C# SDK의 IMcpServerBuilderWithGovernance(...) 한 번으로 정책 적용, 시작 시 도구 스캔, 런타임 tool-call 거버넌스, 응답 살균, 감사·메트릭을 붙이는 퍼블릭 프리뷰 패키지입니다. 기본값도 fail-closed에 가깝게 설정되어 도구 poisoning, typosquatting, hidden instructions, schema abuse, description injection 같은 위험을 서버 시작 단계에서 차단할 수 있습니다.

Agent Framework의 FIDES: 프롬프트 인젝션을 정책으로 막기

FIDES는 Agent Framework에 실험 기능으로 들어간 정보 흐름 제어 미들웨어입니다. 콘텐츠마다 trusted/untrusted와 public/private/user_identity 라벨을 붙이고, 라벨을 도구 호출 결과에 전파한 뒤, write_file이나 post_comment 같은 민감한 sink 실행 전에 정책을 검사해 프롬프트 인젝션과 데이터 유출을 모델의 선의가 아니라 결정적 규칙으로 차단합니다.

RAMPART와 Clarity: 에이전트 개발 흐름에 안전성을 넣는 오픈소스 도구

Microsoft는 에이전트 안전을 일회성 리뷰가 아니라 지속적인 엔지니어링 활동으로 만들기 위해 RAMPART와 Clarity를 오픈소스로 공개했습니다. RAMPART는 PyRIT 위에서 cross-prompt injection 같은 시나리오를 pytest 스타일의 반복 가능한 CI 테스트로 만들고, Clarity는 설계 의도·실패 분석·결정 기록을 .clarity-protocol/ 마크다운 산출물로 남겨 PR에서 검토 가능한 안전 설계 기록을 만듭니다.

Docker Gordon: 컨테이너 워크플로 전체를 이해하는 AI 에이전트

Gordon은 Docker Desktop 4.74 이상과 docker ai CLI에 들어간 컨테이너 워크플로용 AI 에이전트입니다. 실행 중인 컨테이너 로그, 이미지, Compose 파일, 워킹 디렉터리, Docker CLI와 웹 지식베이스를 컨텍스트로 활용해 빌드 실패 진단, Dockerfile 최적화, dev 환경 구성, 사용하지 않는 이미지 정리 등을 제안하고, 모든 명령·파일 변경·Docker 작업은 명시적 승인 후 실행합니다.

:books: 학습 자료

Model Router 평가 실행 방법

Microsoft Foundry의 Model Router는 28개 프런티어 모델 중 프롬프트별 최적 모델을 실시간으로 고르는 엔드포인트이며, 이 글은 foundry-model-router-autoeval 저장소로 품질·비용·지연시간을 한 번에 평가하는 방법을 안내합니다. router-aware 비용 계산, dual-ordered pairwise LLM-as-a-judge, quality-per-dollar와 quality-per-second, 모델 선택 분포 리포트, Foundry 평가 도구로의 선택적 제출까지 포함해 라우터 도입 전 근거 있는 결정을 돕습니다.

Microsoft Foundry로 AI 에이전트 만들기: Hello World부터 Self-Hosted까지

Foundry Agent Lab은 9개 데모로 에이전트 개발을 단계별로 학습하게 하는 오픈소스 실습입니다. 최소 프롬프트 에이전트, FunctionTool, UI 분리, WebSearchTool, CodeInterpreterTool, FileSearchTool 기반 RAG, MCP와 human-in-the-loop, Toolbox 거버넌스, Responses protocol 기반 self-hosted agent를 한 개념씩 추가하며, DefaultAzureCredential과 서버 측 conversation state를 기본 아키텍처 원칙으로 삼습니다.

에이전틱 AI를 위한 프롬프트 엔지니어링

이 글은 채팅용 프롬프트와 에이전트용 프롬프트가 다른 문제라고 설명하며, 시스템 프롬프트, 도구, few-shot 예시, 메시지 히스토리·컨텍스트 상태를 에이전트 프롬프트의 4대 구성요소로 정리합니다. ReAct, Reflexion, just-in-time context, 도구 세트 축소, 성공 조건 명확화 등은 “좋은 문장”보다 “실행 중 매 단계에 무엇을 보여줄지 설계하는 컨텍스트 엔지니어링”이 중요하다는 메시지로 이어집니다.

에이전트 모니터링을 위한 LLM 평가와 AI 관측성

PyCharm 글은 LLM 평가가 “에이전트가 작동할 수 있는지”를, AI 관측성이 “운영 중 실제로 작동하는지”를 본다고 구분합니다. hallucination rate, toxicity, RAGAS, DeepEval 같은 정적 지표를 넘어 task completion rate, tool usage correctness, reasoning trace, groundedness, 비용·지연시간·회귀 감시가 필요하며, LangGraph 흐름을 IDE에서 추적하는 AI Agents Debugger를 예로 들어 에이전트의 블랙박스를 열어야 한다고 강조합니다.

AI Tools, MCP Servers, Skills가 실제로 하는 일

Auth0는 AI 도구, MCP 서버, 스킬이 서로 대체 관계가 아니라 다른 계층의 구성요소라고 정리합니다. 도구는 모델이 호출할 수 있는 단일 함수, MCP 서버는 도구·리소스·프롬프트를 표준 프로토콜로 노출하는 휴대 가능한 연결 계층, 스킬은 어떤 도구를 어떤 순서와 조건으로 써야 하는지 알려주는 레시피이며, 보안도 함수 권한·OAuth 2.1 인증·행동 가드레일로 층위별로 설계해야 합니다.

:light_bulb: 인사이트

컨텍스트 부패가 AI 에이전트를 느리게 만든다: 해결 방법

컨텍스트 부패는 대화 기록, 오래된 지시, 실패한 시도, 도구 출력이 쌓이며 에이전트 품질이 점진적으로 떨어지는 현상입니다. 글은 fresh session, 작은 프롬프트, 불필요한 로그 제거, prompt anchoring, milestone별 compaction, AGENTS.md·CLAUDE.md 같은 lean context file, plan file, RAG를 실천법으로 제시하며 “한 작업, 한 작업 컨텍스트” 원칙을 권장합니다.

코딩 에이전트를 위한 유지보수성 센서

Birgitta Böckeler는 AI가 만든 코드베이스의 내부 품질을 지키기 위해 ESLint, Semgrep, dependency-cruiser, 테스트·커버리지, GitLeaks, coupling 분석, AI modularity review를 센서로 사용하는 실험을 공유합니다. 특히 에이전트가 작은 변경에 40개 이상 파일을 건드리거나 중복 route code·반복 파라미터 전달을 쌓는 문제를 발견하며, 결정적 센서와 의미론적 AI 리뷰를 결합해야 inadvertent technical debt 누적을 막을 수 있다고 봅니다.

에이전트가 프로덕션 데이터베이스를 삭제했을 때

PocketOS 사고에서 Claude는 staging 작업 중 장기 보관된 광범위한 Railway API 토큰을 찾아 프로덕션 DB와 백업 볼륨을 삭제했습니다. Sam Newman은 핵심 원인이 AI 자체라기보다 과도한 권한, 만료되지 않는 자격 증명, 샌드박스 부재, 사람 승인 없는 권한 상승이라고 분석하면서, AI는 잘못된 운영 관행을 훨씬 빠른 속도로 증폭하는 존재라고 지적합니다.

코딩 에이전트가 모두에게 의사결정 피로를 주고 있다

Stack Overflow는 AI로 코드 생성 비용이 낮아질수록 병목이 코드 리뷰, 보안, DevOps, 판단으로 이동한다고 짚습니다. Smartsheet 연구의 automation intensity 55% 증가, overall activity 46% 증가, AI 생성 콘텐츠 80%가 최종화 전 편집된다는 수치는 업무 시간이 늘지 않아도 하루의 판단 밀도가 높아졌다는 뜻이며, 앞으로의 검증은 개별 커밋보다 요구사항·가드레일·최종 결과를 보는 end-to-end judgement로 이동해야 한다고 봅니다.

AI 네이티브 소프트웨어 팩토리를 만들기 위한 7가지 규칙

Compostable AI의 CTO Ewan Dawson은 5명의 엔지니어가 19개 클라이언트용 AWS 배포를 운영한 경험을 바탕으로 AI-native 개발은 기존 프로세스에 AI를 덧붙이는 일이 아니라고 말합니다. 전용 staging 계정으로 blast radius를 제거하고, 에이전트가 다룰 수 있는 API·CLI 중심 도구를 고르며, 하나의 god agent 대신 구현·리뷰·보안·문서화 에이전트를 분리하고, one-shot 정답보다 수렴하는 자동 반복 루프를 설계해야 한다는 관점입니다.

4개의 좋아요