주말 아침 - 주간 AI #24

https://drive.google.com/file/d/1GfSEk3nk0f_Pk5vhLLXkDxLs8dQNp8qQ/view?usp=sharing

이번 주 AI 흐름은 “더 강한 모델”보다 “더 안전하게 굴러가는 에이전트 시스템”에 초점이 맞춰졌습니다. GitHub Copilot의 Max·flex 요금제와 Microsoft MDASH의 100개+ 보안 에이전트 실험, Grok 4.3·Claude Platform·Notion 에이전트 허브 같은 플랫폼 확장, Foundry Local 1.1·WinUI agent plugin·Conductor·Genkit Middleware의 개발자 도구화가 동시에 진행됐고, Codex Handbook·ADK 장기 실행 에이전트·MCP 해설은 실전 학습의 밀도를 높였습니다. 동시에 5,000개+ 바이브코딩 앱 노출, 원격 MCP 서버 15%의 심각한 인증 부재, “LLM이 아니라 애플리케이션 레이어를 통제하라”는 보안 원칙이 에이전트 시대의 진짜 숙제를 선명하게 보여줍니다.

:sunrise: 주말 아침 AI #24

:fire: 주요 뉴스

GitHub Copilot 개인 요금제 개편: Pro·Pro+ flex 할당량과 Max 플랜 도입

GitHub가 개인용 Copilot 체계를 Free, Pro, Pro+, Max로 재정렬하고 6월 1일부터 사용량 기반 과금과 flex 할당량을 도입합니다. Pro는 기본 $10에 $5 상당 flex, Pro+는 $39에 $31, Max는 $100에 $100 상당 flex를 제공해 고급 모델·에이전트 워크로드 사용량을 더 명시적으로 관리하게 했습니다.

Microsoft 다중 에이전트 보안 시스템, Anthropic Mythos를 사이버보안 벤치마크에서 앞서다

Microsoft의 MDASH는 100개 이상의 전문 에이전트를 동원해 보안 취약점 탐지 작업을 분담하는 접근법을 보여줍니다. 보고된 실험에서는 16개 CVE와 4개 critical RCE를 찾아내고, 심은 취약점 21개를 오탐 없이 모두 발견했으며, CyberGym 점수도 88.45%를 기록해 “에이전트 팀” 기반 보안 분석의 가능성을 강하게 시사합니다.

Microsoft Foundry에 Grok 4.3 등장: 최신 세대 에이전트 기능

Grok 4.3이 Microsoft Foundry 퍼블릭 프리뷰로 제공되며 200K 컨텍스트, 향상된 도구 호출, 지시 따르기, 낮은 환각률을 내세웁니다. 웹·X 검색, Python 실행, 파일 검색, 문서 생성 같은 도구와 결합되어 기업용 멀티모델 실험 폭을 넓히는 선택지가 됐습니다.

Notion, 워크스페이스를 AI 에이전트 허브로 확장

Notion은 Developer Platform을 통해 Workers, 외부 데이터베이스 동기화, 커스텀 도구, 외부 에이전트 API를 제공하며 워크스페이스를 에이전트 실행 환경으로 확장하고 있습니다. Claude Code, Cursor, Codex, Decagon 등 외부 에이전트와 연결되는 방향은 “문서 앱”이 팀 지식과 자동화의 허브로 이동하고 있음을 보여줍니다.

어디서나 Codex로 작업하기

OpenAI는 Codex를 ChatGPT 모바일과 원격 개발 흐름에 연결해 휴대폰에서 명령, diff, 테스트 결과를 검토·승인할 수 있게 했습니다. Remote SSH 정식 제공, Hooks GA, Enterprise/Business용 프로그래밍 토큰, 일부 Enterprise 환경의 HIPAA 지원까지 더해져 Codex가 단순 코딩 보조를 넘어 이동 중 코드 운영 인터페이스로 확장되고 있습니다.

GitHub Copilot App 기술 프리뷰 시작

GitHub Copilot App은 데스크톱 앱 형태로 여러 작업 세션을 git worktree 기반으로 병렬 실행하고, Interactive·Plan·Autopilot 모드를 제공합니다. GitHub inbox, Agent Merge, 모델 선택과 reasoning effort 조절까지 포함해 Copilot이 IDE 안 기능에서 독립형 개발 에이전트 작업대에 가까워지고 있습니다.

AWS에서 Claude Platform 도입

Claude Platform on AWS는 Claude API 기능을 AWS IAM, CloudTrail, 결제·커밋먼트와 결합해 제공하는 형태로 정식화됐습니다. Managed Agents, Advisor, 웹 검색·가져오기, 코드 실행, Files API, Skills, MCP connector, prompt caching, citations, batch processing을 지원해 Bedrock과는 다른 “Claude 네이티브 플랫폼” 선택지를 제공합니다.

:rocket: 새로운 도구/서비스

Foundry Local 1.1: 실시간 전사, 임베딩, Responses API

Foundry Local 1.1은 로컬 실행 환경에 실시간 전사, 임베딩, Responses API, Qwen3 VLM, WebGPU 플러그인을 추가했습니다. netstandard2.0 기반 C# SDK와 경량화된 JavaScript 패키지도 제공되어 로컬 AI 앱을 클라우드 API와 유사한 개발 경험으로 다룰 수 있게 합니다.

GitHub Copilot·Claude Code용 WinUI 에이전트 플러그인

WinUI agent plugin은 Copilot과 Claude Code에서 WinUI·Windows App SDK 앱을 만들도록 돕는 플러그인입니다. 하나의 에이전트와 여덟 개 스킬, WinApp CLI, winui3-analyzer, winui-search, winmd-cli를 묶어 스캐폴딩·빌드·실행·테스트·반복 작업을 자동화하고 토큰 사용량을 70% 이상 줄이는 방향을 제시합니다.

Conductor: 다중 에이전트 AI 워크플로를 위한 결정적 오케스트레이션

Conductor는 YAML로 정의한 다중 에이전트 워크플로를 결정적으로 실행하는 MIT 라이선스 오픈소스 CLI입니다. GitHub Copilot과 Anthropic Claude provider, 병렬 그룹, script step, human gate, 웹 대시보드, 컨텍스트 모드와 안전 제한을 지원해 “LLM에게 라우팅을 맡기지 않는” 에이전트 운영 모델을 제공합니다.

Genkit Middleware 발표: 에이전틱 앱을 가로채고 확장하고 강화하기

Genkit Middleware는 generate, model, tool 계층에 hook을 삽입해 재시도, fallback, 도구 승인, skills, filesystem 같은 공통 제어를 미들웨어로 적용하게 합니다. TypeScript, Go, Dart를 우선 지원하고 Python 지원을 예고해 에이전트 앱의 관측·검증·정책 적용 지점을 표준화하려는 시도입니다.

AI Context Kit: 세션 간 지속성, 컨텍스트 압축, 쉬운 배포

AI Context Kit v1.4.2는 cross-session persistence checkpoint YAML, 사용자 확인 기반 컨텍스트 압축, checkpoint 생성·복원 스킬을 추가했습니다. Claude Code와 Copilot CLI용 플러그인 배포, Codex의 .agents/skills 탐색까지 염두에 두어 긴 작업의 맥락 손실을 줄이는 실용 도구로 발전했습니다.

NL2SQL을 검토 중인가요? 데이터베이스가 정말 프롬프트가 되어야 할까요? SQL MCP Server의 역할

Azure SQL 팀은 프로덕션 데이터베이스를 자연어 프롬프트에 직접 맡기는 NL2SQL 접근의 위험을 짚고, SQL MCP Server를 안전한 추상화 계층으로 제안합니다. 설명, 권한, 안정적인 API 계약, 결정적 query builder, 관측성을 통해 “모델이 SQL을 만들게 하는 방식”보다 통제 가능한 도구 호출을 권장합니다.

Visual Studio Agent Skills: Copilot에게 팀의 작업 방식을 가르치기

Visual Studio Agent Skills는 반복 작업 지침을 SKILL.md로 패키징해 Copilot이 프로젝트별 빌드, 테스트, 리뷰 규칙을 따르도록 돕습니다. .github/skills, .claude/skills, .agents/skills와 전역 위치에서 발견되는 구조는 custom instructions보다 작업 단위에 가깝고, MCP 도구와 상호보완적으로 쓰기 좋습니다.

:books: 학습 자료

Codex 핸드북: OpenAI 코딩 플랫폼 실전 가이드

Codex를 모델이 아니라 CLI, IDE 확장, 앱, 클라우드, 코드 리뷰를 잇는 개발 워크플로 계층으로 설명하는 실전 가이드입니다. 작은 범위의 명확한 작업에서 시작하고 diff를 검토하며 pre-merge reviewer로 활용하고, 팀 도입 시 권한·비용·토큰 사용량을 관리하는 30-60-90일 롤아웃 관점까지 제공합니다.

로컬 소형 언어 모델로 AI 에이전트 만들기

Ollama와 LangChain·LangGraph를 이용해 Phi-3, Mistral, Llama, Gemma 계열 소형 모델로 로컬 에이전트를 만드는 튜토리얼입니다. API 비용 없음, 프라이버시, 오프라인 실행, 제어 가능성을 장점으로 제시하면서도 도구 호출 한계, 속도, 컨텍스트 크기, 최신 LangChain API 차이 같은 현실적인 제약을 함께 다룹니다.

개발자가 알아야 할 6가지 다중 에이전트 오케스트레이션 디자인 패턴

Sequential Pipeline, Parallel Fan-Out/Fan-In, Hierarchical Delegation, Consensus/Debate, Event-Driven Reactive, Iterative Refinement Loops 여섯 패턴을 정리합니다. 공유 상태, single-writer 원칙, 동시성 제어, 오류 분류와 보상 작업까지 다뤄 다중 에이전트 구성을 “멋진 데모”가 아니라 엔지니어링 패턴으로 바라보게 합니다.

ADK로 멈추고 재개하며 컨텍스트를 잃지 않는 장기 실행 AI 에이전트 만들기

Google Developers 글은 HR 온보딩 예제를 통해 며칠·몇 주에 걸친 에이전트가 raw chat history가 아닌 durable state machine으로 상태를 관리해야 함을 설명합니다. SQLite·Cloud SQL 기반 persistent session, webhook 이벤트, state_delta, sub-agent delegation, golden evals, Agent Runtime 배포를 엮어 장기 실행 에이전트 설계의 골격을 보여줍니다.

대규모 코드베이스에서 Claude Code가 작동하는 방식: 모범 사례와 시작점

Claude Code는 오래된 RAG 인덱스보다 파일시스템, grep, 참조 탐색을 실시간으로 수행하는 agentic search를 강조합니다. CLAUDE.md, hooks, skills, plugins, LSP, MCP servers, subagents를 계층적으로 쓰되, 컨텍스트는 가볍게 유지하고 하위 디렉터리별 초기화·테스트 범위 제한·생성 파일 제외·관리 책임자를 두는 방식이 권장됩니다.

MCP 서버란 무엇이고 왜 중요한가?

Stack Overflow는 MCP를 LLM과 외부 데이터·도구를 연결하는 표준화된 브리지로 설명합니다. API와 비슷하지만 에이전트와 도구가 폭발적으로 늘어나는 환경에서 일관된 연결 방식을 제공하며, 엔터프라이즈 맥락에서는 OAuth2, 사용자 attribution, 읽기·쓰기 백을 갖춘 지식 유지가 핵심이라고 강조합니다.

AI와 소프트웨어 보안: slop이 signal이 되다

AI 기반 버그 리포트가 한때 curl 프로젝트의 부담이었지만, 최신 모델 이후 “합리적인 버그 보고의 쓰나미”로 바뀌고 있다는 변화를 짚습니다. Mozilla, Linux kernel 등에서도 비슷한 흐름이 관측되며, 공개 패치와 오픈소스 생태계가 AI 보안 분석의 대상이 되는 만큼 유지보수 계획, 빠른 업데이트, 피싱 경계가 더 중요해졌다는 현실적 조언을 제공합니다.

:light_bulb: 인사이트

5,000개가 넘는 바이브코딩 앱, 기업·개인 데이터를 공개 웹에 노출

RedAccess 연구진은 Lovable, Replit, Base44, Netlify 등으로 만들어진 바이브코딩 웹앱 5,000개 이상에서 사실상 보안·인증이 없는 사례를 찾았고, 약 40%는 의료·금융·고객 대화·전략 문서 등 민감 정보를 노출한 것으로 전해졌습니다. “작동하는 MVP”가 곧 “운영 가능한 시스템”은 아니라는 경고입니다.

AI 에이전트에는 두 영혼이 있다. 당신이 통제하는 것은 하나뿐이다

Auth0는 에이전트를 결정적 Agent Core와 확률적 LLM이라는 두 구성요소로 나누어 설명합니다. 보안의 초점은 예측하기 어려운 모델을 직접 “안전하게 만드는 것”이 아니라, 데이터 필터링, 토큰·권한 관리, 도구 호출 검증, human-in-the-loop 결정을 담당하는 결정적 코드 레이어를 설계하는 데 있어야 한다는 관점입니다.

AI 도구 레지스트리가 필요한 이유: 도구 난립과 싸우기

O’Reilly는 기업 내 에이전트 도구가 팀별로 임시 구축되면 중복, 보안 사각지대, 운영 불투명성이 누적된다고 지적합니다. 조사 수치로는 에이전트가 계획 단계를 넘은 팀 중 전체 보안 승인을 받은 비율이 14.4%에 불과하고, 조직의 88%가 에이전트 관련 보안 사고를 겪었다고 하며, 내부 도구 레지스트리를 거버넌스의 전제 조건으로 제안합니다.

SocialReasoning-Bench: AI 에이전트가 사용자의 최선의 이익을 위해 행동하는지 측정하기

Microsoft Research는 일정 조율과 마켓플레이스 협상에서 에이전트가 사용자를 얼마나 잘 대변하는지 평가하는 SocialReasoning-Bench를 공개했습니다. 최신 모델들은 업무 완료율은 거의 완벽하지만 불리한 시간·가격을 쉽게 받아들이며, 방어적 프롬프팅도 충분하지 않아 Outcome Optimality와 Due Diligence 같은 과정 중심 지표가 필요하다는 점을 보여줍니다.

AI 앱에서 설정이 취약점이 될 때: 악용 가능한 오구성

Microsoft Defender 연구는 공개 엔드포인트와 약한 인증이 결합된 AI 앱 오구성이 RCE, 자격 증명 탈취, 내부 도구 접근으로 이어질 수 있다고 경고합니다. 특히 원격 MCP 서버의 15%가 인증 없이 민감한 내부 데이터와 운영 기능에 접근 가능한 심각한 상태였고, Mage AI·kagent·AutoGen Studio 등 Kubernetes 기반 AI 앱의 기본값·노출 설정이 실제 공격 경로가 될 수 있음을 설명합니다.

자율 AI 에이전트를 위한 Defense in Depth

Microsoft Security는 모델보다 애플리케이션 레이어가 에이전트 보안의 승부처라고 봅니다. 에이전트를 microservice처럼 좁은 책임으로 설계하고, 권한은 zero-access에서 시작하며, human-in-the-loop 트리거는 모델 판단이 아니라 코드와 orchestrator가 결정하고, 각 에이전트에 고유 identity를 부여해야 blast radius와 감사 가능성을 통제할 수 있습니다.

컨텍스트 관리를 개발자에게 왜 아무도 가르치지 않는가?

에이전트 성능은 모델 선택만큼이나 어떤 컨텍스트를 언제, 얼마나, 어떤 구조로 주입하는지에 좌우됩니다. 장기 작업과 다중 도구 환경에서는 컨텍스트가 지식 저장소이자 비용·품질·보안 경계가 되므로, 개발팀은 prompt 작성법을 넘어 컨텍스트 압축, 계층화, 소유권, 검토 주기를 명시적인 엔지니어링 역량으로 다뤄야 합니다.

3 Likes