이번 주 AI 생태계는 에이전트를 "쓸 수 있다"에서 "조직 안에서 검증하고 운영한다"로 한 단계 더 이동했습니다. GitHub Copilot의 agentic harness 평가, JetBrains의 Codex 기본 추천, Claude Tag와 Gemini 3.5 Flash의 computer use는 에이전트가 개발 도구와 업무 공간의 기본 구성 요소가 되고 있음을 보여줍니다. 동시에 Azure Functions MCP, Planner MCP, Azure Deployment Agent, Rider 성능 프로파일링처럼 도구 연결은 더 실무적으로 내려왔고, AI 메모리 방어, prompt injection, context window와 memory의 차이, AI 기술부채 검증은 운영 AI의 핵심이 성능보다 신뢰성과 책임 구조에 있음을 다시 확인시킵니다.
주말 아침 AI #30
주요 뉴스
GitHub Copilot agentic harness의 성능과 토큰 효율 평가
GitHub는 Copilot agentic harness를 여러 모델과 작업 벤치마크에서 평가하며 성능과 토큰 효율을 함께 다뤘습니다. 에이전트 경쟁이 단순 정답률을 넘어 작업당 비용, 토큰 사용량, 반복 실행 안정성까지 포함하는 운영 지표 싸움으로 들어갔다는 신호입니다.
JetBrains AI Chat, Codex를 현재 기본 추천 에이전트로 채택
JetBrains는 JVM, .NET, Python 작업 전반에서 코딩 에이전트를 평가한 결과 Codex를 현재 기본 추천 에이전트로 선택했다고 밝혔습니다. IDE 벤더가 특정 에이전트를 기본 추천하는 흐름은 코딩 AI가 선택형 부가 기능에서 일상 개발 환경의 표준 구성으로 이동하고 있음을 보여줍니다.
Anthropic, 팀 단위 협업을 위한 Claude Tag 공개
Claude Tag는 팀이 Claude와 함께 작업하는 방식을 더 구조화하려는 새 기능입니다. 개인 대화형 사용을 넘어, 조직 안에서 에이전트 작업을 공유하고 이어받는 협업 모델이 제품 수준으로 구체화되고 있습니다.
Gemini 3.5 Flash에 computer use 도구 도입
Google은 Gemini 3.5 Flash에 내장 computer use 도구를 소개했습니다. 모델이 브라우저나 앱 조작 같은 실제 UI 작업으로 확장되면서, 에이전트 평가는 텍스트 응답 품질보다 화면 상태를 이해하고 올바른 행동을 이어가는 능력으로 넓어지고 있습니다.
Claude Desktop 경험, AWS·Google Cloud·Microsoft Foundry로 확장
Anthropic은 채팅, Claude Cowork, Claude Code를 포함한 Claude Desktop 경험을 AWS, Google Cloud, Microsoft Foundry 기반 추론으로 배포할 수 있게 했습니다. 기업 환경에서 Claude를 도입할 때 모델 사용 위치와 클라우드 경계를 선택할 수 있다는 점이 중요합니다.
Cursor, 오픈소스 Copilot 대안 Continue를 조용히 인수
The New Stack은 Cursor가 오픈소스 AI 코딩 도구 Continue를 인수했고, 제품은 종료하되 코드베이스는 커뮤니티에 넘기는 구조라고 전했습니다. AI 코딩 도구 시장은 기능 경쟁뿐 아니라 개발자 생태계, 오픈소스 자산, 사용자 기반을 흡수하는 재편 국면에 들어가고 있습니다.
새로운 도구/서비스
Azure Functions MCP Extension, Build 2026 이후 업데이트
Azure Functions MCP Extension은 resource와 prompt trigger, MCP Apps, 내장 MCP 인증, 구조화된 rich content, .NET fluent configuration API 등을 추가했습니다. 서버리스 함수가 MCP 도구와 리소스를 직접 노출하는 방식은 기존 백엔드 코드를 에이전트 런타임에 연결하는 실용적인 경로입니다.
Mistral Document AI와 Mistral Medium 3.5, Microsoft Foundry에 추가
Microsoft Foundry에 Mistral Document AI, OCR 4, Mistral Medium 3.5가 들어오면서 문서 수집, OCR, 추론, 코딩, 자동화 워크플로에 맞는 모델 선택지가 늘었습니다. 기업 AI는 하나의 범용 모델보다 작업 유형별 모델 조합과 배포 경로가 더 중요해지고 있습니다.
Microsoft Planner MCP Server로 agentic work management 지원
Planner MCP Server는 에이전트가 Microsoft Planner의 작업 관리 데이터를 다루고 반복 업무를 자동화할 수 있게 합니다. 일정, 할 일, 프로젝트 상태 같은 업무 맥락이 MCP 도구로 연결되면 에이전트는 대화형 비서가 아니라 실제 운영 흐름에 참여하는 작업 주체가 됩니다.
Azure Deployment Agent: prompt에서 provisioned 환경까지
Azure Deployment Agent는 자연어 요청에서 클라우드 리소스 배포까지 이어지는 흐름을 다룹니다. 인프라 운영에서 에이전트가 유용하려면 명령 생성뿐 아니라 정책, 권한, 상태 확인, 재시도, 변경 추적까지 포함한 배포 경계가 필요합니다.
Copilot SDK 1.0.4는 Copilot Agent를 앱과 서비스에 통합하기 위한 SDK 업데이트입니다. Copilot을 IDE 안에서만 쓰는 단계에서 벗어나, 사내 도구와 제품 워크플로에 에이전트 기능을 넣으려는 팀에게 SDK 안정화는 중요한 기반입니다.
학습 자료
JetBrains Rider, AI 에이전트가 놓치는 병목을 프로파일링으로 찾기
JetBrains는 Rider의 성능 프로파일링 agent skill을 통해 AI 에이전트가 코드만 보고 놓치기 쉬운 실제 병목을 진단하는 방식을 소개했습니다. 에이전트가 문제를 제대로 풀려면 소스 파일뿐 아니라 런타임 계측, 프로파일링 데이터, 사용자 체감 지연까지 함께 읽어야 합니다.
Microsoft Agent Framework로 claw와 agent harness 만들기
Microsoft Agent Framework 글은 harness 기능을 사용해 에이전트 실행 환경과 도구 인터페이스를 구성하는 방법을 설명합니다. 에이전트 개발에서 중요한 것은 프롬프트 하나가 아니라 작업을 반복 실행하고 평가할 수 있는 harness와 명확한 도구 경계입니다.
Thoughtworks는 대화형 AI 에이전트를 프로덕션에서 평가할 때 필요한 기준을 다룹니다. 에이전트 품질은 데모 응답보다 실제 사용자 흐름, 실패 유형, 관측성, 반복 가능한 평가 체계를 통해 확인되어야 합니다.
Jim Bennett는 저렴한 단위 테스트부터 완전한 에이전트 기반 평가까지 eval을 실행하는 여러 단계를 정리합니다. 팀이 처음부터 거대한 평가 플랫폼을 만들기보다, 비용과 위험에 맞춰 작은 테스트에서 점진적으로 확장하는 접근이 현실적입니다.
엔터프라이즈 앱을 위한 production-grade AI guardrails 구축
freeCodeCamp 글은 내부 업무 애플리케이션에 LLM을 넣을 때 필요한 guardrails를 실무 관점에서 설명합니다. 입력 검증, 출력 제한, 정책 적용, 실패 처리, 감사 가능성을 함께 설계해야 AI 기능이 단순 챗봇을 넘어 업무 시스템에 들어갈 수 있습니다.
인사이트
Anthropic이 말하는 효과적인 인간-에이전트 팀 만들기
Anthropic은 AI와의 작업이 개인 단독 사용에서 사람과 에이전트가 함께 목표를 달성하는 팀 플레이로 이동한다고 설명합니다. 좋은 에이전트 도입은 사람을 대체하는 문제가 아니라 역할 분담, 인계, 검토, 피드백 루프를 다시 설계하는 문제입니다.
Microsoft Security: AI memory를 보호해야 하는 이유
Microsoft는 공격자가 AI가 기억하는 내용을 노릴 때 생기는 위험과 방어 전략을 설명합니다. 장기 메모리와 개인화가 강력해질수록, 메모리는 편의 기능이 아니라 prompt injection, 데이터 오염, 권한 상승의 공격 표면이 됩니다.
Prompt injection을 role confusion으로 보기
Simon Willison은 prompt injection을 역할 혼동의 문제로 해석한 글을 소개합니다. 시스템, 개발자, 사용자, 외부 문서의 지시가 한 모델 컨텍스트 안에 섞이는 구조에서는 "누가 어떤 권한으로 말하는가"를 분리하는 설계가 핵심입니다.
Machine Learning Mastery는 큰 context window와 에이전트 memory가 다르다는 점을 짚습니다. 긴 컨텍스트는 한 번에 더 많이 읽는 능력이고, 메모리는 검색, 압축, 요약, 갱신, 폐기 정책까지 포함한 별도 인지 구조로 설계해야 합니다.
The New Stack은 AI 코딩이 생산성을 높일 수 있지만 검증 없는 생성은 유지보수 비용을 키운다고 지적합니다. AI 도입의 실제 효과는 생성량보다 다층 검증, 테스트, 리뷰, 아키텍처 일관성을 통해 부채를 관리할 수 있는지에 달려 있습니다.
이번 주 AI 생태계는 에이전트를 "쓸 수 있다"에서 "조직 안에서 검증하고 운영한다"로 한 단계 더 이동했습니다. GitHub Copilot의 agentic harness 평가, JetBrains의 Codex 기본 추천, Claude Tag와 Gemini 3.5 Flash의 computer use는 에이전트가 개발 도구와 업무 공간의 기본 구성 요소가 되고 있음을 보여줍니다. 동시에 Azure Functions MCP, Planner MCP, Azure Deployment Agent, Rider 성능 프로파일링처럼 도구 연결은 더 실무적으로 내려왔고, AI 메모리 방어, prompt injection, context window와 memory의 차이, AI 기술부채 검증은 운영 AI의 핵심이 성능보다 신뢰성과 책임 구조에 있음을 다시 확인시킵니다.
주말 아침 AI #30
주요 뉴스
GitHub Copilot agentic harness의 성능과 토큰 효율 평가
GitHub는 Copilot agentic harness를 여러 모델과 작업 벤치마크에서 평가하며 성능과 토큰 효율을 함께 다뤘습니다. 에이전트 경쟁이 단순 정답률을 넘어 작업당 비용, 토큰 사용량, 반복 실행 안정성까지 포함하는 운영 지표 싸움으로 들어갔다는 신호입니다.
JetBrains AI Chat, Codex를 현재 기본 추천 에이전트로 채택
JetBrains는 JVM, .NET, Python 작업 전반에서 코딩 에이전트를 평가한 결과 Codex를 현재 기본 추천 에이전트로 선택했다고 밝혔습니다. IDE 벤더가 특정 에이전트를 기본 추천하는 흐름은 코딩 AI가 선택형 부가 기능에서 일상 개발 환경의 표준 구성으로 이동하고 있음을 보여줍니다.
Anthropic, 팀 단위 협업을 위한 Claude Tag 공개
Claude Tag는 팀이 Claude와 함께 작업하는 방식을 더 구조화하려는 새 기능입니다. 개인 대화형 사용을 넘어, 조직 안에서 에이전트 작업을 공유하고 이어받는 협업 모델이 제품 수준으로 구체화되고 있습니다.
Gemini 3.5 Flash에 computer use 도구 도입
Google은 Gemini 3.5 Flash에 내장 computer use 도구를 소개했습니다. 모델이 브라우저나 앱 조작 같은 실제 UI 작업으로 확장되면서, 에이전트 평가는 텍스트 응답 품질보다 화면 상태를 이해하고 올바른 행동을 이어가는 능력으로 넓어지고 있습니다.
Claude Desktop 경험, AWS·Google Cloud·Microsoft Foundry로 확장
Anthropic은 채팅, Claude Cowork, Claude Code를 포함한 Claude Desktop 경험을 AWS, Google Cloud, Microsoft Foundry 기반 추론으로 배포할 수 있게 했습니다. 기업 환경에서 Claude를 도입할 때 모델 사용 위치와 클라우드 경계를 선택할 수 있다는 점이 중요합니다.
Cursor, 오픈소스 Copilot 대안 Continue를 조용히 인수
The New Stack은 Cursor가 오픈소스 AI 코딩 도구 Continue를 인수했고, 제품은 종료하되 코드베이스는 커뮤니티에 넘기는 구조라고 전했습니다. AI 코딩 도구 시장은 기능 경쟁뿐 아니라 개발자 생태계, 오픈소스 자산, 사용자 기반을 흡수하는 재편 국면에 들어가고 있습니다.
새로운 도구/서비스
Azure Functions MCP Extension, Build 2026 이후 업데이트
Azure Functions MCP Extension은 resource와 prompt trigger, MCP Apps, 내장 MCP 인증, 구조화된 rich content, .NET fluent configuration API 등을 추가했습니다. 서버리스 함수가 MCP 도구와 리소스를 직접 노출하는 방식은 기존 백엔드 코드를 에이전트 런타임에 연결하는 실용적인 경로입니다.
Mistral Document AI와 Mistral Medium 3.5, Microsoft Foundry에 추가
Microsoft Foundry에 Mistral Document AI, OCR 4, Mistral Medium 3.5가 들어오면서 문서 수집, OCR, 추론, 코딩, 자동화 워크플로에 맞는 모델 선택지가 늘었습니다. 기업 AI는 하나의 범용 모델보다 작업 유형별 모델 조합과 배포 경로가 더 중요해지고 있습니다.
Microsoft Planner MCP Server로 agentic work management 지원
Planner MCP Server는 에이전트가 Microsoft Planner의 작업 관리 데이터를 다루고 반복 업무를 자동화할 수 있게 합니다. 일정, 할 일, 프로젝트 상태 같은 업무 맥락이 MCP 도구로 연결되면 에이전트는 대화형 비서가 아니라 실제 운영 흐름에 참여하는 작업 주체가 됩니다.
Azure Deployment Agent: prompt에서 provisioned 환경까지
Azure Deployment Agent는 자연어 요청에서 클라우드 리소스 배포까지 이어지는 흐름을 다룹니다. 인프라 운영에서 에이전트가 유용하려면 명령 생성뿐 아니라 정책, 권한, 상태 확인, 재시도, 변경 추적까지 포함한 배포 경계가 필요합니다.
Copilot SDK 1.0.4는 Copilot Agent를 앱과 서비스에 통합하기 위한 SDK 업데이트입니다. Copilot을 IDE 안에서만 쓰는 단계에서 벗어나, 사내 도구와 제품 워크플로에 에이전트 기능을 넣으려는 팀에게 SDK 안정화는 중요한 기반입니다.
학습 자료
JetBrains Rider, AI 에이전트가 놓치는 병목을 프로파일링으로 찾기
JetBrains는 Rider의 성능 프로파일링 agent skill을 통해 AI 에이전트가 코드만 보고 놓치기 쉬운 실제 병목을 진단하는 방식을 소개했습니다. 에이전트가 문제를 제대로 풀려면 소스 파일뿐 아니라 런타임 계측, 프로파일링 데이터, 사용자 체감 지연까지 함께 읽어야 합니다.
Microsoft Agent Framework로 claw와 agent harness 만들기
Microsoft Agent Framework 글은 harness 기능을 사용해 에이전트 실행 환경과 도구 인터페이스를 구성하는 방법을 설명합니다. 에이전트 개발에서 중요한 것은 프롬프트 하나가 아니라 작업을 반복 실행하고 평가할 수 있는 harness와 명확한 도구 경계입니다.
Thoughtworks는 대화형 AI 에이전트를 프로덕션에서 평가할 때 필요한 기준을 다룹니다. 에이전트 품질은 데모 응답보다 실제 사용자 흐름, 실패 유형, 관측성, 반복 가능한 평가 체계를 통해 확인되어야 합니다.
Jim Bennett는 저렴한 단위 테스트부터 완전한 에이전트 기반 평가까지 eval을 실행하는 여러 단계를 정리합니다. 팀이 처음부터 거대한 평가 플랫폼을 만들기보다, 비용과 위험에 맞춰 작은 테스트에서 점진적으로 확장하는 접근이 현실적입니다.
엔터프라이즈 앱을 위한 production-grade AI guardrails 구축
freeCodeCamp 글은 내부 업무 애플리케이션에 LLM을 넣을 때 필요한 guardrails를 실무 관점에서 설명합니다. 입력 검증, 출력 제한, 정책 적용, 실패 처리, 감사 가능성을 함께 설계해야 AI 기능이 단순 챗봇을 넘어 업무 시스템에 들어갈 수 있습니다.
인사이트
Anthropic이 말하는 효과적인 인간-에이전트 팀 만들기
Anthropic은 AI와의 작업이 개인 단독 사용에서 사람과 에이전트가 함께 목표를 달성하는 팀 플레이로 이동한다고 설명합니다. 좋은 에이전트 도입은 사람을 대체하는 문제가 아니라 역할 분담, 인계, 검토, 피드백 루프를 다시 설계하는 문제입니다.
Microsoft Security: AI memory를 보호해야 하는 이유
Microsoft는 공격자가 AI가 기억하는 내용을 노릴 때 생기는 위험과 방어 전략을 설명합니다. 장기 메모리와 개인화가 강력해질수록, 메모리는 편의 기능이 아니라 prompt injection, 데이터 오염, 권한 상승의 공격 표면이 됩니다.
Prompt injection을 role confusion으로 보기
Simon Willison은 prompt injection을 역할 혼동의 문제로 해석한 글을 소개합니다. 시스템, 개발자, 사용자, 외부 문서의 지시가 한 모델 컨텍스트 안에 섞이는 구조에서는 "누가 어떤 권한으로 말하는가"를 분리하는 설계가 핵심입니다.
Machine Learning Mastery는 큰 context window와 에이전트 memory가 다르다는 점을 짚습니다. 긴 컨텍스트는 한 번에 더 많이 읽는 능력이고, 메모리는 검색, 압축, 요약, 갱신, 폐기 정책까지 포함한 별도 인지 구조로 설계해야 합니다.
The New Stack은 AI 코딩이 생산성을 높일 수 있지만 검증 없는 생성은 유지보수 비용을 키운다고 지적합니다. AI 도입의 실제 효과는 생성량보다 다층 검증, 테스트, 리뷰, 아키텍처 일관성을 통해 부채를 관리할 수 있는지에 달려 있습니다.
