주말 아침 - 주간 AI #9

Andrej Karpathy가 "나는 이제 영어로 프로그래밍한다"고 고백하고, Simon Willison은 "아무도 AI 코드를 리뷰하지 않는 Dark Factory 팀"을 직접 목격했습니다. OpenAI는 GPT-4o 퇴역(2/13)과 함께 600PB 사내 Data Agent 구축기를 공개했고, Google은 Chrome Auto Browse로 에이전틱 브라우징 시대를 열었습니다. Microsoft DebugMCP로 AI가 진짜 디버거를 쓰고, NVIDIA Cosmos Policy가 로봇 제어 SOTA(98.5%)를 달성하는 이번 주—“AI가 직접 행동하는” 시대의 청사진이 완성되고 있습니다!

:fire: 주요 뉴스

OpenAI Prism: AI 기반 과학 논문 작성 도구 출시

GPT-5.2를 통합한 무료 LaTeX 기반 과학 협업 플랫폼입니다. 문서 전체 컨텍스트를 활용한 초안 작성·수정, arXiv 문헌 검색, 수식·인용·그림 관리, 화이트보드 수식→LaTeX 변환까지 지원합니다. 무제한 프로젝트·협업자로 연구 접근성을 확대합니다.

Gemini 3 Flash Agentic Vision: Think-Act-Observe 루프로 이미지 분석

정적 이미지 인식을 능동적 탐색으로 전환합니다. 모델이 Python 코드를 생성해 이미지를 줌·회전·주석 처리하고 결과를 컨텍스트에 추가합니다. 건축 도면 검증 5% 정확도 향상, 손가락 카운팅 시 바운딩 박스 그리기 등 시각적 근거 기반 추론을 구현합니다.

OpenAI Codex 에이전트 루프 내부 구조 공개

OpenAI가 Codex CLI의 핵심인 에이전트 루프 동작을 상세히 설명합니다. 프롬프트 구성, 도구 호출, 컨텍스트 캐싱, Ring Attention 기반 멀티턴 대화 관리까지—프로덕션 에이전트 구축에 필요한 설계 패턴과 성능 최적화 전략을 담았습니다.

MCP Apps: MCP 클라이언트에 UI 기능 탑재 공식 확장

MCP의 첫 공식 확장으로, 도구가 대시보드·폼·시각화 등 인터랙티브 UI를 대화 내에서 직접 렌더링할 수 있습니다. Claude, ChatGPT, VS Code, Goose에서 지원되며 iframe 샌드박싱·JSON-RPC 통신으로 보안을 확보합니다.

Microsoft Maia 200: 추론 전용 AI 가속기 출시

TSMC 3nm 공정, 140B+ 트랜지스터, FP4 10petaFLOPS·FP8 5petaFLOPS 성능의 자체 설계 칩입니다. 216GB HBM3e·7TB/s 대역폭과 6,144개 가속기 클러스터 구성으로 GPT-5.2 추론 시 달러당 성능 30% 향상, Azure·Microsoft 365 Copilot에 투입됩니다.

MCP 코어 메인테이너 팀 개편 및 2026년 로드맵

Model Context Protocol 프로젝트가 새로운 코어 메인테이너(Peter Alexander, Caitie McCaffrey, Kurtis Van Gent)를 영입하고 2026년 방향을 발표했습니다. DPoP 인증, 멀티턴 SSE, Server Cards 등 엔터프라이즈 확장성과 보안 강화에 집중합니다.

2026년 AI 임원 설문: 99%가 AI 투자 최우선, 54%는 측정 가능한 가치 실현

HBR의 Fortune 1000 임원 설문에서 거의 모든 응답자가 AI를 최우선 투자 대상으로 꼽았고, 프로덕션 배포 기업은 2년 만에 5%→39%로 급증했습니다. 다만 93%는 문화·변화 관리가 기술보다 더 큰 도전이라고 응답해, 인적 요소가 핵심 과제임을 시사합니다.

Chrome Auto Browse: Gemini 3 기반 에이전틱 브라우징 시대 개막

AI Pro/Ultra 구독자 대상으로 Chrome에서 다단계 작업을 자동 수행하는 에이전틱 기능을 출시했습니다. 호텔·항공 비교, 세금 서류 수집, 견적 요청, 구독 관리까지 처리하며, Google Universal Commerce Protocol(UCP) 오픈 표준을 통해 Shopify, Etsy, Target과 연동합니다.

Trustable AI Blueprint: 시속 160km 레이싱에서 실시간 AI 코칭 구현

Google Developer Experts 팀이 Thunderhill 레이싱 트랙에서 “Split-Brain” 아키텍처를 검증했습니다. Gemini Nano(~15ms 반응)와 Gemini 3.0의 전략 추론을 Antigravity(AGY) 프레임워크로 오케스트레이션하고, QLoRA 파인튜닝으로 물리 법칙 기반 코칭을 실현했습니다.

LiteRT: CPU 대비 100배 빠른 온디바이스 AI 프레임워크 업그레이드

TFLite 후속 LiteRT가 GPU(OpenCL/Metal/WebGPU) 및 MediaTek·Qualcomm NPU 가속을 프로덕션 레벨로 지원합니다. Gemma 3 1B 벤치마크에서 llama.cpp 대비 GPU Prefill 19배, NPU 추가 시 2배 향상—PyTorch/JAX 모델 변환과 HuggingFace 커뮤니티 배포도 간소화되었습니다.

OpenAI 사내 Data Agent: 600PB 데이터, 7만 테이블을 자연어로 탐색

GPT-5.2 기반 사내 데이터 에이전트 구축기입니다. 6개 레이어 컨텍스트(테이블 사용 로그, 휴먼 어노테이션, Codex 코드 스캔, Slack/Docs 기관 지식, 메모리, 런타임 쿼리)로 테이블 의미 이해 정확도를 높이고, Evals API로 품질 모니터링합니다. "의미는 스키마가 아닌 코드에 있다"는 교훈을 공유합니다.

GPT-4o·GPT-4.1 퇴역 예고: 2026년 2월 13일

ChatGPT에서 GPT-4o, GPT-4.1, GPT-4.1 mini, o4-mini가 2월 13일 퇴역합니다. 일일 사용자의 99.9%가 이미 GPT-5.2로 이동했고, 퍼스널리티·창의성 개선이 반영되었습니다. 성인 전용 모드, 연령 예측 기능 등 사용자 제어 옵션도 확대 중입니다.

:rocket: 새로운 도구/서비스

GitHub Copilot SDK + Microsoft Agent Framework 통합

.NET/Python에서 Copilot SDK를 Agent Framework의 AIAgent 인터페이스로 래핑해 멀티에이전트 워크플로우를 구성합니다. 함수 도구, 스트리밍, 멀티턴 대화, MCP 서버 연결, 권한 핸들러까지 지원하며 Azure OpenAI 에이전트와 순차/동시 오케스트레이션 예제를 제공합니다.

Docker Sandboxes: MicroVM 격리로 코딩 에이전트 안전하게 실행

Claude Code, Codex CLI, Gemini CLI 등을 전용 MicroVM에서 실행해 호스트 시스템을 보호합니다. 네트워크 허용/차단 목록, 에이전트 내부 Docker 실행 지원, 빠른 리셋 기능으로 Level 4 자율성(무인 실행)을 안전하게 달성합니다.

VS Code에서 MCP Apps 지원 시작

MCP의 첫 공식 확장 MCP Apps를 VS Code Insiders에서 바로 사용할 수 있습니다. 드래그앤드롭 리스트, 플레임 그래프, 피처 플래그 선택기 등 인터랙티브 UI를 에이전트 패널에서 직접 렌더링하며, Storybook 통합 데모도 공개되었습니다.

Microsoft Agent Framework: Background Responses로 AI 리서처 & 뉴스레터 발행기 구축

장시간 멀티툴 호출을 비동기로 처리하는 Background Responses 패턴을 활용해 RSS, GitHub, 블로그를 스캔하고 마크다운 뉴스레터를 생성하는 에이전트 구현 가이드입니다. OpenAIResponseClient와 continuation token 폴링으로 UI 블로킹 없이 프로그레스 바까지 표시합니다.

GitHub Copilot SDK로 에이전트를 어떤 앱에도 내장하기

Node.js, Python, Go, .NET에서 Copilot CLI의 에이전트 루프를 SDK로 호출하는 방법을 소개합니다. Microsoft Agent Framework 저장소의 일간 PR 분석 자동화 사례와 함께 Skills 파일 정의, 모델 라우팅, CI/CD 통합 베스트 프랙티스를 다룹니다.

Claude Code + Ollama 로컬 실행 튜토리얼

Ollama 0.14+가 Anthropic Messages API를 지원하면서 Claude Code를 로컬 모델(gpt-oss, qwen3-coder, glm-4.7-flash 등)로 구동할 수 있게 되었습니다. 민감 데이터 보호와 오프라인 개발이 필요한 환경에서 유용합니다.

DebugMCP: AI 에이전트에 진짜 디버거를 선물하세요

Microsoft가 공개한 VS Code 확장으로 AI 에이전트가 브레이크포인트 설정, Step Over/Into/Out, 변수 검사, 표현식 평가 등 전문 디버깅을 직접 수행합니다. Python, JS/TS, Java, C++, Go, Rust 등 9개 언어를 지원하며 MCP 서버로 Copilot, Cline, Roo와 연동됩니다.

Daggr: AI 파이프라인을 코드로 정의하고 캔버스로 시각화

Gradio 팀이 공개한 Python 라이브러리입니다. GradioNode, FnNode, InferenceNode를 연결해 워크플로우를 정의하면 자동으로 시각 캔버스가 생성됩니다. 중간 결과 검사, 개별 스텝 재실행, 로컬 Space 클론 실행, 상태 영속화까지 지원해 AI 파이프라인 디버깅이 훨씬 쉬워집니다.

GitHub Agents 탭: 저장소 레벨 Copilot 에이전트 세션 관리

저장소 내 Agents 탭에서 Copilot 코딩 에이전트 태스크를 생성·추적·관리합니다. 에이전트가 생성한 PR을 Visual Studio에서 diff로 검토하고 병합하는 일반 워크플로우와 동일하게 처리할 수 있어, 에이전트 결과물이 기존 협업 패턴에 자연스럽게 통합됩니다.

:books: 학습 자료

LLM의 숨겨진 메모리 아키텍처: Prefill/Decode부터 KV 캐시, 페이징까지

LLM 추론은 Prefill(프롬프트 처리)→Decode(토큰 생성) 두 단계로 나뉘며, KV 캐시가 핵심 런타임 상태입니다. PagedAttention 페이징, 메모리 대역폭 병목, 프리픽스 캐싱 일관성, 멀티테넌시 보안까지—"모델이 아닌 서빙 스택이 성능을 결정한다"는 실전 엔지니어링 가이드입니다.

GPT-OSS Agentic RL 학습 디버깅 회고: FlashAttention v3 Attention Sink 지원

LinkedIn 팀이 GPT-OSS 20B로 에이전틱 RL(ReTool, GSM8K)을 학습하며 겪은 문제—MoE 로그 확률 불일치, 학습-추론 불일치, KL 발산—를 해결한 과정입니다. FlashAttention v3에 Attention Sink backward pass를 구현해 안정적인 수렴을 달성했습니다.

LLM이 100만 토큰 컨텍스트 윈도우에 도달하는 방법: Context Parallelism & Ring Attention

컨텍스트 길이가 4K→10M 토큰으로 폭증하면서 단일 GPU 메모리를 초과하는 문제를 해결하는 Context Parallelism과 Zig-Zag Ring Attention 기법을 설명합니다. NVLink 1.8TB/s, InfiniBand 등 고속 인터커넥트가 필수인 이유와 하드웨어 구성 가이드를 포함합니다.

GitHub Copilot에 업무 컨텍스트 연결하기 (Work IQ MCP)

GitHub Copilot CLI에 Microsoft 365 Work IQ MCP 서버를 연결해 회의록에서 아키텍처 다이어그램 생성, 설계 문서와 구현 비교, 코드 오너 자동 탐색 등 "코드 바깥의 맥락"을 활용하는 데모를 소개합니다.

Evals는 충분하지 않다: AI 품질 관리의 플라이휠 구축하기

O’Reilly가 AI 제품 품질 관리의 전체 사이클을 정리했습니다. Reference Examples→Metrics→Rubrics로 오프라인 품질 정의, Code/LLM/Human 판정 조합, 프로덕션 모니터링→새 실패 모드 발견→메트릭 업데이트의 연속 개선 플라이휠—"Evals"라는 단어가 혼란을 주므로 프로세스 전체를 이해하라고 강조합니다.

NVIDIA Cosmos Policy: 로봇 제어 SOTA 달성한 World Foundation Model 파인튜닝

Cosmos Predict-2 WFM을 로봇 데모 데이터로 파인튜닝해 행동·미래 상태·보상을 단일 잠재 프레임으로 학습합니다. LIBERO 98.5%, RoboCasa 67.1%(50개 데모만 사용) 달성—모델 기반 플래닝 시 실제 양팔 조작에서 12.5% 성공률 향상. Cosmos Cookoff 해커톤(~2/26)도 진행 중입니다.

:light_bulb: 인사이트

1인 + 1에이전트 = 브라우저 처음부터 만들기

Cursor FastRender의 “수천 병렬 에이전트·160만 LOC” 프로젝트에 대한 반발로 시작된 실험입니다. 단일 Codex CLI 에이전트로 3일 만에 HTML+CSS 렌더링 가능한 2만 줄 Rust 브라우저를 완성했습니다. 외부 크레이트 의존성 제로, macOS/Windows/Linux 지원—소규모 팀+AI 코딩의 가능성을 보여줍니다.

AI 시대에도 코드 품질은 여전히 중요하다

AI가 코드를 작성할수록 코드 품질이 더 중요해집니다. AI는 기존 코드베이스·추상화·네이밍·테스트를 학습하므로, 지저분한 코드는 AI가 "혼란을 대규모로 전파"하게 만듭니다. 코드는 시스템의 유일한 진실의 원천이며 AI는 의미론적 엔진일 뿐, 구조화된 코드의 대체재가 아닙니다.

AI 에이전트 런타임 보안: Microsoft Defender의 실시간 방어 전략

AI 에이전트는 자연어 입력만으로 민감 데이터 접근·실행이 가능해 공격 표면이 넓습니다. Microsoft Defender는 도구 호출 전 webhook 검사로 프롬프트 인젝션, 악성 이메일 유도 데이터 유출, 기능 정찰 시도를 실시간 차단합니다.

AI 생성 테스트는 '의식(ceremony)'일 뿐인가?

LLM이 작성한 테스트는 "실패를 목격"하는 과학적 검증 단계를 건너뛰기 때문에 인식론적 근거가 약하다고 지적합니다. Characterization Testing으로 SUT를 일시 변조해 실패를 확인하거나, 테스트를 먼저 작성하고 LLM에 구현을 맡기는 접근을 제안합니다.

2026년 AI 코딩의 진짜 병목은 '컨텍스트'

보안·품질 도구는 성숙했지만, 엔지니어 머릿속의 암묵 지식을 AI에 전달하고 AI 생성 코드를 다시 이해하는 양방향 컨텍스트 핸드오프가 여전히 미흡합니다. 2026년에는 PR 위험도 라우팅, 백그라운드 에이전트 자동 PR 생성 등 워크플로우 혁신이 본격화될 전망입니다.

The Five Levels: Spicy Autocomplete부터 Dark Factory까지

Dan Shapiro의 AI 코딩 5단계 모델입니다. 0단계 Spicy Autocomplete → 4단계 PM 역할 → 5단계 Dark Factory(코드 리뷰 없이 테스트·검증 시스템만으로 동작). Simon Willison은 "아무도 AI 코드를 리뷰하지 않고 20년 경력 엔지니어들이 설계한 검증 시스템만 운용"하는 팀을 목격했다고 전합니다.

Anders Hejlsberg: AI는 '대규모 재탕기'

TypeScript/C# 창시자가 AI 코드 포팅 시 "약간의 외삽을 더한 재탕"이라 평가했습니다. TypeScript→Go 네이티브 컴파일러 포팅에서 AI 번역을 시도했으나 결정론적 결과가 필요해 포기. 대신 "AI가 포팅 도구를 생성하게 하면 결과가 결정론적"이라는 메타 접근을 제안합니다.

Andrej Karpathy: "나는 이제 영어로 프로그래밍한다"

전 Tesla AI 디렉터가 "20년 코딩 경력 중 가장 큰 워크플로우 변화"라고 고백했습니다. LLM에게 자연어로 지시하고 대규모 코드 액션을 받는 방식으로 전환했으며 "자존심이 좀 상하지만 생산성이 너무 높다"고 인정합니다. 개발자 정체성 재협상의 시작입니다.

Claude Code 자동 코드 리뷰: Hooks로 AI 품질 게이트 구축

시스템 프롬프트만으로는 일관된 코드 품질을 보장할 수 없습니다. Claude Code의 Stop Hook에 서브에이전트를 연결해 수정된 파일만 자동 리뷰하고, 시맨틱 이슈(네이밍, 도메인 로직 유출, 기본값 폴백 남용)를 피드백합니다. PostToolUse Hook으로 파일 변경 로깅까지 구현한 GitHub 예제 공개.

5개의 좋아요