AGENT PRODUCTION READINESS · AUDIT TÉCNICO

Você já roda
agentes em produção.
Falta a governança.

Audit técnico de 10-15 dias pra SaaS B2B BR que adotou Claude Code, Cursor, Copilot ou Devin — antes que o tempo de review apague os ganhos do agente.

Alinhado a NIST AI RMF, ISO/IEC 42001:2023 e EU AI Act. Sem viés de plataforma — recomendo o que faz sentido pro contexto.

FRAMES

Gartner G00 830388

RISCO

NIST AI RMF

GESTÃO

ISO/IEC 42001

REGULAÇÃO

EU AI Act

Lucas Savino, AI Engineer, no Rio de Janeiro
LUCAS L. SAVINO AI ENGINEER · 2024-2026

01 · PROBLEMA

AI virou padrão.
ROI organizacional, não.

89% dos platform engineers usam AI todo dia. Mas só 31% dos elite teams reportaram melhora em outcomes — não em produtividade individual. Onde foi o resto?

DORA · STATE OF AI-ASSISTED SW DEV 2025

0%

dos elite teams reportaram que AI melhorou outcomes organizacionais. Maioria viu produtividade individual subir e métricas de delivery ficarem iguais ou piores.

STATE OF AI · PE 2025 (n=242)

0%

dos platform engineers usam AI diariamente. Mas 47% acham over-hyped — o "implementation plateau".

GARTNER G00 830388

0

orgs sem governance e platform teams dedicados verão ganhos de SWE agents somerem em coordination overhead.

Goldratt já explicava há 40 anos: você acelera uma etapa, o gargalo move pra próxima. Cursor/Copilot/Claude Code resolveram code-gen. O bottleneck migrou pra review, CI maintenance, dependency mgmt, security patching — e a maioria dos times não atacou isso.

CALCULADORA · COORDINATION OVERHEAD

Quanto sua org está perdendo agora?

Estimativa conservadora baseada em DORA + State of AI in PE 2025. Devs gastam ~22% do tempo em review/context-switch quando agentes não têm governance.

CUSTO MENSAL DE OVERHEAD

R$ 42.240

~22% × CUSTO TOTAL DEV

AUDIT TIER 2 (R$15-30k) PAGA EM

~2 semanas

SE EVITAR 50% DO OVERHEAD

02 · QUEM RESOLVEU

Stripe. Ramp. Spotify.
Anos de infra antes do agente.

Padrão consistente nos três: cloud dev environments existiam antes de empilhar agentes. Quem só comprou licença de Cursor e mandou usar ficou no plateau.

STRIPE · MINIONS

0+

PRs gerados por agente por semana, todos human-reviewed.

MCP Toolshed com ~500 ferramentas, curadas a 15 por task. Devbox em QA env, sem prod access. Blueprint: state machine (deterministic + agentic).

RAMP · INSPECT

>0%

de PRs merged via agente. 80%+ do próprio Inspect é escrito pelo Inspect.

Modal Sandboxes com Postgres/Redis/Temporal/RabbitMQ + VS Code server. Snapshots a cada 30min. Scoped credentials per-run.

SPOTIFY · HONK

0+

PRs merged. Migrações com 60-90% de redução em tempo.

Claude Code + sistema interno Honk. Builds em cima de Fleet Management que já existia.

"Meus engenheiros sêniors não escrevem uma linha de código desde dezembro."

GUSTAV SÖDERSTRÖM · CO-CEO SPOTIFY · Q4 2025 EARNINGS

03 · ABORDAGEM

5 camadas.
Uma sequência inegociável.

Não dá pra pular nenhuma. Cada camada é pré-requisito da próxima. O audit cobre as 5, prioriza por CRITICAL/HIGH/MEDIUM/LOW com plano de remediação 90/180d.

01

Vulnerability Assessment

6 vetores: source/IP exposure, prompt injection malicioso ("smoke and mirrors"), modelos envenenados (CODEBREAKER), CI/CD exploitation (caso Amazon Q), shadow AI, AI code review comprometido.

02

Infrastructure Primitives

SBX CTX TRG FLT GOV

5 primitivos no padrão Stripe/Ramp/Spotify: sandboxed execution, context & connectivity, triggers (scheduled/event/fleet/swarm), fleet coordination, governance estrutural.

03

Baseline Controls

IAM AUDIT GATEWAY

Identity/access/secret management zero-trust por agente, audit logging append-only crypto-verifiable, sandboxing de dev environments, AI gateway centralizado pra policy + cost attribution.

04

Adaptive Governance

drift policy trace

Policy as Code (OPA/Cedar/Rego), AI observability (drift, explainability, traces), context isolation com RAG indexes pré-aprovados em workspaces ephemeral.

05

Regulatory Readiness

NIST ISO EU AI LGPD

NIST AI RMF (Govern/Map/Measure/Manage), ISO/IEC 42001:2023 (38 controles auditáveis), EU AI Act milestones (Ago/2026 high-risk ativo), LGPD interpretado pra contexto de IA.

DECISÃO · BUILD vs BUY

Eu não vendo plataforma. Vendo recomendação honesta.

Sem revenue share com Ona, Coder, Modal, Daytona ou E2B. A matriz abaixo é a heurística que uso pra decidir o que recomendar. Mexa nas variáveis.

RECOMENDAÇÃO HEURÍSTICA

Audit primeiro, depois Cursor + Modal Sandboxes self-hosted

Time médio com pressão LGPD média e PE existente: o ROI de buy enterprise (Ona/Coder) raramente compensa em ARR < R$50M. Self-hosted + audit estruturado é o sweet spot.

04 · DIAGNÓSTICO

3 perguntas.
Tier recomendado.

Sem cadastro, sem cookie, sem chamada de vendas. Resposta volta na hora — você decide se quer continuar a conversa.

PERGUNTA 1 / 3

Você já tem alguma feature de IA em produção?

TIER 1 · 5-10 DIAS

LLM Production Readiness

Pra quem tem 1+ feature de IA em produção (chatbot, RAG, summarização, agente isolado) e quer reduzir custo, melhorar qualidade e ganhar observabilidade.

6 DIMENSÕES

  • · Custo de inferência
  • · Qualidade de output (evals)
  • · Latência
  • · Observabilidade
  • · Robustez (fallback, retry)
  • · Segurança & compliance

R$ 5–15k

AUDIT STANDALONE · IMPLEMENTATION RETAINER OPCIONAL

RECOMENDADO PRA SaaS R$1-10M ARR

TIER 2 · 10-15 DIAS

Agent Governance Audit

Pra quem adotou Cursor, Copilot, Claude Code, Devin ou Factory no time e precisa de governance antes que coordination overhead apareça.

5 CAMADAS · NIST · ISO 42001

  • · Vulnerability assessment
  • · Infrastructure primitives
  • · Baseline controls
  • · Adaptive governance
  • · Regulatory readiness

R$ 15–30k · mediana R$ 22k

AUDIT STANDALONE

+ R$ 12–25k/mês

IMPLEMENTATION RETAINER · 3-9 MESES · NIST/ISO READINESS

ENTREGÁVEL TIER 2

Relatório PDF 30-50 páginas com findings priorizados + benchmarks vs Stripe/Ramp/Spotify + gap analysis vs NIST/ISO + plano de remediação 90/180d. Apresentação 2h ao C-level + time técnico. Policy as Code starter pack (10-15 OPA/Cedar/Rego). AI gateway blueprint. 4-stage governance maturity roadmap.

05 · CASES

Sistemas em produção.
Modelo propõe, humano decide.

Padrão consistente nos dois: agente como proposta, operador como decisão final. Human-in-the-loop estrutural, não cosmético.

CASE 01

LOGÍSTICA · PETROBRAS

AI ENG. INTERN · 2024-2026

AJUDEM

Operadores revisavam casos manualmente contra 100+ históricos antes de cada decisão. Minutos por caso. 10-15 divergências/mês. RAG sobre corpus de operações + agente propondo classificação, justificativa, referências. Operador confirma ou corrige. Correções alimentam refinamento de rubrica e tuning de retrieval.

DIVERGÊNCIAS/MÊS

10-15 <3

REVISÃO POR CASO

min ~20s

CORPUS

100+

Python LangChain LangGraph FastAPI PostgreSQL ChromaDB

CASE 02

EDUCAÇÃO · TCC

SOLE AUTHOR · GITHUB PUBLIC

ai-grading-system

GITHUB ↗

Correção de redação é cara, lenta, inconsistente entre avaliadores. Pergunta de tese: multi-agent system sobrevive a uma rubrica explícita? Dois corretores independentes + arbitragem condicional. Em 24 casos: divergência máxima 1.22 (vs threshold 2.0). Arbitrador nunca foi acionado.

CASOS INTERMEDIÁRIOS

+0.84

CASOS FRACOS

+0.12

EXTREMOS

0.00

Insight: retrieval ajuda na decisão ambígua, não no extremo óbvio.

LangGraph LangChain FastAPI ChromaDB PostgreSQL

06 · SOBRE

Lucas Savino.
AI Engineer · BR.

AI Engineer brasileiro. Background em sistemas de alta consequência — RAG sobre corpus de operações críticas na Petrobras logística. TCC público em multi-agent grading com arbitragem condicional, defendido no IFF.

Hoje audito SaaS B2B BR que adotaram Claude Code, Cursor, Copilot, Devin. Frame de auditoria validado por NIST AI RMF, ISO/IEC 42001:2023 e Gartner G00 830388. Sou independente — sem viés de plataforma, sem revenue share com Ona/Coder/Modal/Daytona/E2B. Recomendo build vs buy honesto pro contexto do cliente.

Engenharia da Computação no Instituto Federal Fluminense. Falo PT-BR nativo e EN profissional.

STACK QUE ESTÁ EM PRODUÇÃO

LINGUAGEM

Python TypeScript SQL

AI & AGENTS

Claude Code LangGraph MCP ChromaDB

INFRA

FastAPI Postgres Docker Vercel

GOVERNANCE

OPA Cedar Langfuse OTel
FOCO Agentes em produção
ICP SaaS B2B BR R$1-10M
FRAMES NIST · ISO 42001
IDIOMAS PT-BR · EN

07 · CONTATO

Vamos
conversar.

Diagnóstico inicial de 30min — sem pitch, sem compromisso. Saio dali com 3 oportunidades específicas pro contexto de vocês.

CALENDLY INLINE · SEM REDIRECT · SEU CALENDÁRIO ESCOLHE O HORÁRIO