Vulnerability Assessment
6 vetores: source/IP exposure, prompt injection malicioso ("smoke and mirrors"), modelos envenenados (CODEBREAKER), CI/CD exploitation (caso Amazon Q), shadow AI, AI code review comprometido.
AGENT PRODUCTION READINESS · AUDIT TÉCNICO
Audit técnico de 10-15 dias pra SaaS B2B BR que adotou Claude Code, Cursor, Copilot ou Devin — antes que o tempo de review apague os ganhos do agente.
Alinhado a NIST AI RMF, ISO/IEC 42001:2023 e EU AI Act. Sem viés de plataforma — recomendo o que faz sentido pro contexto.
FRAMES
Gartner G00 830388
RISCO
NIST AI RMF
GESTÃO
ISO/IEC 42001
REGULAÇÃO
EU AI Act
01 · PROBLEMA
89% dos platform engineers usam AI todo dia. Mas só 31% dos elite teams reportaram melhora em outcomes — não em produtividade individual. Onde foi o resto?
DORA · STATE OF AI-ASSISTED SW DEV 2025
0%
dos elite teams reportaram que AI melhorou outcomes organizacionais. Maioria viu produtividade individual subir e métricas de delivery ficarem iguais ou piores.
STATE OF AI · PE 2025 (n=242)
0%
dos platform engineers usam AI diariamente. Mas 47% acham over-hyped — o "implementation plateau".
GARTNER G00 830388
0
orgs sem governance e platform teams dedicados verão ganhos de SWE agents somerem em coordination overhead.
Goldratt já explicava há 40 anos: você acelera uma etapa, o gargalo move pra próxima. Cursor/Copilot/Claude Code resolveram code-gen. O bottleneck migrou pra review, CI maintenance, dependency mgmt, security patching — e a maioria dos times não atacou isso.
CALCULADORA · COORDINATION OVERHEAD
Estimativa conservadora baseada em DORA + State of AI in PE 2025. Devs gastam ~22% do tempo em review/context-switch quando agentes não têm governance.
CUSTO MENSAL DE OVERHEAD
R$ 42.240
~22% × CUSTO TOTAL DEV
AUDIT TIER 2 (R$15-30k) PAGA EM
~2 semanas
SE EVITAR 50% DO OVERHEAD
02 · QUEM RESOLVEU
Padrão consistente nos três: cloud dev environments existiam antes de empilhar agentes. Quem só comprou licença de Cursor e mandou usar ficou no plateau.
STRIPE · MINIONS
0+
PRs gerados por agente por semana, todos human-reviewed.
MCP Toolshed com ~500 ferramentas, curadas a 15 por task. Devbox em QA env, sem prod access. Blueprint: state machine (deterministic + agentic).
RAMP · INSPECT
>0%
de PRs merged via agente. 80%+ do próprio Inspect é escrito pelo Inspect.
Modal Sandboxes com Postgres/Redis/Temporal/RabbitMQ + VS Code server. Snapshots a cada 30min. Scoped credentials per-run.
SPOTIFY · HONK
0+
PRs merged. Migrações com 60-90% de redução em tempo.
Claude Code + sistema interno Honk. Builds em cima de Fleet Management que já existia.
"Meus engenheiros sêniors não escrevem uma linha de código desde dezembro."
GUSTAV SÖDERSTRÖM · CO-CEO SPOTIFY · Q4 2025 EARNINGS
03 · ABORDAGEM
Não dá pra pular nenhuma. Cada camada é pré-requisito da próxima. O audit cobre as 5, prioriza por CRITICAL/HIGH/MEDIUM/LOW com plano de remediação 90/180d.
6 vetores: source/IP exposure, prompt injection malicioso ("smoke and mirrors"), modelos envenenados (CODEBREAKER), CI/CD exploitation (caso Amazon Q), shadow AI, AI code review comprometido.
5 primitivos no padrão Stripe/Ramp/Spotify: sandboxed execution, context & connectivity, triggers (scheduled/event/fleet/swarm), fleet coordination, governance estrutural.
Identity/access/secret management zero-trust por agente, audit logging append-only crypto-verifiable, sandboxing de dev environments, AI gateway centralizado pra policy + cost attribution.
Policy as Code (OPA/Cedar/Rego), AI observability (drift, explainability, traces), context isolation com RAG indexes pré-aprovados em workspaces ephemeral.
NIST AI RMF (Govern/Map/Measure/Manage), ISO/IEC 42001:2023 (38 controles auditáveis), EU AI Act milestones (Ago/2026 high-risk ativo), LGPD interpretado pra contexto de IA.
DECISÃO · BUILD vs BUY
Sem revenue share com Ona, Coder, Modal, Daytona ou E2B. A matriz abaixo é a heurística que uso pra decidir o que recomendar. Mexa nas variáveis.
RECOMENDAÇÃO HEURÍSTICA
→ Audit primeiro, depois Cursor + Modal Sandboxes self-hosted
Time médio com pressão LGPD média e PE existente: o ROI de buy enterprise (Ona/Coder) raramente compensa em ARR < R$50M. Self-hosted + audit estruturado é o sweet spot.
04 · DIAGNÓSTICO
Sem cadastro, sem cookie, sem chamada de vendas. Resposta volta na hora — você decide se quer continuar a conversa.
PERGUNTA 1 / 3
PERGUNTA 2 / 3
PERGUNTA 3 / 3
TIER 1 · 5-10 DIAS
Pra quem tem 1+ feature de IA em produção (chatbot, RAG, summarização, agente isolado) e quer reduzir custo, melhorar qualidade e ganhar observabilidade.
6 DIMENSÕES
R$ 5–15k
AUDIT STANDALONE · IMPLEMENTATION RETAINER OPCIONAL
TIER 2 · 10-15 DIAS
Pra quem adotou Cursor, Copilot, Claude Code, Devin ou Factory no time e precisa de governance antes que coordination overhead apareça.
5 CAMADAS · NIST · ISO 42001
R$ 15–30k · mediana R$ 22k
AUDIT STANDALONE
+ R$ 12–25k/mês
IMPLEMENTATION RETAINER · 3-9 MESES · NIST/ISO READINESS
ENTREGÁVEL TIER 2
Relatório PDF 30-50 páginas com findings priorizados + benchmarks vs Stripe/Ramp/Spotify + gap analysis vs NIST/ISO + plano de remediação 90/180d. Apresentação 2h ao C-level + time técnico. Policy as Code starter pack (10-15 OPA/Cedar/Rego). AI gateway blueprint. 4-stage governance maturity roadmap.
05 · CASES
Padrão consistente nos dois: agente como proposta, operador como decisão final. Human-in-the-loop estrutural, não cosmético.
CASE 01
LOGÍSTICA · PETROBRAS
AI ENG. INTERN · 2024-2026
Operadores revisavam casos manualmente contra 100+ históricos antes de cada decisão. Minutos por caso. 10-15 divergências/mês. RAG sobre corpus de operações + agente propondo classificação, justificativa, referências. Operador confirma ou corrige. Correções alimentam refinamento de rubrica e tuning de retrieval.
DIVERGÊNCIAS/MÊS
10-15 → <3
REVISÃO POR CASO
min → ~20s
CORPUS
100+
CASE 02
EDUCAÇÃO · TCC
SOLE AUTHOR · GITHUB PUBLIC
Correção de redação é cara, lenta, inconsistente entre avaliadores. Pergunta de tese: multi-agent system sobrevive a uma rubrica explícita? Dois corretores independentes + arbitragem condicional. Em 24 casos: divergência máxima 1.22 (vs threshold 2.0). Arbitrador nunca foi acionado.
CASOS INTERMEDIÁRIOS
+0.84
CASOS FRACOS
+0.12
EXTREMOS
0.00
Insight: retrieval ajuda na decisão ambígua, não no extremo óbvio.
06 · SOBRE
AI Engineer brasileiro. Background em sistemas de alta consequência — RAG sobre corpus de operações críticas na Petrobras logística. TCC público em multi-agent grading com arbitragem condicional, defendido no IFF.
Hoje audito SaaS B2B BR que adotaram Claude Code, Cursor, Copilot, Devin. Frame de auditoria validado por NIST AI RMF, ISO/IEC 42001:2023 e Gartner G00 830388. Sou independente — sem viés de plataforma, sem revenue share com Ona/Coder/Modal/Daytona/E2B. Recomendo build vs buy honesto pro contexto do cliente.
Engenharia da Computação no Instituto Federal Fluminense. Falo PT-BR nativo e EN profissional.
STACK QUE ESTÁ EM PRODUÇÃO
LINGUAGEM
AI & AGENTS
INFRA
GOVERNANCE
07 · CONTATO
Diagnóstico inicial de 30min — sem pitch, sem compromisso. Saio dali com 3 oportunidades específicas pro contexto de vocês.
CALENDLY INLINE · SEM REDIRECT · SEU CALENDÁRIO ESCOLHE O HORÁRIO
● 30MIN · SEM PITCH