Anthropic ha esteso Claude Opus 4.7 a una finestra di contesto da 1 milione di token, allineandosi a Gemini 2.x e ai competitor più aggressivi sul fronte context length.
Perché conta
Per chi costruisce agenti su codebase reali, il context window è il vincolo più frustrante. Sotto i 200k token bisogna fare retrieval — embedding, vector DB, chunking, re-ranking. Sopra 1M, su molti progetti medi, si può semplicemente caricare l'intera codebase e lasciare al modello la navigazione.
Il trade-off: prompt caching diventa essenziale. Ogni richiesta non-cached da 800k token costa molto. Senza caching aggressivo l'economia non torna.
Cosa cambierei in produzione
Tre situazioni in cui Opus 4.7 1M cambia l'architettura:
- Code review automatici di grandi PR — non più necessario riassumere o spezzare.
- Agenti su monorepo — meno middleware di retrieval, più ragionamento end-to-end.
- Documentazione tecnica + ticket — caricare l'intero corpus a ogni query diventa fattibile.
Non è ancora il momento di buttare RAG. Per dataset enterprise (centinaia di GB) il retrieval resta indispensabile. Ma per prodotti AI con corpus medi (codebase, manuali, KB di supporto) la combinazione caching aggressivo + 1M context è oggi il setup più semplice ed efficace.