Con la progressiva fine dell’AI coding gratuito, è diventato fondamentale imparare a ottimizzare l’uso dei token per non esaurire subito i crediti del proprio piano. In questo articolo condivido 3 tecniche essenziali (più un tip bonus finale) per contenere e ridurre i costi del tuo coding agent, dimostrate con GitHub Copilot ma valide per quasi tutti gli assistenti basati su LLM.

Video su YouTube: qui.

1. Usa il modello più piccolo adatto all’attività

Ormai abbiamo scoperto a nostre spese che non possiamo più utilizzare i modelli più complessi per compiti banali. Dobbiamo imparare a scegliere:

  • Per attività semplici (modifiche rapide, codice standard, compiti di routine): scegli modelli economici e veloci come i Flash della famiglia Gemini, Haiku per Claude, o i modelli Mini di OpenAI.
  • Per attività complesse (refactoring profondi, decisioni architetturali, debug intricati): affidati ai reasoning model come la famiglia Opus o i modelli GPT più potenti, che garantiscono alte capacità di ragionamento. Claude Sonnet è un’ottima alternativa general purpose dal costo contenuto.

Inoltre, tieni sotto controllo il thinking effort (le capacità di ragionamento aggiuntivo). Per la stragrande maggioranza dei casi, l’impostazione di default (“medium”) è la scelta giusta. Alzalo solo per task davvero complessi, perché il reasoning extra consuma token preziosi fatturati al tuo piano. Infine, limita la finestra di contesto: non usare un contesto da un milione di token se non ti serve. Finestre più ristrette fanno risparmiare in modo significativo.

2. Adotta il processo Plan-Refine-Implement

Non chiedere mai all’agent di generare enormi blocchi di codice “pronti, via!”. Passa sempre per una fase di pianificazione.

Vale la pena usare modelli costosi e con alte capacità di reasoning nella fase di “Plan”, dove l’AI deve esaminare zone d’ombra, guidarti nel ragionamento e valutare gli edge case. Una volta che il piano è ben rifinito (Refine), puoi passare alla fase di implementazione (Implement) utilizzando modelli più piccoli ed economici. Poiché il lavoro sarà già stato ben inquadrato, i modelli veloci scriveranno codice ottimo in tempi ridotti.

3. Disabilita gli strumenti non necessari

Ogni volta che invii un prompt, il sistema arricchisce la richiesta inviando al modello le descrizioni di tutti i tool e i server MCP che hai a disposizione e attivi nel tuo ambiente. Questo “inquinamento” del prompt aumenta il consumo di token in ingresso.

Fai una selezione accurata degli strumenti: disabilita quelli che non ti servono per il task corrente. Così facendo, non solo risparmierai token, ma eviterai anche che il modello intraprenda strade sbagliate provando a usare tool non pertinenti. Se usi VS Code, puoi creare agent personalizzati con preset già stabiliti per attività ricorrenti.

4. Bonus: Usa Chronicle per analizzare i pattern

Se utilizzi i prodotti della famiglia GitHub Copilot (sia in CLI che nella chat di VS Code), sfrutta la famiglia di comandi Chronicle. Questa istruzione va a spulciare il database delle tue sessioni passate e ti fornisce feedback su come hai usato l’agent.

Prova a chiedere suggerimenti utilizzando la variante cost tips: otterrai insight preziosi e personalizzati su come ottimizzare i tuoi pattern di utilizzo e ridurre ulteriormente i costi dei modelli AI.