Llama 3.3 70B servito sulle LPU di Groq è il modello che apro quando ho bisogno di una risposta lunga in pochi secondi. Le LPU spingono il 70B oltre i 250-300 token al secondo nelle finestre buone, e per me significa poter pensare a voce alta nel terminale senza aspettare. Lo tengo come “scrittore lungo” del toolkit: stesura di script bash con commenti seri, changelog di release a partire dal git log, sezioni di README ricavate dai sorgenti.

Il modello è Llama 3.3 70B Instruct, distribuito da Meta sotto Llama 3 Community License. Non è strettamente Apache 2.0, ma i pesi sono pubblici e la licenza permette uso commerciale fino a soglie molto alte, irrilevanti per uso individuale di homelab. Su contesti da 30-40k token è la combinazione più equilibrata che ho tra qualità del ragionamento e latenza.

Configurazione di opencode

La chiave la creo su console.groq.com/keys, gratuita e senza carta, la salvo in ~/.config/claude-credentials/credentials.env come GROQ_API_KEY e la lascio caricare dalla shell. Nel file ~/.config/opencode/opencode.json registro il provider come OpenAI-compatible:


{
  "provider": {
    "groq": {
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "apiKey": "{env:GROQ_API_KEY}",
        "baseURL": "https://api.groq.com/openai/v1"
      },
      "models": {
        "llama-3.3-70b-versatile": { "name": "Llama 3.3 70B Versatile" }
      }
    }
  }
}

Per aprirlo dentro la TUI con il working directory già montato:


opencode . --model groq/llama-3.3-70b-versatile

La cartella che passo come argomento è di solito ~/Documenti/progetti//, con dentro il sorgente o il CHANGELOG.md esistente.

Un esempio di sessione reale

Lunedì sera alle 21:15 dovevo chiudere la release di un piccolo tool di archiviazione foto. Avevo 38 commit dalla tag precedente, messaggi misti italiano-inglese, alcuni “fix vari” poco descrittivi. Ho aperto opencode nella repo e ho preparato il contesto con:


git log --oneline v0.4.0..HEAD > /tmp/log.txt
git diff v0.4.0..HEAD --stat > /tmp/stat.txt

Poi dentro la TUI il prompt:

leggi /tmp/log.txt e /tmp/stat.txt. Produci CHANGELOG.md in formato Keep a Changelog (Added, Changed, Fixed). Inglese, niente parole filler, raggruppa i commit che toccano lo stesso file. Aggiungi una nota di migrazione se vedi rinomine di chiave nel file di configurazione.

La risposta è arrivata in circa quattro secondi. Aveva raggruppato i 38 commit in undici voci pulite, distinte per sezione, con una nota di migrazione corretta su una rinomina di chiave YAML che io stesso avevo dimenticato. Ho dovuto correggere una sola voce in cui aveva interpretato un commit di test come feature.

Cosa fa bene

Output lunghi e strutturati prodotti in pochi secondi: script bash di 200 righe con commenti decenti, changelog ben raggruppati, README narrativi a partire da --help e file main. Tiene bene il filo su contesti da 30-40k token. La latenza Groq trasforma una stesura da “vado a prendere un caffè” a “mentre prendo un sorso d’acqua è già qui”.

Cosa fa meno bene

Su ragionamento step-by-step di tipo logico-matematico Qwen3 32B sullo stesso provider lo batte. Sull’analisi di trade-off architetturali tende a essere riassuntivo invece che critico. Non è il modello giusto quando voglio una posizione netta su un dilemma di design.

Privacy e termini del provider

Groq, nella Services Agreement Sezione 4.2 aggiornata al 15 ottobre 2025, dichiara esplicitamente che “Groq is not permitted to use Inputs or Outputs for training or fine-tuning”. I log vengono conservati al massimo 30 giorni per troubleshooting e abuse monitoring. L’infrastruttura è GCP US, quindi residency statunitense. Sulla console esiste un toggle ZDR (Zero Data Retention) sotto Data Controls, ma l’eligibility per il free tier non è chiara dalla documentazione pubblica, va verificata caso per caso.

I modelli serviti sono misti: Llama 3.x e Qwen 3 sono open weights, Whisper open source, mentre Groq Compound è proprietario. Llama 3.3 70B che uso qui è open weights sotto Llama 3 Community License, pesi disponibili su Hugging Face.

Cosa non gli mando

Mai prompt che contengano nomi reali di clienti, credenziali, IP interni o stralci di file di configurazione con secret. Prima di inviare un log lo passo in un filtro che redatta IP privati e hostname in placeholder. Per contenuti che restano sotto il mio controllo, fallback a qwen2.5-coder:14b su Ollama in locale: stessa famiglia, niente rete.

In pratica

Nel mio mix Llama 3.3 70B su Groq è il “produttore di prosa tecnica”. Per task brevi e veloci scelgo Llama 3.1 8B Instant, sempre su Groq, perché risponde in mezzo secondo. Per ragionamento step-by-step su codice piccolo passo a Qwen3 32B. Per documentazione molto lunga con tanti file dentro lo stesso contesto vado su Qwen3 235B su Cerebras. Il 70B sta nel mezzo come default solido quando voglio output lungo ma non aspettare.


Immagine generata con Cloudflare Workers AI / FLUX.

Articolo originale su rpi.temporiti.net