Qwen3 32B su Groq per ragionamento step-by-step e analisi cause

Qwen3 32B servito su Groq è il modello che apro quando Llama 3.1 8B è troppo poco e Llama 3.3 70B è sovradimensionato. Sta nel mezzo, ha un ragionamento step-by-step migliore del 70B sui task di coding piccoli, e sulle LPU di Groq la latenza resta sotto i due secondi anche su risposte da 1500 token.

Lo tengo come “secondo cervello” del terminale: quando devo trasformare uno schema, riscrivere una funzione, leggere un Dockerfile e suggerire un’ottimizzazione, è il modello che dà la qualità più alta a parità di tempo di attesa. Qwen 3 è open weights, Apache 2.0, sviluppato da Alibaba. Pesi pubblici, ridistribuibili, ispezionabili.

Configurazione di opencode

La chiave Groq è la stessa che uso per gli altri modelli del provider, presa da console.groq.com/keys e salvata in ~/.config/claude-credentials/credentials.env come GROQ_API_KEY. Nel file ~/.config/opencode/opencode.json aggiungo il modello sotto il provider Groq:


{
  "provider": {
    "groq": {
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "apiKey": "{env:GROQ_API_KEY}",
        "baseURL": "https://api.groq.com/openai/v1"
      },
      "models": {
        "qwen/qwen3-32b": { "name": "Qwen3 32B" }
      }
    }
  }
}

Lo lancio dalla shell dentro la cartella del progetto:


opencode . --model groq/qwen/qwen3-32b

La working directory che passo è di solito ~/Documenti/progetti//, con dentro il sorgente da rivedere.

Un esempio di sessione reale

Giovedì alle 10:50 stavo riscrivendo un piccolo script Python che parsava un export CSV di Strava in record JSON per caricarli su un database. Lo script originale funzionava ma era 180 righe di codice non idiomatico, con tre cicli annidati e una logica di deduplicazione fragile. Ho aperto opencode dentro la cartella del progetto e ho dato il prompt:

leggi parser.py. Riscrivilo idiomatico Python 3.13, usa pathlib, dataclasses e itertools dove sensato. Mantieni esattamente la stessa interfaccia CLI e produci la lista dei diff principali in un commento in cima.

Risposta in circa due secondi e mezzo. Ha consolidato i tre cicli in uno solo usando groupby, ha sostituito la deduplicazione manuale con un set su tuple ordinate, e ha aggiunto un dataclass Activity che ha reso il resto leggibile. Le 180 righe sono diventate 95, con cinque commenti utili e zero modifiche all’interfaccia CLI. La regressione l’ho verificata con un diff sui JSON di output: identici riga per riga.

Cosa fa bene

Riscritture di funzioni medie con stile idiomatico nel linguaggio target. Analisi di una catena di errori con causa probabile motivata. Trasformazioni di schema (CSV verso JSON, YAML verso TOML, eccetera) con regole esplicite. Spiegazioni passo passo di pezzi di codice altrui. Generazione di test parametrizzati a partire da una funzione esistente. Mantiene il filo su prompt da 5-10k token senza divagare.

Cosa fa meno bene

Output narrativo molto lungo: tende a essere meno scorrevole del 70B. Output puramente creativo: non è la sua area. Su prompt molto vaghi propone soluzioni generiche, vuole specifiche e vincoli per dare il meglio.

Privacy e termini del provider

Groq, nella Services Agreement Sezione 4.2 aggiornata al 15 ottobre 2025, dichiara esplicitamente che input e output non vengono usati per training né fine-tuning. La retention dei log è al massimo 30 giorni per troubleshooting e abuse monitoring. L’infrastruttura è GCP US, quindi residency statunitense. Il toggle ZDR esiste sulla console sotto Data Controls, eligibility per il free tier non chiaramente documentata.

Il modello Qwen 3 32B è open weights, Apache 2.0, rilasciato da Alibaba. Posso scaricarlo e riprodurlo in locale (con hardware adeguato) o sostituirlo con la variante più piccola della stessa famiglia se serve. La combinazione policy Groq più modello Apache 2.0 è una delle più pulite per task tecnici di routine.

Cosa non gli mando

Niente nomi reali di clienti, niente IP interni, niente hostname del mio homelab, niente stralci con secret. Su uno script che contiene path personali o nomi di file di configurazione, sostituisco con placeholder prima di mandarlo. Per codice davvero sensibile fallback su qwen2.5-coder:14b su Ollama in locale: la latenza sale a qualche secondo sul mio hardware ma il codice non lascia la macchina.

In pratica

Nel mio mix Qwen3 32B su Groq è il default per coding di precisione su singoli file. Per task triviali e veloci scendo a Llama 3.1 8B Instant. Per output narrativi lunghi salgo a Llama 3.3 70B Versatile. Per ragionamento su codebase intere con tanti file dentro lo stesso contesto passo a Qwen3 235B su Cerebras o a Gemini 2.5 Pro. Il 32B è il punto dolce della curva qualità/latenza nel mio uso quotidiano.

Immagine generata con Cloudflare Workers AI / FLUX.

Articolo originale su rpi.temporiti.net

Qwen3 32B su Groq per ragionamento step-by-step e analisi cause—