Llama 3.1 8B Instant su Groq è il modello che chiamo decine di volte al giorno per i task piccoli. Non è il più intelligente del toolkit, ma è quello che mi risponde in mezzo secondo. Per le classificazioni rapide, le regex abbozzate, i riassunti di un blocco di journalctl prima di mandarlo in un alert, mi serve esattamente quello.

Quando devo decidere se una riga di log è un warning innocuo o un errore vero, non voglio aspettare due secondi. La latenza delle LPU Groq su un modello da 8B mantiene fluido il workflow. Llama 3.1 8B è open weights, distribuito da Meta sotto Llama 3 Community License: pesi pubblici, ridistribuibili, usabili senza vincoli pratici per l’homelab.

Configurazione di opencode

La chiave la creo gratis su console.groq.com/keys e la salvo in ~/.config/claude-credentials/credentials.env come GROQ_API_KEY. La shell la carica all’avvio. Nel file ~/.config/opencode/opencode.json aggiungo il modello dentro il provider OpenAI-compatible Groq, lo stesso che uso per il 70B; basta registrare il nome modello aggiuntivo:


{
  "provider": {
    "groq": {
      "npm": "@ai-sdk/openai-compatible",
      "options": {
        "apiKey": "{env:GROQ_API_KEY}",
        "baseURL": "https://api.groq.com/openai/v1"
      },
      "models": {
        "llama-3.1-8b-instant": { "name": "Llama 3.1 8B Instant" }
      }
    }
  }
}

Per usarlo via opencode, comando diretto in shell:


opencode . --model groq/llama-3.1-8b-instant

Per i task batch da terminale, tipo parsing di un file di log, preferisco un curl secco contro l’endpoint senza aprire la TUI. La risposta arriva in tempi che mi permettono di concatenare le chiamate con xargs quando serve.

Un esempio di sessione reale

Martedì pomeriggio alle 15:20 stavo leggendo un dump di 4000 righe di Nginx access log da un container di staging. Cercavo richieste con codice 5xx ma con pattern URL anomalo rispetto al traffico normale. La regex per i 5xx la sapevo, ma volevo un riassunto in linguaggio naturale dei pattern emergenti per capire se era un attacco o solo un bug nostro. Ho fatto:


grep ' 5[0-9][0-9] ' /tmp/access.log | head -200 > /tmp/5xx.txt

Poi dentro la TUI di opencode puntata al modello, prompt:

leggi /tmp/5xx.txt. Raggruppa le richieste per pattern di path (ignora query string), elenca top 5 pattern con conteggio. Per ogni pattern indica se sembra ricerca legittima, scan automatizzato, o errore applicativo, con motivazione di una riga.

Risposta in circa 800 millisecondi. Cinque cluster identificati correttamente: tre erano endpoint di un’applicazione interna con un bug noto, due erano scansioni di wp-login.php su un host che non aveva nemmeno WordPress. Ho chiuso il ticket in pochi minuti.

Cosa fa bene

Risposte in meno di un secondo su prompt corti. Classificazioni binarie o a poche categorie. Riassunto di righe di log in linguaggio naturale. Generazione di regex semplici, parsing di output journalctl. Conversione di output testuale strutturato in JSON quando lo schema è chiaro. Tutto quello che farei con uno script awk se sapessi awk meglio.

Cosa fa meno bene

Ragionamento step-by-step lungo: lo perde dopo poche battute. Codice di una certa complessità: tende a improvvisare API che non esistono. Documentazione tecnica articolata: serve un modello più grande. Per qualunque task in cui la qualità conta più della latenza, salgo al 70B o al Qwen3 32B sullo stesso provider.

Privacy e termini del provider

Groq dichiara, nella Services Agreement Sezione 4.2 aggiornata al 15 ottobre 2025, che gli input e gli output non vengono usati per training né fine-tuning. La retention dei log è al massimo 30 giorni per troubleshooting e abuse monitoring. L’infrastruttura è GCP US, residency statunitense. Il toggle ZDR è in console sotto Data Controls, ma l’eligibility per il free tier non è documentata chiaramente.

I modelli sul catalogo Groq sono misti tra proprietari (Compound) e open. Llama 3.1 8B Instant è open weights, Llama 3 Community License, pesi su Hugging Face. Posso ispezionare e riprodurre il modello fuori dal provider se ne ho bisogno.

Cosa non gli mando

Niente IP interni, niente hostname reali del mio homelab, niente nomi di clienti, niente stralci di file di config con chiavi. Per i log applicativi passo un filtro di redazione prima dell’invio. Per contenuti sensibili evito Groq e uso qwen2.5-coder:14b su Ollama in locale: il tempo di risposta sale a 4-5 secondi sul mio hardware, ma il dato non esce di casa.

In pratica

Nel mio toolkit Llama 3.1 8B Instant è il “primo livello” del filtro: triage di log, classificazione veloce, parsing leggero. Quando serve più qualità salgo a Qwen3 32B su Groq, che mantiene una latenza accettabile. Per output lunghi e ben strutturati vado su Llama 3.3 70B Versatile. Per ragionamento su documentazione enorme passo su Cerebras con Qwen3 235B. Il 8B Instant è la mano destra che gira sempre in background mentre lavoro.


Immagine generata con Cloudflare Workers AI / FLUX.

Articolo originale su rpi.temporiti.net