Costruire un agente customer service che non fa danni

Il customer service è il primo posto dove tutti pensano di poter mettere un agente AI. Ed è anche il primo posto dove tutti si scottano. Provo a raccontare cosa ha funzionato per noi in produzione, cosa abbiamo dovuto smontare, e quali sono i sei controlli che teniamo sempre attivi.

Lo spettro: front-line vs co-pilot

Prima decisione strategica: l’agente parla direttamente col cliente, o parla con il team che parla con il cliente?

Front-line (l’agente risponde lui al cliente). Pro: copertura H24, costo marginale per ticket vicino a zero, multilingua nativo. Contro: ogni errore esce dalla porta, il cliente lo vede, lo screenshot finisce su LinkedIn.

Co-pilot (l’agente prepara la bozza al collega umano, che poi invia). Pro: zero rischio reputazionale, il collega può sempre intervenire, il team impara dall’agente quanto l’agente impara dal team. Contro: non scala oltre il numero di colleghi che hai.

Per la maggior parte dei nostri clienti PMI partiamo in co-pilot. Dopo 4-6 settimane, quando abbiamo dati sui pattern di intervento del collega ("nei tipi A, B, C l’agente azzecca al 95%"), promuoviamo solo quei tipi a front-line. Mai tutto e mai subito.

I sei controlli che teniamo sempre attivi

Per ogni agente customer service che mettiamo in produzione — front-line o co-pilot non importa — ci sono sei controlli che restano sempre on. Toglierne uno, anche temporaneamente, è una decisione che richiede sponsor a livello CEO.

1. Whitelist dei tool che può chiamare. L’agente non può fare azioni che non hai esplicitamente autorizzato. Niente "fai tutto quello che ti serve". Le azioni mutative (rimborsi, cancellazioni, riassegnazioni) sono SEMPRE su una whitelist piccola, e tipicamente richiedono umano-in-loop per le prime settimane.

2. Soglie hard sui valori. L’agente può autorizzare un rimborso fino a €X. Sopra €X, escalation umana obbligatoria. €X cresce nel tempo, parte basso.

3. Lingue/canali consentiti. L’agente parla italiano e inglese fluentemente — su altre lingue rispondiamo con un fallback umano fino a quando non abbiamo verificato la qualità. Niente "scelta automatica della lingua" sul primo round.

4. Frequency throttling per cliente. Se lo stesso cliente scrive 8 volte in 20 minuti, è probabile che sia frustrato o sia un bot. L’agente passa la palla a umano oltre una soglia.

5. Lista nera di parole e pattern. Insulti, citazioni legali, parole sensibili (suicidio, malattia grave, lutto): trigger automatici per umano. L’agente non risponde da solo.

6. Logging integrale + audit randomizzato. Ogni conversazione registrata. Una settimana ogni quattro, il team prende un campione del 5% e fa code review delle risposte dell’agente. Trovi i pattern che si rompono, aggiorni i prompt.

Pattern che funzionano

Risposte tier-1. Domande tipo "dove è il mio ordine", "come faccio il reso", "qual è il vostro orario". 50-70% del volume tipicamente. Agente eccellente qui, l’umano vede solo eccezioni.

Riassunto contestuale prima dell’escalation. Quando l’agente passa al collega, gli dà già il contesto in 3 righe: chi è il cliente, cosa ha chiesto, cosa ha provato, perché sta passando ora. Il collega risponde in metà del tempo.

Multilingua sui ticket inbound, non sulle risposte outbound delicate. L’agente capisce e classifica il ticket in qualsiasi lingua. La risposta finale, se è delicata, la fa rivedere a un umano madrelingua.

Up-sell light, mai pushy. "L’ordine arriva domani. Ti interessa la nostra spedizione express per i prossimi acquisti, ti facciamo 10% di sconto?" — ok una volta, mai due nello stesso ticket. Se forziamo, il cliente ci picchia.

Anti-pattern (cose che NON facciamo)

Niente "self-healing" automatico su decisioni di valore. Se l’agente sbaglia un rimborso e il cliente si lamenta, non torna indietro da solo. Va in coda umana. Auto-correzione su questi flussi è una mina.

Niente fine-tuning su conversazioni reali senza consenso. Il cliente non ha firmato per addestrare il vostro modello. Usate prompt + RAG su FAQ scritte da voi. Se proprio dovete fine-tunare, sintetiche o consensi espliciti.

Niente "agente generico" per ogni cosa. Un agente per il customer service, un altro per il pre-vendita, un terzo per il technical support. Stessa tecnologia, prompt diversi, tool diversi, soglie diverse. Mescolare li rende tutti mediocri.

Niente bot che si traveste da umano. Lo diciamo sempre, "stai parlando con il nostro assistente automatico, se preferisci un umano scrivi UMANO o premi 1". Trasparente, niente ambiguità. Le aziende che fingono perdono fiducia il giorno in cui la finzione si rompe.

Il caso che ci ha insegnato di più

Gruppo alberghiero, 40 strutture, sei lingue. Volevamo partire front-line per dimostrare scalabilità. Per fortuna abbiamo iniziato co-pilot, per due settimane sole. Ci siamo accorti che nel 12% delle conversazioni l’agente generava risposte tecnicamente corrette ma fredde, e i clienti rispondevano peggio del solito (NPS scendeva nei test A/B).

Abbiamo riscritto il system prompt mettendo molto peso sul tono ("sei calmo, generoso, conversazione, non burocratico — saluta sempre per nome, ringrazia, chiudi con un augurio appropriato all’occasione"). Tre giorni di tuning. Promosso a front-line dopo altre due settimane di osservazione. Oggi gestisce il 70% delle conversazioni senza umano.

Se fossimo partiti front-line dall’inizio, avremmo avuto due settimane di NPS in caduta libera prima di accorgercene. Lo sponsor del cliente l’avrebbe spento.

Una regola finale

Un agente customer service in produzione si misura, non si crede. Niente "ci pare che funzioni". Dashboard con: tasso di risoluzione senza escalation, NPS post-conversazione, tempi medi, frequenza degli interventi umani. Settimanale, condivisa con lo sponsor cliente. Se i numeri non migliorano dopo 4 settimane di tuning, l’agente non era pronto, e va spento.

È una posizione spiacevole da prendere. La prendi prima che la prenda LinkedIn al posto tuo.