Claude è il primo modello avanzato di intelligenza artificiale progettato per prendere il controllo di un computer e compiere azioni come effettuare ricerche sul web, aprire applicazioni e digitare testo.
Dopo un iniziale periodo di adattamento all’idea di chatbot che sembrano avere una propria volontà, il prossimo passo potrebbe essere permettere all’intelligenza artificiale di gestire anche i nostri computer.
Anthropic, uno dei principali rivali di OpenAI, ha annunciato di aver addestrato il proprio modello di intelligenza artificiale, Claude, a eseguire varie operazioni su un computer: dalla navigazione sul web all’apertura di app, fino all’inserimento di testo tramite mouse e tastiera.
“Stiamo entrando in una nuova era in cui un modello può utilizzare ogni strumento come farebbe una persona per portare a termine i propri compiti,” afferma Jared Kaplan, direttore scientifico di Anthropic e professore associato alla Johns Hopkins University.
Claude in azione
In una dimostrazione, a Claude è stato chiesto di costruire un semplice sito web per promuoversi. In un momento, il modello ha inserito una richiesta di testo nella propria interfaccia web per generare il codice necessario. Ha quindi utilizzato Visual Studio Code, un popolare editor di codice sviluppato da Microsoft, per scrivere un sito web e ha aperto un terminale di testo per avviare un server web per testare il sito. Il sito offriva una pagina di destinazione decente, a tema anni ’90, per il modello di intelligenza artificiale. Quando l’utente gli ha chiesto di risolvere un problema sul sito web risultante, il modello è tornato all’editor, ha identificato il frammento di codice incriminato e lo ha cancellato.
Verso un'IA più produttiva
Mike Krieger, chief product officer di Anthropic, afferma che l’azienda punta a far sì che i cosiddetti agenti AI possano automatizzare le attività di routine in ufficio, liberando le persone per dedicarsi a compiti più produttivi. “Che cosa fareste con tutte quelle ore guadagnate, sottraendovi a operazioni ripetitive come il copia e incolla?” chiede Krieger. “Io, probabilmente, suonerei di più la chitarra.”
Anthropic ha annunciato che da oggi le sue capacità di automazione saranno disponibili attraverso l’API per il modello linguistico multimodale più potente, Claude 3.5 Sonnet. L’azienda ha presentato anche una nuova versione migliorata di un modello più leggero, Claude 3.5 Haiku.
Le dimostrazioni degli agenti AI sono spesso sorprendenti, ma portare questa tecnologia a funzionare in modo affidabile e senza problemi nel mondo reale è una sfida. I modelli attuali sono capaci di rispondere a domande e dialogare in modo quasi umano, e sono il motore di chatbot come ChatGPT di OpenAI e Gemini di Google. Possono anche eseguire compiti sul computer in risposta a semplici comandi, interagendo con lo schermo e dispositivi come tastiera e trackpad, o tramite interfacce software di basso livello.
Secondo Anthropic, Claude supera altri agenti di intelligenza artificiale in diversi benchmark chiave, tra cui SWE-bench (che misura le capacità di sviluppo software di un agente) e OSWorld (che valuta la capacità di utilizzare un sistema operativo). Anche se queste affermazioni non sono state ancora verificate indipendentemente, Anthropic sostiene che Claude esegue i compiti di OSWorld correttamente nel 14,9% dei casi. Sebbene questo dato sia nettamente inferiore al 75% di successo degli esseri umani, rappresenta comunque un miglioramento significativo rispetto agli agenti migliori disponibili, come GPT-4 di OpenAI, che riescono nel 7,7% dei casi.
Claude e l'era dell'IA agenziale
Anthropic sostiene che diverse aziende stanno già sperimentando la versione agenziale di Claude. Tra queste, Canva lo utilizza per automatizzare attività di progettazione e modifica, mentre Replit lo impiega per supporto alla codifica. Tra i primi utilizzatori ci sono anche The Browser Company, Asana e Notion.
Ofir Press, ricercatore post-dottorato presso l’Università di Princeton e collaboratore allo sviluppo di SWE-bench, osserva che le IA agenziali faticano a pianificare a lungo termine e spesso hanno difficoltà a riprendersi dagli errori. “Per dimostrare il loro reale potenziale, dobbiamo ottenere prestazioni elevate su benchmark complessi e realistici”, afferma, come ad esempio organizzare e prenotare in modo affidabile una serie di viaggi per un utente.
Kaplan sottolinea che Claude ha già dimostrato di saper risolvere alcuni errori in modo sorprendente. Ad esempio, quando si è imbattuto in un errore di terminale avviando un server web, è stato in grado di correggere il comando autonomamente. In un altro caso, si è reso conto di dover abilitare i popup per procedere in un’operazione sul web.
Oggi molte aziende tecnologiche stanno accelerando lo sviluppo di agenti di intelligenza artificiale, puntando a conquistare mercato e visibilità. Microsoft, che ha investito circa 13 miliardi di dollari in OpenAI, ha dichiarato di testare agenti capaci di operare sui computer Windows. Anche Amazon, che ha investito molto in Anthropic, sta esplorando l’uso degli agenti per consigliare e acquistare prodotti per i clienti.
Sonya Huang, partner di Sequoia, società di venture capital focalizzata su aziende di IA, rileva che, nonostante l’entusiasmo attorno agli agenti di IA, la maggior parte delle aziende sta semplicemente ribattezzando strumenti di IA esistenti. Prima del lancio di Anthropic, ha dichiarato a Wired che questi strumenti funzionano meglio in contesti specifici, come la codifica, dove gli errori sono tollerabili: “È essenziale scegliere ambiti in cui, se il modello fallisce, non è un problema”, ha detto. “Questi sono gli spazi in cui nasceranno le aziende native dell’agente”.
Una delle sfide principali per l’IA agenziale è che i suoi errori possono essere molto più critici rispetto alle risposte imprecise di un chatbot. Per questo, Anthropic ha introdotto restrizioni su cosa Claude può fare, ad esempio limitandone la possibilità di utilizzare carte di credito per acquisti.
Se si riuscirà a minimizzare gli errori, afferma Press dell’Università di Princeton, gli utenti potrebbero imparare a vedere l’IA e i computer in un modo completamente nuovo: “Sono entusiasta di questa nuova era”, dice.