Google AI Photo Upscaling riesce a fare upscale di immagini a bassa risoluzione come nessun’altro programma al mondo. Il Google Brain Team pubblica un articolo dove spiega come sono arrivati a questo risultato. Vediamo insieme di cosa si tratta.
Google AI Photo Upscaling: mai più immagini a bassa risoluzione
Avete presente quando nelle vostre serie tv poliziesche preferite fanno upscale di immagini e targhe apparentemente illeggibili? Ecco sembra che da Google arrivino risultati incoraggianti riguardo questa fantascientifica tecnologia. I ricercatori del Google Brain Team hanno appena condiviso i loro incredibili risultati di ricerca su Google AI Blog. Quando si parla di “image super-resolution” si intende un modello di apprendimento automatico per trasformare una foto a bassa risoluzione in una foto dettagliata ad alta risoluzione. Le potenziali applicazioni di questa tecnologia vanno dal restauro di vecchie foto fino al miglioramento dell’imaging medico.
Google è dal 2015 che esplora i modelli di diffusione per l’upscale di immagini, ma solo recentemente ha ottimizzato il proprio processo. Il primo modello RS3 ha come input un’immagine a bassa risoluzione e ne crea una ad alta risoluzione corrispondente dal rumore puro. In poche parole se abbiamo un’immagine 64×64 di partenza, questo modello aggiungerà rumore fino a quando dell’immagine non rimarrà solo quello. Successivamente da quel rumore ricompone l’immagine di partenza ad una risoluzione di 1024×1024, eliminandolo grado per grado. Questo metodo è già molto efficace avendo un tasso di confusione intorno al 50%, contro il 34% dei metodi già esistenti. Il tasso di confusione è calcolato facendo vedere le due immagini ad una persona e chiedendole quale delle due secondo lei è rigenerata da un’intelligenza artificiale. Capirete da voi che se circa la metà delle persone non si rende conto della differenza, il risultato è davvero fotorealistico.
Vista l’efficacia di questo metodo, i ricercatori hanno deciso di fare un ulteriore passo avanti con un secondo approccio chiamato CDM. “CDM è un modello di diffusione condizionale alla classe addestrato sui dati ImageNet per generare immagini naturali ad alta risoluzione”, scrive Google. “Poiché ImageNet è un set di dati difficile e ad alta entropia, abbiamo creato CDM come una cascata di modelli a diffusione multipla. Questo approccio a cascata prevede il concatenamento di più modelli generativi su diverse risoluzioni spaziali.“. Per dirla in parole semplici questo secondo metodo lavora per step, integrando l’approccio RS3 crea di volta in volta un’immagine più grande della precedente fino alla risoluzione massima.
Google AI Photo Upscaling: conclusioni
Il Google Brain Team si definisce entusiasta e soddisfatto per i risultati ottenuti e continuerà la rircerca per testare i limiti di questa tecnologia. Per ulteriori informazioni su questo studio e su molti altri riguardanti l’intelligenza artificiale vi consigliamo di dare un’occhiata al Google AI Blog.