Vivere Meglio in Città: Come il Design Urbano Influenza il Nostro Benessere

Nonostante i principi fondamentali per la creazione di ambienti urbani attraenti siano stati delineati decenni fa (Gehl, 1987; Jacobs, 1992) e ampiamente accettati dalla comunità scientifica (Ewing & Handy, 2009; Forsyth, 2015; Giles-Corti & Donovan, 2003; Saelens & Handy, 2008), la loro applicazione pratica attraverso indicatori spaziali robusti

29 agosto 2025 11:20 61
Vivere Meglio in Città: Come il Design Urbano Influenza il Nostro Benessere
7 minuti di lettura

. La diffusione delle immagini Street View (SVI) in numerose città ha offerto una fonte di dati di straordinaria ricchezza per analizzare la qualità visiva delle strade (Biljecki & Ito, 2021). L'abbinamento delle SVI con le emergenti tecniche di computer vision per il riconoscimento di oggetti ha permesso ai ricercatori di censire in modo automatico e dettagliato le caratteristiche stradali, superando i limiti delle metriche a livello di quartiere o delle onerose raccolte dati sul campo (Ki, Chen, Lee, & Lieu, 2023). Una vasta e crescente letteratura scientifica ha già applicato le SVI a svariati contesti urbani, come la valutazione della pedonabilità (Li, Yabuki, & Fukuda, 2022; Nagata et al., 2020), della sicurezza per pedoni e ciclisti (Hamim & Ukkusuri, 2024; Mooney et al., 2020), dello studio dei volumi e dei comportamenti di mobilità attiva (Chen et al., 2020; Liu, Ettema, & Helbich, 2023), della presenza di verde urbano (Li et al., 2015; Ye et al., 2019), del microclima (Gong, Zeng, Ng, & Norford, 2019; Sun et al., 2021) e del disordine fisico stradale (Keralis et al., 2020; Mayne et al., 2018).

Dalla Visione Artificiale all'Intelligenza Artificiale Multimodale

Dal punto di vista della pianificazione, la traduzione delle informazioni visive contenute nelle SVI in indicatori ambientali utili alla pratica professionale rimane un compito complesso. La ricerca esistente si è focalizzata principalmente sull'identificazione di correlazioni tra le caratteristiche visive e il comportamento degli utenti, sul perfezionamento di indicatori di qualità esistenti e sulla mappatura della distribuzione spaziale di specifiche qualità ambientali (come la complessità visiva o la definizione degli spazi) (Biljecki & Ito, 2021; Liu & Sevtsuk, 2024). Nonostante l'enorme potenziale delle SVI, la loro adozione nella pratica pianificatoria è ostacolata da diverse difficoltà: la necessità di sintetizzare molteplici attributi in indicatori semplici ma concettualmente validi, garantire una copertura spaziale adeguata, la richiesta di elevate competenze tecniche e la necessità di notevole capacità computazionale. È quindi indispensabile proseguire la ricerca per abbassare le barriere d'accesso e semplificare l'uso delle SVI nella valutazione della qualità ambientale urbana.

I recenti progressi nel campo dell'intelligenza artificiale (IA) offrono soluzioni promettenti. L'avvento dei modelli linguistici multimodali di grandi dimensioni (MLLM), come GPT-4 (Open AI) e Kosmos-2.5 (Microsoft), capaci di integrare l'analisi delle immagini con l'interazione testuale, è particolarmente incoraggiante. La capacità di questi modelli di generare testo simile a quello umano basandosi su enormi dataset apre nuove prospettive per applicazioni che richiedono un'analisi combinata di informazioni visive e testuali, come appunto la valutazione estetica di un'area urbana. In particolare, l'utilizzo degli MLLM tramite semplici input testuali potrebbe ridurre le barriere tecniche all'uso dei dati Street View nei processi di pianificazione, producendo indicatori di qualità ambientale operativi. Tuttavia, non è ancora chiaro in che misura i giudizi di attrattività generati da un MLLM riflettano l'esperienza umana, un prerequisito fondamentale per la loro applicazione pratica. Il potenziale degli MLLM in questo campo rimane, ad oggi, in gran parte inesplorato.

Obiettivi dello Studio

Nel presente studio, abbiamo investigato le potenzialità degli MLLM nel produrre valutazioni sull'attrattività degli ambienti urbani. Abbiamo impiegato un modello di IA per analizzare in modo automatizzato oltre 1800 immagini Google Street View (GSV) della città di Helsinki, Finlandia. Utilizzando il modello GPT-4 e basandoci sui criteri di qualità ambientale definiti in letteratura, abbiamo valutato le immagini attraverso tre prompt di complessità crescente. Per validare i risultati, abbiamo chiesto a 24 partecipanti (residenti e non) di valutare l'attrattività delle stesse immagini. Attraverso un confronto statistico e spaziale tra le valutazioni del modello e quelle umane, abbiamo messo in luce sia le potenzialità che i limiti degli MLLM in questo contesto. Abbiamo inoltre utilizzato l'analisi di segmentazione semantica per identificare quali elementi visivi fossero prioritari per GPT-4, offrendo così uno spaccato del suo processo valutativo. Infine, il lavoro discute le implicazioni e i limiti del nostro approccio per la pianificazione urbana.


2. Analisi della Letteratura

2.1. L'Intelligenza Artificiale nell'Analisi Multimodale e del Sentimento

L'introduzione dei Modelli Linguistici di Grandi Dimensioni (LLM) come GPT-3 (Brown et al., 2020) e BERT (Devlin, Chang, Lee, & Bert, 2018) non solo ha segnato una rivoluzione nelle capacità di generazione e comprensione del testo, ma ha anche reso più accessibile l'interazione con le tecnologie IA (Bilgram & Laarmann, 2023). Tali modelli permettono agli utenti di eseguire comandi e affinare le risposte dell'IA senza possedere competenze tecniche approfondite. Questa famiglia di LLM rappresenta un significativo passo avanti verso una tecnologia più intuitiva, sebbene la loro applicazione sia limitata dal fatto di non poter processare input visivi, che sono essenziali per valutare l'attrattività urbana.

L'avvento degli MLLM, come GPT-4 (Achiam et al., 2023) e Kosmos-2.5 (Huang et al., 2024; Peng et al., 2023), che fondono le capacità testuali degli LLM con l'analisi delle immagini, apre nuove possibilità. I primi studi su questi modelli si sono concentrati sulla loro capacità di interpretare e correlare input visivi e testuali. Modelli fondativi come BLIP-2 (Li, Li, Savarese, & Hoi, 2023), per la generazione di didascalie dettagliate, CLIP (Radford et al., 2021), per associare immagini a descrizioni testuali, e LLaVA (Liu, Li, Wu, & Lee, 2024), per migliorare la comprensione interattiva, sono stati pionieristici in questo campo.

Con la loro evoluzione, gli MLLM sono diventati in grado di supportare compiti multimodali più complessi grazie a un'architettura che include codificatori di modalità (per elaborare input specifici come immagini o testo), una spina dorsale LLM e generatori di modalità per produrre output adeguati (Zhang et al., 2024). Questa struttura consente un'integrazione fluida di diverse tipologie di dati (immagini, testo, audio) in un unico framework.

Questo progresso tecnologico offre nuove opportunità per la pianificazione territoriale. Studi preliminari hanno iniziato a esplorare questo potenziale, come quello di Jongwiriyanurak et al. (2023), che ha usato LLaVA per valutare il rischio di incidenti motociclistici, o quello di Liu et al. (2023), che ha impiegato CLIP per analizzare la pedonabilità percepita. Ciononostante, l'uso di MLLM per un'analisi approfondita dell'attrattività urbana rimane un'area di ricerca largamente inesplorata.

2.2. I Fattori Determinanti dell'Attrattività Urbana

Negli ultimi decenni, una vasta comunità di ricerca interdisciplinare ha definito con chiarezza i fattori che determinano la qualità e l'attrattività urbana. Un'opera fondamentale in questo campo è il libro di Ewing et al., Measuring Urban Design: Metrics for livable places (2013), che fornisce un quadro di riferimento dettagliato per misurare la qualità degli ambienti urbani. Questo framework, basato su una comprensione multidisciplinare di come le qualità fisiche influenzino le reazioni e i comportamenti umani (in particolare la propensione a camminare), si è rivelato estremamente utile per il nostro studio, offrendo una base sistematica per valutare l'attrattività.

Il framework di Ewing classifica le metriche in tre gruppi. Il primo, le caratteristiche fisiche durevoli, include elementi oggettivi come le specifiche dei marciapiedi, il design stradale, la copertura arborea, gli indicatori di attività umana e l'illuminazione. Il secondo gruppo riguarda le qualità del design urbano, concetti più astratti come la riconoscibilità (imageability), la leggibilità, la scala umana, la trasparenza, la connessione, la complessità e la coerenza. Il terzo gruppo, infine, include le reazioni individuali, ovvero le risposte personali ed emotive all'ambiente.

Le caratteristiche fisiche, come la larghezza dei marciapiedi o la presenza di alberi, sono direttamente misurabili e si ritiene che influenzino le qualità più soggettive del design (Clifton, Livi Smith, & Rodriguez, 2007; Pikora et al., 2002; Wimbardana, Tarigan, & Sagala, 2018). Tali caratteristiche sono comunemente impiegate negli strumenti di audit per la mobilità attiva (Day, Boarnet, Alfonzo, & Forsyth, 2006; Pikora et al., 2002).

D'altro canto, le qualità del design urbano, pur essendo influenzate dagli elementi fisici, generano un'esperienza complessiva che è superiore alla somma delle singole parti. Ad esempio, la riconoscibilità (imageability), concetto introdotto da Lynch (1960), descrive la capacità di un luogo di evocare un'immagine vivida e rimanere impresso nella memoria. Allo stesso modo, la leggibilità (la facilità di orientarsi), la trasparenza (la permeabilità visiva e fisica di uno spazio), la complessità e la coerenza (la ricchezza visiva e l'ordine degli elementi) giocano un ruolo cruciale nella percezione urbana (Ewing & Handy, 2009; Jacobs, 1993; Rapoport, 2013). Altri concetti chiave includono la definizione degli spazi (enclosure), che trasmette sicurezza (Alexander, 1977; Jacobs, 1993), e la scala umana, che garantisce comfort e connettività (Gehl, 1987; Moudon & Lee, 2003).

Infine, l'inclusione delle reazioni soggettive riconosce che, sebbene le caratteristiche fisiche siano oggettive, il loro impatto sulle persone è soggettivo. Pertanto, una valutazione completa deve tenere conto di percezioni individuali come il senso di sicurezza, comfort e interesse. Come sottolineato da Talen (2002), non esiste ancora un consenso scientifico su quali siano le metriche più appropriate da utilizzare, e la letteratura mostra una grande varietà di approcci senza uno standard universalmente accettato.

Redazione

Autore dell'articolo

Giornalista e scrittore appassionato di politica, tecnologia e società. Racconta storie con chiarezza e attenzione ai dettagli.

Commenti

Nessun commento ancora.