Introduzione.

Il cancro della pelle (skin cancer) è una delle lesioni maligne più importanti e, in particolare in nazioni quali Australia e Nuova Zelanda, dove l’effetto del sole è maggiore, è un problema molto molto serio. La forma più pericolosa è il melanoma, che può essere curato con efficacia soltanto nel caso di diagnosi precoce.

In questo articolo esamino come modelli di Deep Learning basati su CNN promettono di fornire uno strumento molto valido per la diagnosi precoce del melanoma e, più in generale, delle varie forme di lesioni cancerose della pelle.

La dimensione del problema.

Negli USA ogni anno sono diagnosticati 5.4 milioni di nuovi casi di cancro della pelle, con un costo complessivo di oltre 8 miliardi di dollari. 

La forma più pericolosa di cancro della pelle è il melanoma. Nel suo caso, una diagnosi precoce è cruciale: le statistiche mostrano che se il melanoma è diagnosticato prima che si diffonda ai linfonodi e produca metastasi, nel resto del corpo, la probabilità di sopravvivenza a 5 anni è del 99%, da confrontare con una probabilità che scende al 14% se la diagnosi avviene in uno stage successivo.

Il melanoma ogni anno uccide 10000 americani (fonte: E. Topol).

Più in generale, oggi le condizioni della pelle, il sospetto di avere un problema od una lesione da approfondire, costituiscono negli USA una delle più frequenti ragioni per farsi visitare da un medico (15%, secondo Topol). E, troppo spesso, la prima diagnosi è affidata a medici di medicina generale che, non necessariamente, hanno le competenze e l'esperienza per identificare una forma maligna nel suo stato iniziale.

Medicina basata su "pattern recognition".

La tecnica di diagnosi classica: i dermatologi applicano un’euristica, basata sull’acronimo ABCDE.

In sintesi, considerano i seguenti aspetti dell'anomalia cutanea:

  • A: Asimmetria
  • B: Bordi irregolari
  • C: Colore: più di un colore o distribuzione irregolare dei colori
  • D: Diametro (maggiore di 6 mm)
  • E (Evolve): evidenza che la lesione evolva nel tempo

In sostanza un dermatologo che dovesse esaminare decine e decine di foto di lesioni, per diagnosticare o meno la presenza di melanoma, applica in maniera abbastanza inconscia tecniche di pattern recognition.  Le reti CNN fanno, in sostanza, la stessa cosa.

Foto tratta da archivio ISIC.

Un modello sviluppato a Stanford nel 2017.

Un articolo (vedi Rif. 2) pubblicato nel 2017 da un gruppo di ricercatori di Stanford ha fatto storia nel suo campo: quest’articolo concludeva che il modello, basato su CNN, da loro realizzato era in grado di diagnosticare il melanoma con un’accuratezza comparabile se non superiore rispetto ad un team di dermatologi (di Stanford), utilizzati per confronto. Da qui il titolo: “Dermatologist-Level Classification of Skin Cancer with Deep Neural Network”.

 

Nel lavoro dei ricercatori di Stanford è stata utilizzata una rete CNN addestrata su Imagenet: Google Inception V3. La rete, applicando la tecnica oramai classica del Transfer Learning, è stata poi addestrata per fine tuning su un insieme di circa 130000 immagini, delle quali circa 2000 mostravano lesioni maligne.

Le predizioni prodotte dal modello DL sono state testate contro le predizioni di un board di più di 20 dermatologi certificati di Stanford. A ciascuno dei dermatologi, che non avevano visto prima le fotografie delle lesioni, è stato chiesto di concludere se avrebbero chiesto una biopsia come necessario approfondimento diagnostico o se avrebbero rassicurato il paziente.

Fig. 3: prestazioni del modello a confronto con quelle dei dermatologi (tratta dall'articolo di Nature).

Il modello DL può sostituire un dermatologo esperto?

E' una delle tante varianti della domanda: l'AI potrà sostituire gli esseri umani?

Il titolo dell'articolo di Nature porterebbe a dire che gli autori rispondano di si. In realtà, chi segue questi lavori è consapevole del fatto che spesso i ricercatori manifestano negli scritti un ottimismo più elevato di quello che confermano quando interrogati sui dettagli.

Quali considerazioni fa a riguardo E. Topol nel suo libro Deep Medicine?

Sicuramente l’impiego di CNN per la diagnosi precoce del melanoma è uno strumento formidabile. E’ un esempio di “automazione applicata alla medicina basata su pattern recognition”. Sicuramente un’applicazione (ed oggi è possibile usare anche uno Smartphone) può essere di grande ausilio soprattutto per medici non specialisti. Inoltre, come sempre quando si parla di DL applicato alla diagnostica, un modello DL ben calibrato può essere un formidabile ausilio per assistere gli specialisti nelle loro difficili decisioni.

Può affiancare il lavoro degli specialisti. Ma, non può ancora sostituirli del tutto.

Malgrado quanto sembri emergere da titoli a volte un po’ “pubblicitari” (Human-level accuracy) si tratta di studi retrospettivi, svolti in un contesto differente dalla realtà in cui esercitano i medici. Inoltre, un dermatologo, se ha tempo (?), può aggiungere per la diagnosi una serie di informazioni (l’esame generale della pelle, la storia personale e familiare, etc) che la CNN non ha a disposizione.

Per concludere, l’adozione di strumenti di questo tipo può liberare i dermatologi in parte da compiti di routine e restituirgli tempo che può essere utilizzato per rispristinare la relazione medico – paziente e dare più tempo per intervenire, passando al trattamento della lesione cutanea.

Riferimenti.

Nello scrivere quest'articolo mi sono basato sopratutto sulle seguenti due fonti:

  1. [Rif. 1], Eric Topol, Deep Medicine, Cap. 6, pagg. 131-135, Basic Books, NY;
  2. [Rif. 2], Articolo di un gruppo di ricercatori di Stanford, Esteva, et al., “Dermatologist-Level Classification of Skin Cancer with Deep Neural Network”, Nature, 2017, pp. 115-118, Disponibile a: https://cs.stanford.edu/people/esteva/nature/

Sfide per un modello di DL.

  1. I dataset sono fortemente sbilanciati, pochi esempi di casi positivi, molti negativi;
  2. Se le label non sono esclusive, si tratta di una classificazione multi-label, che richiede una cost function custom;
  3. I False Negative sono un problema importante (e quindi la sensitivity è importante);
  4. La qualità del risultato dipende in modo critico dal meccanismo di labelling e dalla sua accuratezza.

Altre note.

Il tema relativo all'applicazione del DL allo diagnosi del cancro della pelle non è stato approfondito nelle lezioni della specializzazione di Coursera, ma nominato tra gli esempi importanti.

Nelle lezioni di Coursera è stato approfondito l'impiego di CNN per la diagnosi della polmonite (pneumonia) a partire da radiografie (CXR), un tema purtroppo oggi più di attualità. L'interesse sul tema oggetto di questo articolo mi è nato dalla lettura del bellissimo libro di E. Topol e poi ho approfondito, leggendo l'articolo di Nature del 2017.

Ho sintetizzato i risultati dell'articolo di Nature. In realtà un altro interessante risultato che emerge dall'articolo è che i ricercatori hanno sviluppato una tassonomia di più di 700 classi di lesioni della pelle e la rete da loro addestrata prevede la probabilità per ciascuna delle singole classi: un compito indubbiamente più complesso della semplice diagnosi melanoma si/no.

Una domanda che viene spontanea a chi studia questi temi è: esistono dataset pubblici di dimensioni adeguate per l'addestramento della rete?

Il team di Stanford, da quanto ho capito, non ha reso disponibile il dataset (e qui si apre l'altro importante tema della riproducibilità dei risultati) Però, facendo delle ricerche in rete, Penso si possa rispondere di si.

Ho fatto una piccola indagine ed ho trovato in particolare il seguente sito, da cui si dovrebbe poter scaricare un dataset (uso il condizionale perchè non l'ho ancora fatto): https://challenge2018.isic-archive.com/

Per approfondire i concetti di Sensitivity e Specificity (utilizzati, ad esempio, in fig. 3) si veda: https://luigisaetta.it/index.php/machine-learning/39-metriche-di-prestazione-di-un-modello-2.