Un algoritmo seppellirà il borderò. Parola di Nicola Orio, il ricercatore italiano che prende le «impronte digitali» alla musica

Qual è il futuro del collecting? Al di là del dibattito sulla Direttiva Barnier e il suo recepimento che ha tenuto banco per buona parte del 2016, tra sostenitori della liberalizzazione spinta e difensori del monopolio di Siae, c’è il tema tecnologico con cui fare i conti. Secondo qualcuno la «carta» finirà fatalmente per indietreggiare a favore del riconoscimento automatico dei brani musicali, il caro vecchio borderò dovrà definitivamente abdicare a favore del «fingerprinting», tecnologia che è già quotidianamente frequentata da migliaia di utenti di app come Shazam e Soundhound. E già sperimentate sul versante della riscossione del diritto d’autore. Prospettiva credibile? E, soprattutto, come funziona questa tecnologia? Ne abbiamo parlato con Nicola Orio (nella foto), docente di Sistemi di elaborazione delle informazioni dell’Università di Padova che prima di ogni altro in Italia ha sviluppato un algoritmo per il fingerprinting in grado di riconoscere registrazioni di breve durata – dai due ai tre secondi – inserite in produzioni audiovisive.

 

Professor Orio, quali sono i campi d’azione dell’audio fingerprinting?

È possibile riconoscere qualunque registrazione audio, purché il sistema abbia memorizzato e indicizzato nel proprio database lo stesso materiale sonoro. Il riconoscimento è possibile anche quando la versione nel database e quella analizzata differiscono, per esempio per aggiunta di strumenti e/o cori, trasposizione di tonalità o cambiamento della velocità. A questo scopo si applicano al riconoscimento delle soglie di confidenza.

La registrazione audio da riconoscere può essere anche parziale?

Le tecnologie possono riconoscere anche frammenti molto brevi di una registrazione, sebbene non sia a conoscenza di sistemi che riconoscono in modo affidabile registrazioni al di sotto del secondo. Tuttavia più il frammento è breve più valgono le considerazioni precedenti, ossia si riduce la sicurezza del riconoscimento. Se facciamo un parallelismo con il riconoscimento di impronte digitali (del resto la tecnologia trae il suo nome proprio da queste), mentre è quasi impossibile che due persone abbiano due impronte identiche non è poi così improbabile che una parte delle loro impronte si possa sovrapporre. La stessa cosa per la musica: due frammenti molto brevi, anche di brani diversi, possono essere per caso quasi identici.

Il brano audio può essere sovrapposto a voci o rumori?

Le tecnologie possono riconoscere anche registrazioni alterate dalla sovrapposizione del parlato, come avviene soprattutto in Tv o radio, sfruttando per esempio il fatto che il parlato non è un segnale continuo ma ci sono silenzi tra le parole e tra i fonemi. È possibile inoltre riconoscere musica a cui è sovrapposto un rumore d’ambiente, sfruttando il fatto che il segnale musicale ha uno spettro molto più regolare rispetto a quello del rumore.

E per quanto riguarda le esecuzioni musicali dal vivo?

La ricerca è molto attiva su questo fronte, ma a mia conoscenza esistono solo sistemi in fase sperimentale. Il problema con la musica dal vivo è che non basta confrontare parametri a basso livello, come lo spettro di due segnali, ma è necessario confrontare parametri ad alto livello, come per esempio il profilo melodico o la progressione di accordi, la cui estrazione automatica è ancora affetta da errore. All’ultimo congresso della International Society for Music Information Retrieval i sistemi migliori avevano delle prestazioni, per collezioni di musica pop/rock, inferiori al 60% di corrette identificazioni.

Quali sono le ricadute sul mercato di queste tecnologie?

Le tecnologie di audio detection sono impiegate in vari ambiti. In primo luogo per il cosiddetto «monitoring» dei repertori musicali, ovvero il controllo della presenza di determinate registrazioni audio all’interno delle emissioni radio, Tv, web eccetera. Ciò significa che un titolare può scoprire che un suo brano musicale è stato utilizzato in un certo momento su un certo media. Questa informazione gli consente di verificare se gli utilizzatori e/o le società di collecting lo abbiano correttamente remunerato e, in caso contrario, di andare a cercare di recuperare il compenso dovutogli. Il monitoring è un’attività complessa (occorre la registrazione dei canali da monitorare, la gestione di tutti i materiali di confronto), ma quasi totalmente automatizzabile. Vi è poi la vera e propria «rendicontazione dei diritti» musicali, ovvero l’elaborazione dei complessi report che gli utilizzatori, le emittenti radio e Tv, e web devono consegnare alle società di collecting per consentire a queste ultime il corretto calcolo dei compensi dovuti ai titolari dei repertori musicali. Questa attività è ben più complessa del «monitoring» perché richiede intanto la certezza che tutte le musiche che sono state utilizzate vengano identificate e rendicontate…

Le società di collecting richiedono che si comunichi anche la funzione della musica utilizzata. Le tecnologie esistenti sono in grado di rispondere a questa esigenza?

Vi possono essere diversi approcci per risolvere questa esigenza, quali l’interpretazione di immagini presenti per esempio nelle emissioni Tv e nello streaming web, oppure nell’elaborazione dei testi che possono essere estrapolati attraverso tecnologie speech to text, in grado di estrarre i testi dal parlato presente nel file audio, oppure dal più semplice confronto tra informazioni presenti nei database delle emittenti rispetto ai loro palinsesti, quali la tipologia di programma e i contenuti specifici. Per esempio un documentario conterrà «probabilmente» della musica protagonista, a differenza di una televendita che potrebbe più facilmente contenere un sottofondo al parlato dell’operatore commerciale. Anche in questo caso però un sistema totalmente automatico si presterebbe facilmente a errori. Anche per queste ragioni ritengo che esigenze complesse, quali la rendicontazione dei diritti musicali, debbano richiedere necessariamente una supervisione di operatori umani esperti.