Benvenuti nel nostro blog, dove ogni mese andremo a trattare diversi argomenti relativi al mondo audio e video, se ti interessa approfondire l’argomento iscriviti alla nostra newsletter!

Nell’articolo di questo mese spiegheremo il MIR, campo d’indagine per la ricerca d’informazione digitale.

Alla ricerca di… MUSICA!

Di Alberto Pinto

Vi è mai capitato di usare applicazioni come Shazam per riconoscere il titolo di una canzone che stavate ascoltando? Oppure vi siete mai chiesti come sia possibile creare in automatico una playlist con brani dello “stesso genere”, ossia simili tra di loro in qualche senso?

Beh, sappiate che tutto ciò è possibile perché esiste un campo di indagine chiamato MIR. No, non si tratta della famosa stazione spaziale sovietica ma di un acronimo per “Music Information Retrieval”, ossia Ricerca d’Informazione Musicale.

Si tratta di un campo molto interdisciplinare, che non si limita alla sola informatica, e che si occupa appunto dell’estrazione, analisi, ricerca e gestione di informazioni musicali a partire da varie fonti, come audio, partiture, testi e metadati. Il MIR combina elementi di scienza dell’informazione come l’ elaborazione del segnale e l’apprendimento automatico, con la musicologia e la psicologia cognitiva al fine di risolvere problemi complessi legati alla musica.

La musica infatti è un fenomeno altamente complesso e multidimensionale, che comprende diverse caratteristiche come melodia, ritmo, armonia e timbro. L’obiettivo principale del MIR è sviluppare metodi efficaci per identificare, organizzare e ricercare informazioni musicali, rendendo accessibile e fruibile il vasto patrimonio musicale. Le sue applicazioni pratiche includono, tra l’altro, la creazione di playlist personalizzate, il riconoscimento automatico di generi musicali, la trascrizione musicale dal suono alla partitura, la ricerca di brani simili, nonché la realizzazione di veri e propri motori di ricerca musicali.

Nel MIR, i dati musicali possono essere rappresentati in vari formati, come una forma d’onda, uno spettrogramma, partiture simboliche o testi descrittivi. L’estrazione delle informazioni da queste diverse rappresentazioni richiede diverse tecniche, a volte abbastanza avanzate, di elaborazione del segnale e di apprendimento automatico “machine learning” (da non confondersi con la cosiddetta “intelligenza” artificiale)!

Le principali sfide nel MIR sono legate alla grande varietà e complessità della musica e alla sua percezione soggettiva. Per affrontare queste sfide, i ricercatori si avvalgono di diversi approcci, tra cui possiamo citare i seguenti:

1- Elaborazione del segnale: dal segnale audio vengono estratte caratteristiche come la frequenza fondamentale, l’energia del segnale e il contenuto spettrale. Queste caratteristiche possono essere utilizzate per descrivere vari aspetti della musica, come il timbro, la melodia e il ritmo.

2- Apprendimento automatico: in questa categoria cadono algoritmi  basati sulle reti neurali, alberi di decisione e support vector machines, che vengono utilizzati per classificare, raggruppare e prevedere informazioni musicali sulla base delle caratteristiche estratte. Il cosiddetto “deep lerning” (apprendimento “profondo”), in particolare, ha portato a progressi significativi nel MIR, grazie alla sua capacità di apprendere rappresentazioni gerarchiche e complesse dei dati.

3- Musicologia computazionale: l’analisi musicale che si avvale delle tecniche informatiche si concentra sull’estrazione di conoscenza musicale a partire dai dati, in formato simbolico (la cosiddetta  “notazione” musicale) combinando elementi di teoria musicale, analisi formale e metodi di apprendimento automatico. Ad esempio, algoritmi di estrazione di regole possono essere utilizzati per identificare melodie o “pattern” ricorrenti e strutture armoniche nei brani musicali.

4- Analisi del contenuto testuale: le informazioni contenute nei metadati e nei testi delle canzoni possono essere utilizzate per migliorare la comprensione del contesto musicale e per identificare temi, stili e tendenze.

5- Analisi di rete e “collaborative filtering”: questi approcci sfruttano le relazioni tra utenti, brani musicali e artisti per generare “raccomandazioni” personalizzate e scoprire nuove musiche simili ad altre. Le tecniche di collaborative filtering si basano sull’assunto che gli utenti con preferenze simili apprezzeranno gli stessi brani o artisti. I social network e i talent network possono essere analizzati per identificare connessioni e influenze tra i vari attori del panorama musicale.

6- Sistemi esperti: questi sistemi integrano conoscenza esplicita sul dominio musicale, come regole di composizione, strutture armoniche e teorie del ritmo, per migliorare l’estrazione di informazioni e la comprensione del contesto. Ad esempio, un sistema esperto potrebbe utilizzare una grammatica formale per modellare la struttura di una composizione e generare una rappresentazione simbolica del brano.

7- Interazione uomo-macchina e visualizzazione: la presentazione e la manipolazione delle informazioni musicali sono aspetti cruciali del MIR, poiché permettono agli utenti di esplorare, analizzare e sperimentare con la musica in modi nuovi e creativi. Le tecniche di visualizzazione dei dati e gli strumenti di interazione uomo-macchina consentono di rendere le informazioni musicali più accessibili e comprensibili, facilitando la scoperta di nuove conoscenze e intuizioni.

8- Valutazione e benchmarking: la valutazione delle prestazioni degli algoritmi di MIR è un aspetto fondamentale del processo di ricerca, in quanto consente di confrontare diversi metodi e identificare le aree in cui sono necessari miglioramenti confrontandoli con dei “ground truth” precompilati da esperti umani. Le “metriche” di valutazione possono includere misure di precisione, accuratezza, recall e F-measure. Sono stati sviluppati diversi benchmark e dataset per facilitare la valutazione comparativa degli algoritmi di MIR, come MusicBrainz, Million Song Dataset e MIREX.

Detto ciò…  ma come funziona Shazam? Beh, più o meno così:

1- Fase di registrazione: quando l’utente avvia la registrazione di una canzone tramite l’app Shazam, viene catturato un breve estratto dell’audio della durata di alcuni secondi (di solito 10-30 secondi) che rappresenta la canzone in ascolto.

2- Trasformata di Fourier: il campione audio viene convertito dalla rappresentazione temporale a quella frequenziale mediante l’applicazione della cosiddetta “Trasformata di Fourier“, un metodo per scomporre suoni complessi in suoni elementari (le sinusoidi). In sostanza ciò serve ad identificare quali frequenze, e in quale quantità, sono presenti nel suono in esame.

3- Creazione dello spettrogramma: lo spettrogramma rappresenta graficamente l’energia del segnale audio nelle diverse frequenze e nel tempo. Esso viene generato tramite la trasformata di Fourier, suddividendo il segnale in brevi finestre temporali e calcolando la distribuzione dell’energia alle varie frequenze per ogni finestra.

4- Creazione di “fingerprint” (impronte digitali) acustiche: gli algoritmi di Shazam estraggono da ogni finestra dello spettrogramma piccoli frammenti o “fingerprint” acustici. Questi fingerprint sono essenzialmente sequenze di numeri che rappresentano caratteristiche chiave, come picchi di energia o pattern di frequenza, che sono unici per ogni canzone.

5- Creazione di hash: gli algoritmi di Shazam combinano i fingerprint acustici in sequenze più lunghe, creando degli “hash” (sequenze numeriche della stessa lunghezza) unici per ogni canzone. Questi hash rappresentano una sorta di “impronta digitale” della canzone.

6- Ricerca nel database: gli hash creati vengono confrontati con un vasto database di hash di tutti i brani musicali presenti sui server di Shazam. Questo database contiene milioni di brani di diversi generi e artisti. La ricerca viene effettuata in modo efficiente utilizzando strutture dati come tabelle di hash o alberi di ricerca.

7- Identificazione e restituzione dei risultati: se viene trovata una corrispondenza tra l’hash generato e uno presente nel database, Shazam restituisce i risultati dell’identificazione, tra cui il nome dell’artista, il titolo del brano e altre informazioni pertinenti.

 

È importante notare che Shazam utilizza algoritmi avanzati per gestire sfide come la variazione di qualità del suono, rumore di fondo e altri fattori che potrebbero influire sulla precisione dell’identificazione. Inoltre, il processo di riconoscimento avviene in modo quasi istantaneo, consentendo agli utenti di ottenere i risultati in pochi secondi.

In conclusione, il Music Information Retrieval è un campo di ricerca ricco e in rapida evoluzione, che si avvale di una vasta gamma di tecniche e approcci per affrontare la complessità della musica e delle sue rappresentazioni. Grazie ai progressi nell’apprendimento automatico, nell’elaborazione del segnale e nell’analisi dei dati, il MIR sta trasformando il modo in cui interagiamo con la musica, rendendo possibile l’accesso e la fruizione di un vasto patrimonio musicale e contribuendo alla scoperta di nuove conoscenze e intuizioni sul fenomeno musicale.


Per chi volesse approfondire l’argomento consigliamo gli atti delle conferenze e le pubblicazioni (Transactions) dell’ International Society for Music Information Retrieval (ISMIR) che potete trovare sul web alla pagina https://www.ismir.net/