Home 9 Past Conferences 9 ISMIR 2025

ISMIR 2025

Full Proceedings

Proceedings of the 26th International Society for Music Information Retrieval Conference
Daejeon, South Korea. ISBN: 978-1-7327299-5-7.

Papers

GlobalMood: A Cross-Cultural Benchmark for Music Emotion Recognition 11-19
Harin Lee, Elif Celen, Peter Harrison, Manuel Anglada-Tort, Pol van Rijn, Minsu Park, Marc Schönwiesner, Nori Jacoby

RISE: Music Rearrangement for Realtime Intensity Synchronization With Exercise 20-27
Alexander Wang, Chris Donahue, Dhruv Jain

Expanding the HAISP Dataset: AI’s Impact on Songwriting Across Two AI Song Contests 28-35
Lidia Morris, Michele Newman, Xinya Tang, Renee Singh, Marcel Vélez Vásquez, Rebecca Leger, Jin Ha Lee

Quantifying Regularity in Music Structure Analysis 36-43
Brian McFee

On the De-Duplication of the Lakh MIDI Dataset 44-51
Eunjin Choi, Hyerin Kim, Jiwoo Ryu, Juhan Nam, Dasaem Jeong

Conditional Diffusion as Latent Constraints for Unconditional Symbolic Music Generation Models 52-59
Matteo Pettenò, Alessandro Mezza, Alberto Bernardini

Radif Corpus; Symbolic Dataset for Non-Metric Iranian Classical Music 60-67
Maziar Kanani, Seán O’Leary, James McDermott

Melodic and Metrical Elements of Expressiveness in Hindustani Vocal Music 68-74
Yash Bhake, Ankit Anand, Preeti Rao

Coloring Music: Bridging Music and Color Palettes for Graphic Design 75-82
Takayuki Nakatsuka, Masahiro Hamasaki, Masataka Goto

Exploring Network Adaptations for Minimum Latency Real-Time Piano Transcription 83-90
Patricia Hu, Silvan Peter, Jan Schlüter, Gerhard Widmer

A Systematic Evaluation of Real-Time Audio Score Following for Piano Performance 91-99
Jiyun Park, Carlos Eduardo Cancino-Chacón, Suhit Chiruthapudi, Juhan Nam

Predicting Flutist Onset Timing in Duet Performance: A Multimodal Analysis of Gesture and Breath Cues 100-106
Jaeran Choi, Taegyun Kwon, Juhan Nam

AI-Generated Song Detection via Lyrics Transcripts 107-116
Markus Frohmann, Elena Epure, Gabriel Meseguer Brocal, Markus Schedl, Romain Hennequin

Measuring Sensory Dissonance In Multi-Track Music Recordings: A Case Study With Wind Quartets 117-126
Simon Schwär, Stefan Balke, Meinard Müller

Reformulating Soft Dynamic Time Warping: Insights Into Target Artifacts and Prediction Quality 127-133
Johannes Zeitler, Meinard Müller

ITO-Master: Inference-Time Optimization for Audio Effects Modeling of Music Mastering Processors 134-141
Junghyun Koo, Marco Martinez-Ramirez, WeiHsiang Liao, Giorgio Fabbro, Michele Mancusi, Yuki Mitsufuji

A Multidimensional Approach to Opera Analysis: Harmony, Tempo, and Dramatic Interaction in Wagner’s Siegfried Act III 142-149
Pascal Schmolenzky, Stephanie Klauk, Rainer Kleinertz, Christof Weiß, Meinard Müller

Exploring the Feasibility of LLMs for Automated Music Emotion Annotation 150-157
Meng Yang, Jon McCormack, Maria Teresa Llano, Wanchao Su

An Evaluation Strategy for Local Key Estimation: Exploiting Cross-Version Consistency 158-165
Yiwei Ding, Yannik Venohr, Christof Weiss

Tuning Matters: Analyzing Musical Tuning Bias in Neural Vocoders 166-173
Hans-Ulrich Berendes, Ben Maman, Meinard Müller

Aligning Text-to-Music Evaluation With Human Preferences 174-181
Yichen Huang, Zachary Novack, Koichi Saito, Jiatong Shi, Shinji Watanabe, Yuki Mitsufuji, John Thickstun, Chris Donahue

Investigating Music Track Liking in the Halo of Album Covers 182-189
Oleg Lesota, Anna Hausberger, Ivanna Pshenychna, Oleksandr Shvydanenko, Olha Yehorova, Markus Schedl

Phylo-Analysis of Folk Traditions: A Methodology for the Hierarchical Musical Similarity Analysis 190-197
Hilda Romero-Velo, Gilberto Bernardes, Susana Ladra, José R. Paramá, Fernando Silva

dPLP: A Differentiable Version of Predominant Local Pulse Estimation 198-205
Ching-Yu Chiu, Sebastian Strahl, Meinard Müller

PeakNetFP: Peak-Based Neural Audio Fingerprinting Robust to Extreme Time Stretching 206-214
Guillem Cortès-Sebastià, Benjamin Martin, Emilio Molina, Xavier Serra, Romain Hennequin

Generating Symbolic Music From Natural Language Prompts Using an LLM-Enhanced Dataset 215-222
Weihan Xu, Julian McAuley, Taylor Berg-Kirkpatrick, Shlomo Dubnov, Hao-Wen Dong

A Survey on Vision-to-Music Generation: Methods, Datasets, Evaluation, and Challenges 223-234
Zhaokai Wang, Chenxi Bao, Le Zhuo, Jingrui Han, Yang Yue, Yihong Tang, Victor Shea-Jay Huang, Yue Liao

Emergent Musical Properties of a Transformer Under Contrastive Self-Supervised Learning 235-246
Yuexuan KONG, Gabriel Mesegues-Brocal, Vincent Lostanlen, Mathieu Lagrange, Romain Hennequin

Are You Really Listening? Boosting Perceptual Awareness in Music-QA Benchmarks 247-261
Yongyi Zang, Sean O’Brien, Taylor Berg-Kirkpatrick, Julian McAuley, Zachary Novack

GD-Retriever: Controllable Generative Text-Music Retrieval With Diffusion Models 262-270
Julien Guinot, Elio Quinton, George Fazekas

Towards Robust Automatic Music Transcription By Measuring Cross-Version Consistency 271-278
Yannik Venohr, Yiwei Ding, Christof Weiss

Beyond Genre: Diagnosing Bias in Music Embeddings Using Concept Activation Vectors 279-286
Roman Gebhardt, Arne Kuhle, Eylül Bektur

LiLAC: A Lightweight Latent ControlNet for Musical Audio Generation 287-295
Tom Baker, Javier Nistal

What Song Now? Personalized Rhythm Guitar Learning in Western Popular Music 296-302
Zakaria Hassein-Bey, Yohann Abbou, Alexandre d’Hooge, Mathieu Giraud, Gilles Guillemain, Aurélien Jeanneau

Universal Music Representations? Evaluating Foundation Models on World Music Corpora 303-311
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos

A Theoretical Model of Musical Form 312-319
Martin Rohrmeier

Towards Human-in-the-Loop Onset Detection: A Transfer Learning Approach for Maracatu 320-327
António Pinto (INESC TEC, University of Porto -. Faculty of Engineering)

Instruct-MusicGen: Unlocking Text-to-Music Editing for Music Language Models via Instruction Tuning 328-336
Yixiao Zhang, Yukara Ikemiya, Woosung Choi, Naoki Murata, Marco Martínez-Ramírez, Liwei Lin, Gus Xia, Wei-Hsiang Liao, Yuki Mitsufuji, Simon Dixon

TOMI: Transforming and Organizing Music Ideas for Multi-Track Compositions With Full-Song Structure 337-345
Qi He, Ziyu Wang, Gus Xia

Automatic Melody Reduction via Shortest Path Finding 346-353
Ziyu Wang, Yuxuan Wu, Roger Dannenberg, Gus Xia

Expotion: Facial Expression and Motion Control for Multimodal Music Generation 354-362
Fathinah Izzati, Xinyue Li, Gus Xia

When Voices Interleave: Timing Deviations in Six Performances of Telemann’s Fantasias for Solo Flute 363-372
Patrice Thibaud, Mathieu Giraud, Yann Teytaut

Audio Synthesizer Inversion in Symmetric Parameter Spaces With Approximately Equivariant Flow Matching 373-381
Ben Hayes, Charalampos Saitis, György Fazekas

SLAP: Siamese Language-Audio Pretraining Without Negative Samples for Music Understanding 382-390
Julien Guinot, Alain Riou, Elio Quinton, George Fazekas

PianoBind: A Multi-Modal Joint Embedding Model for Pop-Piano Music 391-398
Hayeon Bang, Eunjin Choi, Seungheon Doh, Juhan Nam

Enhancing Neural Audio Fingerprint Robustness to Audio Degradation for Music Identification 399-406
Recep Oguz Araz, Guillem Cortès-Sebastià, Emilio Molina, Joan Serra, Xavier Serra, Yuhki Mitsufuji, Dmitry Bogdanov

Beyond Notation: A Digital Platform for Transcribing and Analyzing Oral Melodic Traditions 407-415
Jonathan Myers, Dard Neuman

CMI-Bench: A Comprehensive Benchmark for Evaluating Music Instruction Following 416-425
Yinghao MA, Siyou Li, Juntao Yu, Emmanouil Benetos, Akira Maezawa

Lose the Frames: Exact Metrics for More Responsible Music Structure Analysis Evaluations 426-432
Qingyang Xi, Brian Mcfee

Unifying Continuous and Discrete Compressed Representations of Audio 433-441
Marco Pasini, Stefan Lattner, George Fazekas

Improving BERT for Symbolic Music Understanding Using Token Denoising and Pianoroll Prediction 442-450
Jun-You Wang, Li Su

Scaling Self-Supervised Representation Learning for Symbolic Piano Performance 451-459
Louis Bradshaw, Alexander Spangher, Honglu Fan, Stella Biderman, Simon Colton

The Rhythm In Anything: Audio-Prompted Drums Generation With Masked Language Modeling 460-468
Patrick O’Reilly, Julia Barnett, Hugo Flores Garcia, Annie Chu, Nathan Pruyne, Prem Seetharaman, Bryan Pardo

Count the Notes: Histogram-Based Supervision for Automatic Music Transcription 469-476
Jonathan Yaffe, Ben Maman, Meinard Müller, Amit Bermano

Joint Transcription of Acoustic Guitar Strumming Directions and Chords 477-483
Sebastian Murgul, Johannes Schimper, Michael Heizmann

Enabling Empirical Analysis of Piano Performance Rehearsal With the Rach3 MIDI Dataset 484-491
Alia Morsi, Suhit Chiruthapudi, Silvan Peter, Ivan Pilkov, Laura Bishop, Akira Maezawa, Xavier Serra, Carlos Eduardo Cancino-Chacón

From Discord to Harmony: Consonance-Based Smoothing for Improved Audio Chord Estimation 492-502
Andrea Poltronieri, Xavier Serra, Martín Rocamora

Keyboard Temperament Estimation From Symbolic Data: A Case Study on Bach’s Well-Tempered Clavier 503-510
Peter Van Kranenburg (Utrecht University, Meertens Institute), Gerben Bisschop

Refining Music Sample Identification With a Self-Supervised Graph Neural Network 511-517
Aditya Bhattacharjee, Ivan Meresman Higgs, Mark Sandler, Emmanouil Benetos

Video-Guided Text-to-Music Generation Using Public Domain Movie Collections 518-527
Haven Kim, Zachary Novack, Weihan Xu, Julian McAuley, Hao-Wen Dong

PianoVAM: A Multimodal Piano Performance Dataset 528-535
Yonghyun Kim, Junhyung Park, Joonhyung Bae, Kirak Kim, Taegyun Kwon, Alexander Lerch, Juhan Nam

LoopGen: Training-Free Loopable Music Generation 536-546
Davide Marincione, Giorgio Strano, Donato Crisostomi, Roberto Ribuoli, Emanuele Rodolà

Enhancing Music Recommender Systems With Multimedia Content: A Context-Aware Approach 547-554
Oleg Lesota, Veronica Clavijo, Attia Rizwani, Markus Schedl, Bruce Ferwerda

CultureMERT: Continual Pre-Training for Cross-Cultural Music Representation Learning 555-564
Angelos-Nikolaos Kanatas, Charilaos Papaioannou, Alexandros Potamianos

Adaptive Path of Prediction: An Unsupervised Method for Modeling Note-Level Informational Hierarchy of Polyphony 565-572
Xiaoxuan Wang, Martin Rohrmeier

Versatile Music-for-Music Modeling via Function Alignment 573-581
Junyan Jiang, Daniel Chin, Xuanjie Liu, Liwei Lin, Gus Xia

Understanding Performance Limitations in Automatic Drum Transcription 582-588
Philipp Weyers, Christian Uhle, Meinard Müller, Matthias Lang

High-Resolution Sustain Pedal Depth Estimation From Piano Audio Across Room Acoustics 589-595
Hanwen Zhang, Kun Fang, Ziyu Wang, Ichiro Fujinaga

Investigating an Overfitting and Degeneration Phenomenon in Self-Supervised Multi-Pitch Estimation 596-603
Frank Cwitkowitz, Zhiyao Duan

Sheet Music Benchmark: Standardized Optical Music Recognition Evaluation 604-611
Juan C. Martinez-Sevilla, Joan Cerveto-Serrano, Noelia Luna-Barahona, Greg Chapman, Craig Sapp, David Rizo, Jorge Calvo-Zaragoza

Fx-Encoder++: Extracting Instrument-Wise Audio Effect Representations From Mixtures 612-622
Yen-Tung Yeh, Junghyun Koo, Marco Martínez-Ramírez, Wei-Hsiang Liao, Yi-Hsuan Yang, Yuki Mitsufuji

MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling 623-630
Jingjing Tang, Xin Wang, Zhe Zhang, Junichi Yamagish, Geraint Wiggins, George Fazekas

Playability Prediction in Digital Guitar Learning Using Interpretable Student and Song Representations 631-637
Manuel Müllerschön, Anssi Klapuri, Marcelo Rodriguez, Christian Cardin

Gregorian Melody, Modality, and Memory: Segmenting Chant With Bayesian Nonparametrics 638-646
Vojtěch Lanz, jr., Jan Hajič

IdolSongsJp Corpus: A Multi-Singer Song Corpus in the Style of Japanese Idol Groups 647-654
Hitoshi Suda, Junya Koguchi, Shunsuke Yoshida, Tomohiko Nakamura, Satoru Fukayama, Jun Ogata

GOAT: A Large Dataset of Paired Guitar Audio Recordings and Tablatures 655-662
Jackson Loth, Pedro Sarmento, Saurjya Sarkar, Zixun Guo, Mathieu Barthet, Mark Sandler

STAGE: Stemmed Accompaniment Generation Through Prefix-Based Conditioning 663-670
Giorgio Strano, Chiara Ballanti, Donato Crisostomi, Michele Mancusi, Luca Cosmo, Emanuele Rodolà

Do Music Source Separation Models Preserve Spatial Information in Binaural Audio? 671-678
Richa Namballa, Agnieszka Roginska, Magdalena Fuentes

Estimating Musical Surprisal From Audio in Autoregressive Diffusion Model Noise Spaces 679-687
Mathias Rose Bjare, Stefan Lattner, Gerhard Widmer

Improving Neural Pitch Estimation With SWIPE Kernels 688-695
David Marttila, Joshua D. Reiss

Optical Music Recognition of Jazz Lead Sheets 696-702
Juan Carlos Martinez-Sevilla, Francesco Foscarin, Patricia Garcia-Iasci, David Rizo, Jorge Calvo-Zaragoza, Gerhard Widmer

Human Vs. Machine: Comparing Selection Strategies in Active Learning for Optical Music Recognition 703-709
Juan Pedro Martinez-Esteso, Alejandro Galan-Cuenca, Carlos Pérez-Sancho, Francisco J. Castellanos, Antonio Javier Gallego

Assessing the Alignment of Audio Representations With Timbre Similarity Ratings 710-718
Haokun Tian, Stefan Lattner, Charalampos Saitis

Simple and Effective Semantic Song Segmentation 719-726
Filip Korzeniowski, Richard Vogl

MusGO: A Community-Driven Framework for Assessing Openness in Music-Generative AI 727-738
Roser Batlle-Roca, Laura Ibáñez-Martínez, Xavier Serra, Emilia Gómez, Martín Rocamora

A Fourier Explanation of AI-Music Artifacts 739-746
Darius Afchar, Gabriel Meseguer Brocal, Kamil Akesbi, Romain Hennequin

Modeling the Difficulty of Saxophone Music 747-754
Šimon Libřický, jr., Jan Hajič

The Jam_bot, a Real-Time System for Collaborative Free Improvisation With Music Language Models 755-762
Lancelot Blanchard, Perry Naseck, Stephen Brade, Kimaya Lecamwasam, Jordan Rudess, Cheng-Zhi Anna Huang, Joseph Paradiso

Fretboardflow: A Dual-Model Approach to Optimize Chord Voicings on the Guitar Fretboard 763-770
Marcel Vélez Vásquez, Mariëlle Baelemans, Jonathan Driedger, John Ashley Burgoyne

The Florence Price Art Song Dataset and Piano Accompaniment Generator 771-778
Tao-Tao He, Martin Malandro, Douglas Shadle

Adding Temporal Musical Controls on Top of Pretrained Generative Models 779-786
Sarah Nabi, Nils Demerlé, Geoffroy Peeters, Frederic Bevilacqua, Philippe Esling

Quantize & Factorize: A Fast Yet Effective Unsupervised Audio Representation Without Deep Learning 787-796
Jaehun Kim, Matthew C. McCallum, Andreas F. Ehmann

Identification and Clustering of Unseen Ragas in Indian Art Music 797-804
Parampreet Singh, Adwik Gupta, Aakarsh Mishra, Vipul Arora

MAIA: An Inpainting-Based Approach for Music Adversarial Attacks 805-812
Yuxuan Liu, Peihong Zhang, Rui Sang, Zhixin Li, Shengchen Li

Joint Object Detection and Sound Source Separation 813-820
Sunyoo Kim, Yunjeong Choi, Doyeon Lee, Seoyoung Lee, Eunyi Lyou, Seungju Kim, Junhyug Noh, Joonseok Lee

User-Guided Generative Source Separation 821-829
Yutong Wen, Minje Kim, Paris Smaragdis

Singing Voice Separation From Carnatic Music Mixtures Using a Regression-Guided Latent Diffusion Model 830-838
Genís Plaja-Roglans, Xavier Serra, Martín Rocamora

Looking Beyond Averaged Metrics in Music Source Separation 839-846
Saurjya Sarkar, Victoria Moomijan, Basil Woods, Emmanouil Benetos, Mark Sandler

Barwise Section Boundary Detection in Symbolic Music Using Convolutional Neural Networks 847-854
Omar Eldeeb, Martin Malandro