ISMIR 2022

Conferences / ISMIR 2022

Full Proceedings

Proceedings of the 23nd International Society for Music Information Retrieval (ISMIR) Conference, Bengaluru, India, 4-8 Dec, 2022 (ISBN: 978-1-7327299-2-6) [pdf]

Papers
Yixiao Zhang, Junyan Jiang, Gus Xia, Simon Dixon Interpreting Song Lyrics with an Audio-Informed Pre-trained Language Model 19-26 [pdf]
Tsung-Ping Chen, Li Su Toward postprocessing-free neural networks for joint beat and downbeat estimation 27-35 [pdf]
Matan Gover, Oded Zewi Music Translation: Generating Piano Arrangements in Different Playing Levels 36-43 [pdf]
Ian Simon, Joshua Gardner, Curtis Hawthorne, Ethan Manilow, Jesse Engel Scaling Polyphonic Transcription with Mixtures of Monophonic Transcriptions 44-51 [pdf]
Anup Singh, Kris Demuynck, Vipul Arora Attention-based audio embeddings for query-by-example 52-58 [pdf]
Otso Björklund SIATEC-C: Computationally efficient repeated pattern discovery in polyphonic music 59-66 [pdf]
Marcel A Vélez Vásquez, John Ashley Burgoyne Tailed U-Net: Multi-Scale Music Representation Learning 67-75 [pdf]
Da-Yi Wu, Wen-Yi Hsiao, Fu-Rong Yang, Oscar D Friedman, Warren Jackson, Scott Bruzenak, Yi-Wen Liu, Yi-Hsuan Yang DDSP-based Singing Vocoders: A New Subtractive-based Synthesizer and A Comprehensive Evaluation 76-83 [pdf]
Elio Quinton Equivariant self-supervision for musical tempo estimation 84-92 [pdf]
Yuqiang Li, Shengchen Li, George Fazekas How Music features and Musical Data Representations Affect Objective Evaluation of Music Composition: A Review of CSMT Data Challenge 2020 93-99 [pdf]
Eunjin Choi, Yoonjin Chung, Seolhee Lee, Jongik Jeon, Taegyun Kwon, Juhan Nam YM2413-MDB: A Multi-Instrumental FM Video Game Music Dataset with Emotion Annotations 100-108 [pdf]
Anil Venkatesh, Viren Sachdev Detecting Symmetries of All Cardinalities With Application to Musical 12-Tone Rows 109-115 [pdf]
Jaehun Kim, Cynthia C. S. Liem The power of deep without going deep? A study of HDPGMM music representation learning 116-124 [pdf]
Daiki Naruse, Tomoyuki Takahata, Yusuke Mukuta, Tatsuya Harada Pop Music Generation with Controllable Phrase Lengths 125-131 [pdf]
Yen-Tung Yeh, Yi-Hsuan Yang, Bo-Yu Chen Exploiting Pre-trained Feature Networks for Generative Adversarial Networks in Audio-domain Loop Generation 132-140 [pdf]
Daiyu Zhang, Ju-Chiang Wang, Katerina Kosta, Jordan B. L. Smith, Shicen Zhou Modeling the rhythm from lyrics for melody generation of pop songs 141-148 [pdf]
Simeon Rau, Frank Heyen, Stefan Wagner, Michael Sedlmair Visualization for AI-Assisted Composing 151-159 [pdf]
Ellie Bean Abrams, Eva Muñoz Vidal, Claire Pelofi, Pablo Ripollés Retrieving musical information from neural data: how cognitive features enrich acoustic ones 160-168 [pdf]
Jingwei Zhao, Gus Xia, Ye Wang Beat Transformer: Demixed Beat and Downbeat Tracking with Dilated Self-Attention 169-177 [pdf]
Seungyeon Rhyu, Sarah Kim, Kyogu Lee Sketching the Expression: Flexible Rendering of Expressive Piano Performance with Self-Supervised Learning 178-185 [pdf]
Karim M. Ibrahim, Elena V. Epure, Geoffroy Peeters, Gaël Richard Exploiting Device and Audio Data to Tag Music with User-Aware Listening Contexts 186-192 [pdf]
Yueh-Kao Wu, Ching-Yu Chiu, Yi-Hsuan Yang Jukedrummer: Conditional Beat-aware Audio-domain Drum Accompaniment Generation via Transformer VQ-VAE 193-200 [pdf]
Junyan Jiang, Daniel Chin, Yixiao Zhang, Gus Xia Learning Hierarchical Metrical Structure Beyond Measures 201-209 [pdf]
Francisco C. F. Almeida, Gilberto Bernardes, Christof Weiss Mid-level Harmonic Audio Features for Musical Style Classification 210-217 [pdf]
Johannes Imort, Giorgio Fabbro, Marco A Martinez Ramirez, Stefan Uhlich, Yuichiro Koyama, Yuki Mitsufuji Distortion Audio Effects: Learning How to Recover the Clean Signal 218-225 [pdf]
Antonio Ríos-Vila, Jose M. Inesta, Jorge Calvo-Zaragoza End-to-End Full-Page Optical Music Recognition for Mensural Notation 226-232 [pdf]
Bruno Di Giorgi, Mark Levy, Richard Sharp Mel Spectrogram Inversion with Stable Pitch 233-239 [pdf]
Xingjian Du, Huidong Liang, Yuan Wan, Yuheng Lin, Ke Chen, Bilei Zhu, Zejun Ma Latent feature augmentation for chorus detection 240-247 [pdf]
Li Yi, Haochen Hu, Jingwei Zhao, Gus Xia AccoMontage2: A Complete Harmonization and Accompaniment Arrangement System 248-255 [pdf]
Matthew C Mccallum, Filip Korzeniowski, Sergio Oramas, Fabien Gouyon, Andreas Ehmann Supervised and Unsupervised Learning of Audio Representations for Music Understanding 256-263 [pdf]
Rishabh A Dahale, Vaibhav Vinayak Talwadker, Preeti Rao, Prateek Verma Generating Coherent Drum Accompaniment with Fills and Improvisations 264-271 [pdf]
Alia Morsi, Xavier Serra Bottlenecks and solutions for audio to score alignment research 272-279 [pdf]
Martin Clayton, Preeti Rao, Nithya Shikarpur, Sujoy Roychowdhury, Jin Li Raga Classification From Vocal Performances Using Multimodal Analysis 283-290 [pdf]
Oleg Lesota, Emilia Parada-Cabaleiro, Stefan Brandl, Elisabeth Lex, Navid Rekabsaz, Markus Schedl Traces of Globalization in Online Music Consumption Patterns and Results of Recommendation Algorithms 291-297 [pdf]
Kongmeng Liew, Vipul Mishra, Yangyang Zhou, Elena V. Epure, Romain Hennequin, Shoko Wakamiya, Eiji Aramaki Network Analyses for Cross-Cultural Music Popularity 298-305 [pdf]
Polykarpos Polykarpidis, Dionysios Kalofonos, Dimitrios Balageorgos, Christina Anagnostopoulou Three related corpora in Middle Byzantine music notation and a preliminary comparative analysis 306-313 [pdf]
Dichucheng Li, Yulun Wu, Qinyu Li, Jiahao Zhao, Yi Yu, Fan Xia, Wei Li Playing Technique Detection by Fusing Note Onset Information in Guzheng Performance 314-320 [pdf]
Babak Nikzat, Rafael Caro Repetto KDC: an open corpus for computational research of dastgāhi music 321-328 [pdf]
Ke Nie Inaccurate Prediction or Genre Evolution? Rethinking Genre Classification 329-336 [pdf]
Thomas Nuttall, Genís Plaja-Roglans, Lara Pearson, Xavier Serra In Search of Sañcāras: Tradition-informed Repeated Melodic Pattern Recognition in Carnatic Music 337-344 [pdf]
Zhaowen Wang, Mingjin Che, Yue Yang, Wen Wu Meng, Qinyu Li, Fan Xia, Wei Li Automatic Chinese National Pentatonic Modes Recognition Using Convolutional Neural Network 345-352 [pdf]
David Gillman, Atalay Kutlay, Uday Goyat Teach Yourself Georgian Folk Songs Dataset: A Annotated Corpus Of Traditional Vocal Polyphony 353-360 [pdf]
Lucas S Maia, Martín Rocamora, Luiz W P Biscainho, Magdalena Fuentes Adapting meter tracking models to Latin American music 361-368 [pdf]
Kaustuv Kanti Ganguli, Sertan Şentürk, Carlos Guedes Critiquing Task- versus Goal-oriented Approaches: A Case for Makam Recognition 369-376 [pdf]
Charilaos Papaioannou, Ioannis Valiantzas, Theodore Giannakopoulos, Maximos Kaliakatsos-Papakostas, Alexandros Potamianos A Dataset for Greek Traditional and Folk Music: Lyra 377-383 [pdf]
Yuya Yamamoto, Juhan Nam, Hiroko Terasawa Analysis and detection of singing techniques in repertoires of J-POP solo singers 384-391 [pdf]
Lele Liu, Qiuqiang Kong, Veronica Morfi, Emmanouil Benetos Performance MIDI-to-score conversion by neural beat tracking 395-402 [pdf]
Sangjun Han, Hyeongrae Ihm, Moontae Lee, Woohyung Lim Symbolic Music Loop Generation with Neural Discrete Representations 403-410 [pdf]
Marco A Martinez Ramirez, Weihsiang Liao, Chihiro Nagashima, Giorgio Fabbro, Stefan Uhlich, Yuki Mitsufuji Automatic music mixing with deep learning and out-of-domain data 411-418 [pdf]
Mahshid Alinoori, Vassilios Tzerpos Music-STAR: a Style Translation system for Audio-based Re-instrumentation 419-426 [pdf]
Darius Afchar, Romain Hennequin, Vincent Guigue Learning Unsupervised Hierarchies of Audio Concepts 427-436 [pdf]
Massimo Quadrana, Antoine Larreche-Mouly, Matthias Mauch Multi-objective Hyper-parameter Optimization of Behavioral Song Embeddings 437-445 [pdf]
Huan Zhang, Jingjing Tang, Syed Rm Rafee, Simon Dixon, George Fazekas, Geraint A. Wiggins ATEPP: A Dataset of Automatically Transcribed Expressive Piano Performance 446-453 [pdf]
Chen Zhang, Jiaxing Yu, Luchin Chang, Xu Tan, Jiawei Chen, Tao Qin, Kejun Zhang PDAugment: Data Augmentation by Pitch and Duration Adjustments for Automatic Lyrics Transcription 454-461 [pdf]
Chitralekha Gupta, Yize Wei, Zequn Gong, Purnima Kamath, Zhuoyao Li, Lonce Wyse Parameter Sensitivity of Deep-Feature based Evaluation Metrics for Audio Textures 462-468 [pdf]
Igor Vatolkin, Cory Mckay Stability of Symbolic Feature Group Importance in the Context of Multi-Modal Music Classification 469-476 [pdf]
Franca Bittner, Marcel Gonzalez, Maike L Richter, Hanna Lukashevich, Jakob Abeßer Multi-pitch Estimation meets Microphone Mismatch: Applicability of Domain Adaptation 477-484 [pdf]
Chris Donahue, John Thickstun, Percy Liang Melody transcription via generative pre-training 485-492 [pdf]
Yigitcan Özer, Meinard Müller Source Separation of Piano Concertos with Test-Time Adaptation 493-500 [pdf]
Martha E Thomae Elias, Julie Cumming, Ichiro Fujinaga Counterpoint Error-Detection Tools for Optical Music Recognition of Renaissance Polyphonic Music 501-508 [pdf]
Louis Couturier, Louis Bigo, Florence Leve A Dataset of Symbolic Texture Annotations in Mozart Piano Sonatas 509-516 [pdf]
Nazif Can Tamer, Pedro Ramoneda, Xavier Serra Violin Etudes: A Comprehensive Dataset for f0 Estimation and Performance Analysis 517-524 [pdf]
Nikita Srivatsan, Taylor Berg-Kirkpatrick Checklist Models for Improved Output Fluency in Piano Fingering Prediction 525-531 [pdf]
Jaidev Shriram, Makarand Tapaswi, Vinoo Alluri Sonus Texere! Automated Dense Soundtrack Construction for Books using Movie Adaptations 535-542 [pdf]
Marco Pasini, Jan Schlüter Musika! Fast Infinite Waveform Music Generation 543-550 [pdf]
Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li, Feng Yu, Maosong Sun Symphony Generation with Permutation Invariant Language Model 551-558 [pdf]
Qingqing Huang, Aren Jansen, Joonseok Lee, Ravi Ganti, Judith Yue Li, Daniel P W Ellis MuLan: A Joint Embedding of Music Audio and Natural Language 559-566 [pdf]
Peiling Lu, Xu Tan, Botao Yu, Tao Qin, Sheng Zhao, Tie-Yan Liu MeloForm: Generating Melody with Musical Form based on Expert Systems and Neural Networks 567-574 [pdf]
Chang-Bin Jeon, Kyogu Lee Towards robust music source separation on loud commercial music 575-582 [pdf]
Michael Zhou, Andrew Mcgraw, Douglas R Turnbull Towards Quantifying the Strength of Music Scenes Using Live Event Data 583-590 [pdf]
Morgan Buisson, Brian Mcfee, Slim Essid, Hélène C. Crayencour Crayencour Learning Multi-Level Representations for Hierarchical Music Structure Analysis. 591-597 [pdf]
Curtis Hawthorne, Ian Simon, Adam Roberts, Neil Zeghidour, Joshua Gardner, Ethan Manilow, Jesse Engel Multi-instrument Music Synthesis with Spectrogram Diffusion 598-607 [pdf]
Franco Caspe, Andrew Mcpherson, Mark Sandler DDX7: Differentiable FM Synthesis of Musical Instrument Sounds 608-616 [pdf]
Mojtaba Heydari, Zhiyao Duan Singing beat tracking with Self-supervised front-end and linear transformers 617-624 [pdf]
Saurjya Sarkar, Emmanouil Benetos, Mark Sandler EnsembleSet: a new high quality synthesised dataset for chamber ensemble separation 625-632 [pdf]
Tengyu Deng, Eita Nakamura, Kazuyoshi Yoshii End-to-End Lyrics Transcription Informed by Pitch and Onset Estimation 633-639 [pdf]
Ilaria Manco, Emmanouil Benetos, Elio Quinton, George Fazekas Contrastive Audio-Language Learning for Music 640-649 [pdf]
Dmitry Bogdanov, Xavier Lizarraga-Seijas, Pablo Alonso-Jiménez, Xavier Serra MusAV: A dataset of relative arousal-valence annotations for validation of audio models 650-658 [pdf]
Shuqi Dai, Huiran Yu, Roger B Dannenberg What is missing in deep music generation? A study of repetition and structure in popular music 659-666 [pdf]
Angelo Cesar Mendes Da Silva, Diego F Silva, Ricardo Marcondes Marcacini Heterogeneous Graph Neural Network for Music Emotion Recognition 667-674 [pdf]
Mathilde Abrassart, Guillaume Doras And what if two musical versions don’t share melody, harmony, rhythm, or lyrics ? 677-684 [pdf]
Genís Plaja-Roglans, Marius Miron, Xavier Serra A diffusion-inspired training strategy for singing voice extraction in the waveform domain 685-693 [pdf]
Romain Loiseau, Baptiste Bouvier, Yann Teytaut, Elliot Vincent, Mathieu Aubry, Loic Landrieu A Model You Can Hear: Audio Identification with Playable Prototypes 694-700 [pdf]
Marcos Acosta, Irmak Bukey, T J Tsai An Exploration of Generating Sheet Music Images 701-708 [pdf]
Weixing Wei, Peilin Li, Yi Yu, Wei Li HPPNet: Modeling the Harmonic Structure and Pitch Invariance in Piano Transcription 709-716 [pdf]
Pedro L T Neves, José Fornari, João B Florindo Generating music with sentiment using Transformer-GANs 717-725 [pdf]
Ke Chen, Hao-Wen Dong, Yi Luo, Julian Mcauley, Taylor Berg-Kirkpatrick, Miller Puckette, Shlomo Dubnov Improving Choral Music Separation through Expressive Synthesized Data from Sampled Instruments 726-732 [pdf]
Kyungyun Lee, Gladys Hitt, Emily Terada, Jin Ha Lee Ethics of Singing Voice Synthesis: Perceptions of Users and Developers 733-740 [pdf]
Takuya Takahashi, Mathieu Barthet Emotion-driven Harmonisation And Tempo Arrangement of Melodies Using Transfer Learning 741-748 [pdf]
Yigitcan Özer, Matej Ištvánek, Vlora Arifi-Müller, Meinard Müller Using Activation Functions for Improving Measure-Level Audio Synchronization 749-755 [pdf]
Katerina Kosta, Wei Tsung Lu, Gabriele Medeot, Pierre Chanquion A deep learning method for melody extraction from a polyphonic symbolic music representation 756-763 [pdf]
Peter Knees, Bruce Ferwerda, Andreas Rauber, Sebastian Strumbelj, Annabel Resch, Laurenz Tomandl, Valentin Bauer, Fung Yee Tang, Josip Bobinac, Amila Ceranic, Riad Dizdar A Reproducibility Study on User-centric MIR Research and Why it is Important 764-771 [pdf]
Noah Schaffer, Boaz Cogan, Ethan Manilow, Max Morrison, Prem Seetharaman, Bryan Pardo Music Separation Enhancement with Generative Modeling 772-780 [pdf]
Stefan Lattner SampleMatch: Drum Sample Retrieval by Musical Context 781-788 [pdf]
Timothy De Reuse, Ichiro Fujinaga A Transformer-Based “Spellchecker” for Detecting Errors in OMR Output 789-796 [pdf]
Vjosa Preniqi, Kyriaki Kalimeri, Charalampos Saitis “More than words”: Linking Music Preferences and Moral Values through Lyrics 797-805 [pdf]
Jui-Te Wu, Jun-You Wang, Jyh-Shing Roger Jang, Li Su A unified model for zero-shot singing voice conversion and synthesis 809-816 [pdf]
Stewart Greenhill, Majid Abdolshah, Vuong Le, Sunil Gupta, Svetha Venkatesh Semantic Control of Generative Musical Attributes 817-824 [pdf]
Pablo Alonso-Jiménez, Xavier Serra, Dmitry Bogdanov Music Representation Learning Based on Editorial Metadata from Discogs 825-833 [pdf]
Chih-Pin Tan, Alvin W Y Su, Yi-Hsuan Yang Melody Infilling with User-Provided Structural Context 834-841 [pdf]
Xichu Ma, Xiao Liu, Bowen Zhang, Ye Wang Robust Melody Track Identification in Symbolic Music 842-849 [pdf]
Florian Thalmann, Eita Nakamura, Kazuyoshi Yoshii Tracking the Evolution of a Band’s Live Performances over Decades 850-857 [pdf]
Ashvala Vinay, Alexander Lerch Evaluating Generative Audio Systems and Their Metrics 858-865 [pdf]
Alison B Ma, Alexander Lerch Representation Learning for the Automatic Indexing of Sound Effects Libraries 866-875 [pdf]
Francesco Foscarin, Katharina Hoedt, Verena Praher, Arthur Flexer, Gerhard Widmer Concept-Based Techniques for “Musicologist-Friendly” Explanations in Deep Music Classifiers 876-883 [pdf]
Maximilian Mayerl, Stefan Brandl, Günther Specht, Markus Schedl, Eva Zangerle Verse versus Chorus: Structure-aware Feature Extraction for Lyrics-based Genre Recognition 884-890 [pdf]
Longshen Ou, Xiangming Gu, Ye Wang Transfer Learning of wav2vec 2.0 for Automatic Lyric Transcription 891-899 [pdf]
Daniel Szelogowski, Lopamudra Mukherjee, Benjamin Whitcomb A Novel Dataset and Deep Learning Benchmark for Classical Music Form Recognition and Analysis 900-907 [pdf]
Guillem Cortès, Alex Ciurana, Emilio Molina, Marius Miron, Owen Meyers, Joren Six, Xavier Serra BAF: An audio fingerprinting dataset for broadcast monitoring 908-916 [pdf]
Emmanouil Karystinaios, Gerhard Widmer Cadence Detection in Symbolic Classical Music using Graph Neural Networks. 917-924 [pdf]
Jingwei Zhao, Gus Xia, Ye Wang Domain Adversarial Training on Conditional Variational Auto-Encoder for Controllable Music Generation 925-932 [pdf]
Yang Qu, Yutian Qin, Lecheng Chao, Hangkai Qian, Ziyu Wang, Gus Xia Modeling perceptual loudness of piano tone: theory and applications 933-940 [pdf]
Maximilian Damböck, Richard Vogl, Peter Knees On the Impact and Interplay of Input Representations and Network Architectures for Automatic Music Tagging 941-948 [pdf]