基于内容的音频与音乐分析综述.docx
- 文档编号:13219012
- 上传时间:2023-06-12
- 格式:DOCX
- 页数:15
- 大小:29.03KB
基于内容的音频与音乐分析综述.docx
《基于内容的音频与音乐分析综述.docx》由会员分享,可在线阅读,更多相关《基于内容的音频与音乐分析综述.docx(15页珍藏版)》请在冰点文库上搜索。
基于内容的音频与音乐分析综述
基于内容的音频与音乐分析综述
摘要:
机器听觉包括三大研究领域:
语音信号处理与识别、一般音频信号分析、基于内容的音乐信号分析。
其中,语音信号处理与识别早已成为一个传统的研究热点。
随着信息科学与技术的迅速发展,基于内容的音频与音乐信号分析也逐渐成为一个新的研究热点,近几年来取得了大量研究成果。
文章将对1990年以后该领域上所取得的研究成果进行综述,包括基于内容的音频或音乐信号自动分类、分割、检索以及音乐作品自动分析等内容。
关键词:
音乐分类;识别;分割;检索;音乐分析;自动摘要;音频信号处理;模式识别
1、引言
听觉是一个非常重要的信息来源,如何能让计算机具有人类的听觉能力是一个十分有趣的问题,有着广阔的应用前景。
由于实际应用的需要,同时也为了研究方便,学者们将机器听觉分为三大领域:
语音信号处理与识别、一般音频信号分析、基于内容的音乐分析。
在这三个研究领域当中,有关语音识别的研究最为深入,每年都有大量的相关研究工作被报道。
由于已经存在许多有关语音识别方面的综述性文章[1’2],本文将不再对该领域的研究工作做进一步的归纳和整理。
所谓一般音频信号是指除了语音信号以外的各种音频信号,其中也包括音乐。
而音乐也是一般音频信号中最重要的一个类别。
我们知道音乐是一种复杂的非自然的声音现象,它是人类智慧与感性思维的体现。
许多无法用语言准确描述的思想感情可以通过音乐表达出来,优秀的音乐作品往往会使人产生情感上的共鸣。
因此,音乐被认为是全人类的共同语言,是人类几千年文化发展的成果,对它的研究无疑具有非常重要的价值。
由于音乐本身包含着大量不同层次的信息,对音乐信号进行自动分析是十分困难的。
此外,人类社会已经进入数字化时代,娱乐业与信息产业愈来愈紧密地结合在一起。
如何快速有效地搜索、管理和分析多媒体数据已经成为一个非常重要的问题,而基于内容的音频和音乐信号分析则有助于这一难题的解决。
和语音信号处理与识别相比,有关基于内容的音乐和一般音频信号分析的研究工作相对较少。
但进入20世纪90年代以后,这个领域的研究工作取得了很大进展,国际上发表的有关论文数量大幅增长。
而目前有关该领域的比较全面的综述文章还是截止到1988年,因此我们认为非常有必要对近几年的研究工作进行一下总结。
在本文中,我们将对1990年以来基于内容的音频和音乐分析领域的研究工作进行全面、完整的综述,其中主要介绍最近七八年的研究成果,之前的研究工作请参看文献[3].
此外,具体的有关遗传算法在音乐分析领域中的应用综述请参看文献[4].这个研究领域中比较重要的期刊和会议包括IEEETransactiononSpeechandAudioProcessing;IEEETransactiononPatternAnalysisandMachineIntelligence;IEEE(Transac—tionon)Multimedia;IEEETransactiononSignalProcessing;IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing(IC—ASSP);IEEEInternationalConferenceonMulti—mediaandExpo(1CME)和InternationalSymposi—umonMusicInformationRetrieval(ISMIR)等。
本文将按照不同的研究工作所处理的具体问题组织全文,安排如下:
第2节介绍基于内容的音频和音乐分类与识别方面的研究工作;第3节介绍基于内容的音频流分割;第4节则介绍基于内容的音频或音乐检索;第5节介绍音乐作品分析以及乐谱自动识别方面的工作;第6节介绍有关计算机音乐分析与理解方面的一些其他工作;最后在第7节中则是我们对该领域今后研究工作的一些认识。
2、基于内容的音频和音乐分类与识别
基于内容的音频数据自动分类是一个十分重要的研究方向,它可成为其他许多应用研究的基础,如基于内容的分割、检索等。
依据研究对象的不同,我们可以将这个领域的研究工作分为以下三个部分。
2.1针对音乐类数据的自动分类与识别
由于音乐类数据具有高度的复杂性,根据研究对象的不同我们可以将这部分工作进一步细分为如下几个问题。
2.1.1针对不同音乐类型的自动分类
(1)两类分类问题两类分类问题是指,研究对象中仅仅包含有两种不同的混合音乐类型的数据。
由于应用需求的不同,学者们所感兴趣的具体研究对象也是不同的。
如:
Bickerstaffe等人研究了如何利用最小消息长度准则(MML)对摇滚乐和古典音乐进行自动分类[5].
在他们的工作中比较了一种称为“Snob”的非监督学习方法和三种监督分类方法:
决策树、决策图和人工神经网络,结果表明在这个问题中监督分类方法要明显优于非监督分类方法;为了方便进行歌词自动识别,Berenzweig等人研究了如何区分流行歌曲中的演唱部分和纯伴奏部分[6],他们利用一个在说话人识别领域中常用的分类器对类似语音的声音信号进行检测。
由于具有背景伴奏音乐的歌手演唱信号与一般的语音信号有着很大的不同,对于那些无法直接通过“说话人识别分类器”来确定类别的声音片段,作者将进一步采用一个基于HMM框架的方法来最终判断其类别。
(2)多类分类问题在针对不同音乐类型的自动分类问题中,多类分类问题是比较常见的[710J.由于研究兴趣与具体应用需求的差异,学者们所关心的音乐类别往往不尽相同,但基本上都是采用基于样本训练的分类方法。
总的来说,研究所涉及的音乐类别越多则研究难度越大。
Tzanetakis等人设计了一个以音乐类数据为主的三层音频分类树(见图1),其内容覆盖了大部分西方现代音乐和一部分古典音乐[7],其中在具有十种音乐类别的分类层次上可以达到61%的平均分类正确率。
在他们的工作中使用了三种分别代表音色纹理、旋律内容和音高内容的特征集,并对这些特征的性能做了比较性研究。
Lambrou等人利用万方数据计算机学报小波系数作为特征,对摇滚乐、爵士乐和钢琴曲这三类音乐信号进行自动分类[8],同时比较了不同的小波构造方法和分类器对于这个三类问题的区分能力。
文献[9]将音乐信号的分形维数作为特征对12类音乐信号进行了自动分类研究,实验结果表明音乐信号的分形维数可以作为一种有效的特征用于音乐数据的自动分类。
(3)非监督分类——聚类前面所讨论的两类与多类音乐分类问题都属于监督分类问题,也就是说分类问题的类别是已知的,并且研究者可以获得类别已知的样本数据,这类情况比较常见。
与此相对应的则被称为非监督分类问题,此时研究者可能无法获得足够的类别已知的样本数据,有时甚至连类别数都无法知道。
非监督分类问题又称为聚类分析,关于针对音乐数据进行聚类分析的研究报导较少,因为聚类结果强烈依赖于所定义的相似性度量,并且所产生的聚类结果很难满足某种具体的应用需要。
Cilibrasi等提出了一种基于Kolmogorov复杂性和信息距离的音乐分级聚类方法[11|,它不使用任何音乐背景知识并可以直接用于其它领域的聚类分析。
Shao等则提出了一种基于HMM的非监督音乐分类方法[12I,为了获得更好的结果,他们还对音乐信号的节奏进行分析并在此基础上提取特征。
2.1.2基于内容的乐器(音色)自动分类与识别
如何从一段给定的音乐信号中识别出参加演奏的乐器是一个非常有趣的问题。
这样的任务对于人类来说也许是非常轻松的,但对于机器来说却十分困难。
识别或区分某种乐器主要依靠它特有的音色,从物理学上看音色则是由物体的振动状态所决定的,不同物体的振动状态决定了它的泛音及波形的不同,一个固定音高的音由于其中所含各阶谐频成分的比例不同,其音色也不同。
对于某种具体的乐器来说,这种频谱的变化又是十分复杂的,同一种乐器由于演奏技法的不同其音色也会发生显着的变化。
因此,如何方便而准确地描述音色是一个难题。
有关乐器识别或音色识别方面的研究工作比较少,它们可以分为以下两种情况:
(1)独立演奏情况下的乐器识别
大多数关于乐器自动识别的工作都是在独立演奏的假设下完成的,这使得工作变得相对容易了一些。
Kermit等人研究了如何对吉他、键盘乐器和鼓这三种乐器进行自动识别[13|,他们首先采用Haar小波变换对音频信号进行预处理以提取特征,然后通过一个神经网络对测试数据进行分类。
他们的方法也可以用来对一些语音数据进行自动分类,如一些元音和字词。
在文献[14]中,作者采用一种称为ARTMAP的神经网络来区分五类乐器所演奏的单音符信号,这五类乐器分别为钢琴、吉他、小号、萨克斯和长笛。
在文献[15]中,作者采用频谱特征对来自27种乐器所演奏的1007段音频信号进行了自动分类研究。
实验结果表明二次分类器所取得的效果最好,它要优于目前比较流行的SVM分类器和传统的最近邻分类器。
该分类器对来自具体乐器所演奏的音符的平均分类错误率为7.19%,对乐器族的平均识别错误率仅为3.13%。
Eronen针对16种西方管弦乐器的自动识别问题做了特征比较研究[16【,他考虑的特征包括Mel频率、线性预测倒谱系数和delta倒谱系数等。
他所报道的对乐器族的最高识别正确率仅为77%。
Krishna等同样在单音符乐器识别问题中比较了不同特征(MFCC和LPCC)以及分类方法(高斯混合模型和K近邻法)的作用[1?
,他们所报道的针对14种乐器的最高平均识别正确率为90%。
(2)混合情况下的乐器识别
在实际演奏的情况下,尤其是在多乐器混响的情况下进行乐器自动识别是非常困难的,相关的研究报道非常少。
Josephson等人研究了模糊专家系统在混响情况下乐器识别问题中的有效性,并列举了几个应用实例n8|.他们建议采用定量的物理分析与模糊专家系统相结合的方法对音色进行识别。
其中专家系统的知识库是这样建立的:
专家的知识+从音乐信号中直接提取出的音质特性,如基频、谐波泛音强度、谐波相位偏移量等。
但是该文并没有详细给出系统的实现方法。
Kostek研究了如何从二重奏音乐信号中识别乐器并将其分割出来[19|,他使用神经网络作为最后的决策系统。
Sakuraba等则对四重奏音乐信号下的乐器识别问题做了特征比较研究。
2.1.3歌手自动识别
如何让计算机分辨出一首歌曲是哪位歌手所演唱的是一个十分有趣的问题。
由于人们在日常生活中所欣赏的音乐大多都是歌曲,解决该问题会十分有助于歌曲类多媒体数据的自动管理和检索。
这个问题与语音识别领域中的说话人识别非常类似,解决的思路也基本类似。
但是由于人在演唱时嗓音的动态范围比说话时要大的多,再加上往往会有伴奏音乐,所以歌手识别问题要比说话人识别更加困难。
有关该问题的文献不多,它们可以分为以下两种情况:
(1)无伴奏情况下的歌手识别在文献[21]中,作者对12位美声唱法歌手的清唱歌声做了自动识别研究。
他们采用频谱包络的主成分作为特征,并用一个二次分类器对来自不同歌手的歌声做自动识别。
通过交叉验证实验,对歌手的平均正确识别率为95%。
Kim则通过训练HMM对来自4名美声歌手所演唱的简单音调做了识别,平均正确率可达90%左右[2引。
(2)有伴奏情况下的歌手识别“u等提出了一种方法用于在MP3格式下做歌手识别[2引。
他们首先通过一系列多项滤波器将训练集中的MP3音乐信号进行分解得到一系列音符(或音素),然后从每个音符中提取特征训练分类器对测试集中的歌曲进行歌手识别。
Zhang基于说话人识别系统的一般框架提出了一种歌手自动识别方法口“。
她为训练集中的每位歌手的嗓音特性训练了一个统计模型。
对于一首待测试的歌曲,她首先检测歌曲中演唱部分的起始点,然后从这个起始点开始截取出一段定长的演唱片断,最后从这个演唱片断中提取音频特征与训练集中的歌手嗓音模型进行匹配以完成歌手识别任务。
在一个不大的测试集上,她的方法可以达到大约80%的平均识别正确率。
此外,她还针对歌手之间的嗓音相似性做了一些聚类分析。
Maddage等也提出了一种歌手自动识别方法嘶],他们首先采用SVM分类器来检测歌曲中的演唱片断,然后通过高斯混合模型来对歌手的嗓音进行建模和识别。
在一个包含了100首独唱歌曲的数据库中,他们的方法可以达到87%的平均正确率。
Tsai等则研究了如何在具有背景伴奏和其他歌手存在的情况下,如何检测和跟踪某个特定歌手的演唱‘2引。
2.2包含音乐类数据的一般音频分类
包含音乐类数据的一般音频自动分类是指在分类对象中至少包含一种属于音乐类别的数据或者音乐与其他类别音频信号(如语音)的混和数据。
我们可以将这部分研究工作进一步细分为如下两部分。
2.2.1语音与音乐类数据的区分
由于语音和音乐是非常重要的两类音频数据,如何有效地区分语音和音乐就显得非常重要。
关于这方面研究的文献资料比较多[27。
30f,他们通常也被当作复杂情况下语音识别所必需的预处理工作。
Feng等采用最大熵模型,并结合一些通用特征对语音和音乐进行分类[2?
.Hughes等采用小波变换与神经网络相结合的方法来解决这个问题[28|.Chou等则着重强调了语音信号与歌曲类信号的区分,并为此提出了一些新的特征[29I.Beierholm等提出了一种无需训练的语音、音乐区分算法口?
。
在他们的方法中,对语音和音乐信号分别采用了不同的特征类别和模型阶数。
2.2.2其他多类分类问题
在包含音乐类数据的一般音频自动分类问题中,多类分类问题也是比较常见的。
31。
3“。
由于研究者的兴趣和实际应用需求的不同,他们所关心的音频类别数和具体的音频类别往往不尽相同,但又十分相似。
Lu和Zhang等首先通过K近邻结合线性谱对向量量化法(LSPLVQ)将音频信号分为语音和非语音两大类[3¨,然后利用基于规则的分类方法将菲语音类音频信号进一步分为音乐、环境声音和静音。
为此,他们还提出了自己定义的一些特征,如:
噪音帧数比和频带周期。
在文献[32]中,他们比较了SVM、K近邻法和高斯混和模型在~个五类的音频分类问题中的性能差异,这五类音频分别为静音、环境声音、语音、非纯语音和音乐。
实验结果表明SVM要明显优于其它两种分类器。
Li等研究了在一般音频信号分类中的特征选择问题[3?
,他们将音频信号分为七类:
静音、环境噪音、单人语音、多人语音、音乐、语音和音乐的混合信号、噪音背景下的语音。
研究结果表明倒谱类特征(如MFCC)和线性预测系数(LPC)要优于一般的时域和频域特征,他们所报道的最高平均分类正确率为90%。
Zhang使用能量函数、平均过零率、基频和谱峰轨迹作为特征,并通过一个基于规则的启发式的分类方法将一般音频信号分为八类:
和谐的环境声音、纯乐曲、歌曲、带有背景音乐的语音、带有背景音乐的环境声音、纯语音、非和谐的环境声音和静音口4|.他们的方法也可以达到90%的平均分类正确率。
2.3不包含音乐类数据的一般音频分类
有关这方面研究工作的报道比较少。
Guo等利万方数据计算机学报用SVM构建了一个二叉分类树[35|,对来自“MuscleFish”数据库中的16类共409段音频数据进行自动分类。
这些音频类别包括动物的叫声、男声、女声、铃声、掌声、笑声、机器的嘈杂声等等,平均分类正确率可达89%。
Li在最近邻方法的基础上提出了一种称为最近特征线(NFL)的分类方法[36|,并将其在“MuscleFish”数据库上进行了测试。
实验结果表明最近特征线分类方法要优于传统的最近邻法,其平均分类正确率可以达到90%。
Couvreur等通过时频分析技术结合HMM建立了一个环境噪声监测系统[37|,它可以区分五类噪声源:
小汽车、卡车、摩托车、飞机和火车,平均分类正确率可以达到95%。
Wold等提出了一种基于内容的声音文件的分类方法[38|.作者对一小段声音的WAV文件提取各种特征(持续时间、音高、振幅、带宽、明亮度)并计算它们的均值、方差、自相关等统计量,将这些特征及其统计量组成特征向量,用这个特征向量来表示这段声音。
在此基础上,作者定义了声音文件之间的相似性度量(欧几里的距离)使得基于内容的相似性成为可计算的量。
随后作者用带标签的一组样本来定义一个特定的类,并计算其均值特征向量和协方差矩阵作为该类的数学模型。
最后用近邻法来做进一步的分类和检索工作。
2.4小结
从前面的介绍中不难发现,有关基于内容的一般音频和音乐数据自动分类是一个十分开放的研究领域。
由于研究对象的复杂性和开放性,使得这个领域中拥有层出不穷的新问题有待学者们去探索和研究,这也是其能够成为近年来的一个研究热点的重要原因。
另一方面,与一些传统的研究领域(如语音识别、人脸识别、指纹识别等)相比,这个新兴的研究领域也存在一些问题,比如缺乏一个可以被学者们所广泛接受的数据库。
目前的情况是几乎每个学者都在使用不同的数据,研究不同的问题。
这使得我们很难对不同的算法在性能上有一个直观的比较,这在一定程度上制约了有效的学术交流。
从研究方法上看,几乎所有的算法都是采用基于数据的机器学习框架。
这一方面得益于近年来机器学习领域的迅速发展,而另一方面也反映出我们在研究事物本质特征方面的滞后。
模式识别问题的核心是特征的提取与选择。
目前在有关音乐数据自动分类研究领域中被广泛使用的仍然是一些低层次的音频特征,如MFCC、线性预测系数以及各种时域、频域特征及其统计量,这些特征显然不足以反映音乐现象的本质。
如何提取出更有效的可以揭示音乐现象本质的特征是一个亟待解决的难题。
3、基于内容的音频流分割
基于内容的音频流分割是指将一段音频流数据按其内容自动地分为若干片段,使得每个片段在内容类别上具有一致性。
它是基于内容的音频和多媒体数据分析领域中的一个十分重要的问题。
例如,一段电台或电视台的音频信号,其中可能包含古典音乐、流行歌曲、传统戏曲以及广告、语音等内容。
如果能将其按这些内容属性合理地分割开来,就能够方便听众和观众选择收听、收视,也能够方便多媒体数据的分类保存和进一步的剪辑加工等。
面对海量的多媒体数据,如果能开发出一种自动的、基于内容的音频流分割方法,无疑会大大地提高工作效率。
有关音频流分割的文献比较多,按照研究对象的不同这些工作又可以分为以下几个方面。
3.1说话人分割
说话人分割是指根据说话人嗓音特性的不同,将音频流中属于不同说话者的声音片断分割出来。
Delacourt等将一些二阶统计量作为特征用于连续语音信号中的说话人分割[39|.他们的方法不需要知道说话者的数目和其它一些先验信息,但是要求说话人不能同时讲话。
Kim等比较了声谱投影(audiospectrumprojection)和MFCC这两种特征在说话人分割问题中的有效性[40I.他们从不同说话人的声音片段中分别提取这两种特征并训练HMM模型用于说话人分割,实验结果表明MFCC的效果要好于ASP.
3.2语音/音乐数据流分割
有不少研究工作都是专门针对语音和音乐类音频数据流的分割问题的。
事实上,在2.2.1节中讨论过的关于语音与音乐区分的许多算法都可以用于语音和音乐数据流分割。
此外,Ajmera等提出了一种针对广播信号的语音/音乐数据自动分割算法[41I,它可以作为广播新闻自动翻译工作的预处理。
他们首先用纯语音信号训练出一个神经网络,并将其作为信道模型。
然后在这个神经网络的输出端计算熵和信号的动态特性。
最后通过一个两状态的各态历经HMM模型对音频流信号进行分割。
3.3其它多类音频流分割问题
关于这类音频分割问题的研究报道比较多口。
32’42-45],从研究方法上看这些工作可以大致分为两类:
一类属于非监督的音频流分割方法,如文献[42—43].它们主要通过检测音频特征值的突变点或对音频信号做局部相似性分析而对音频流进行分割。
Pandit等在一个三类音频流分割问题(单人语音、多人语音和音乐)中比较了几种基于距离度量和线性判别分析(LDA)的相似度计算准则[43【。
实验结果表明基于Mahalonabis距离度量的相似度计算准则要优于基于其它距离度量方式和LDA的准则;另一类则属于有监督的音频流分割方法。
依据具体应用要求的不同,利用各种样本数据学习训练得到的音频流分割方法往往能够得到比较理想的分割性能。
在这类方法中,比较有代表性的是文献[31—32].
在文献[31]中,作者提出了一种方法将音频流分割为语音、音乐、环境声音和静音。
他们采用了一种完全基于小尺度分类的分割方法,其基本分类单元为1s的音频片段。
首先,音频信号被分为语音信号和非语音信号两类,然后进一步将非语音信号分为音乐、环境声音和静音。
在他们的方法中仅仅给出了分类器的平均正确率,而没有对整个分割算法的效果进行评价。
Nitanda等也提出了一种音频流分割方法“引,他们首先采用模糊C均值聚类法检测可能的分割点,然后设计分类器将分割点之间的音频片段分为五类(静音、音乐、语音、具有背景音乐的语音、具有背景噪音的语音),通过对音频片段进行分类也可以达到去除一部分虚假分割点的目的。
此外,我们经过研究发现大尺度音频片段的分类正确率要明显高于小尺度音频片段的分类正确率,并且这个趋势与分类器选择无关。
基于这个事实和减少虚假分割点的目的,我们提出了一种新的音频流分割方法H5c.首先,我们采用基于大尺度音频分类的分割方法对音频流进行粗分割,以减少虚假分割点;然后我们定义了分割点评价函数,并利用它在边界区域中进一步精确定位分割点。
实验结果表明我们的音频流分割方法可以比较精确地获取真实分割点的位置,同时大大减少了虚假分割点的出现。
3.4利用音频分析技术的视听多媒体数据分割
在当今社会中,数字技术越来越多地应用于多媒体数据的管理,如电视制作、节目检索等方面。
如,对于类似电视、电影等既有图像又有声音的多媒体数据,如何快速有效地从大量数据中找出自己关心的片断是一个十分有趣的问题。
传统的方法一般从视频数据人手去寻找线索,对视听数据进行分割,音频数据中所包含的信息没有被利用上。
但是在许多情况下,仅仅利用视频信息进行分割是非常困难的,如果能将音频信息利用起来无疑可以大大提高分割效率和正确率。
这方面的文献也比较多[34“6‘47……如Zhang和JayKuo介绍了一种视听数据分割方法口引,其算法流程见图2.她先将背景声音进行分割和分类,然后利用背景声音的分类结果将图像序列分割并归类为一个个“视听场景”,并为之标上“标签”以便检索。
在他们的方法中首先从每个1s的音频片段中提取特征,然后检测出音频流中的特征突变点并用这些特征突变点将音频流分割开来,最后再利用一种基于启发式规则的方法将这些片段进行分类。
与文献[31]类似,他们只给出了分类器的正确率而没有对整个分割算法的精度、真实分割点检测率以及虚假分割率进行探讨。
Strobel等则利用音频一视频联合的技术进行目标定位与跟踪等提出的基于音频分析的视听数据自动分割与检索算法流程图Ⅲ3万方数据计算机学报。
3.5小结
总的来说,基于内容的音频流分割算法可以分为两大类:
一类算法是基于特征值突变检测或音频流局部相似性分析的。
原则上说,这类算法可用于分割任意音频流数据。
但是在实际应用中,由于分割对象往往过于复杂并且算法不具有针对性,因而很难取得理想的效果;另一类算法是基于对音频片段的监督分类的。
在第2小节中所介绍的有关音频信号监督分类的算法一般都可以用于构造相应的音频流分割算法。
由于这类音频流分割算法具有较强的针对性,因而当应用环境比较稳定时这类算法可以取得较好的效果。
但是当应用环境发生较大变化或应用于新的分割问题时,这类算法都需要重新收集样本数据训练并更新相应的分类器,甚至需要重新设计
基于内容检索是一个非常重要同时也非常困难的问题,其
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 内容 音频 音乐 分析 综述