一、CD音轨智能编辑转录的数学模型及递归算法(论文文献综述)
武堂颖[1](2021)在《基于和弦约束的GAN网络的双轨音乐生成》文中研究说明自生成对抗网络(Generative Adversarial Network,GAN)提出以来,在语音、文本和视觉生成方面的实验取得了许多的研究成果,但在音乐生成领域研究较少;其次,和弦在音乐中具有丰富和声色彩、对生成的音乐具有约束作用和增加饱满性的作用,但目前在音乐生成领域将和弦运用到模型中的研究少之又少;最后音乐是一种具有时序性的声音艺术,其随时间的开展而进行,所以在构建模型时需要将音符随时间的依赖性添加到模型中。因此,本文在已有的理论技术及研究基础上对音乐生成进行研究。以基于卷积对抗生成网络模型(Midinet)为基线模型,构建三个模型分别为基于乐理规则的音乐生成模型、基于和弦特征的GAN网络音乐生成模型(Deep Chord Convol utional Generative Adversarial Network,DCC_GAN)和基于整体风格的GAN网络音乐生成模型(Deep Chord Gate Recurrent Unit Generative Adversarial Netw ork,DCG_GAN),三个模型分别进行乐理规则的学习、和弦特征的提取以及整体风格的构建,最终使生成的音乐更加和谐悦耳。该模型生成的音乐与传统生成音乐不同的是,不需要手动添加复杂的音乐规则,直接通过训练初始音乐数据集生成具有音乐理论规则的音乐,并通过和弦的约束提高生成音乐的稳定性,以及增强音符对时间的依赖性。在实验结果分析中,邀请50人(40人为普通人士,10人为音乐专业人士)对生成的旋律进行评估与分析。研究提出的基于整体风格的GAN网络音乐生成模型生成的音乐旋律通过和弦约束以及自主学习1—t-1时刻的内容,使生成的音乐旋律更悦耳,为流行音乐的创作和实现的大众化和量产化具有重要的理论和实际意义。
郭毓博[2](2021)在《基于深度学习的器乐分离算法研究》文中研究指明音乐分离是音频分离任务的一个分支,器乐分离则是音乐分离任务在深度与广度上的扩展。器乐分离的第一种解释是基于音乐的分离,它的难度与音频分离任务难度相当,目的是将器乐音频从混合音频中分离出来,其分离出的特定音频可用于众多后续任务;第二种解释是在现有音频中将特定乐器演奏技巧分离出来,其分离的技巧音频可以很好应用于音乐家们对器乐进行演奏学习与音乐分析。现基于深度学习的音乐分离算法大多针对歌曲进行分离,而作为音乐重要组成部分的器乐曲特别是民族器乐曲却没有得到应有的关注,本文为缓解此种情形自制了基于竹笛音频录制的数据集Breath提供使用;Breath数据集包含竹笛音乐分离集与竹笛技巧分离集,竹笛音乐分离集用于对竹笛音频进行提取的音源分离任务,竹笛技巧分离集用于竹笛技巧分类任务。本文针对器乐分离的第一种解释,基于残差和注意力机制设计了RECA模块,改进了原用于音乐分离的U-net模型;在四音轨分离任务上使用MUSDB18数据集训练的RECA-U-net模型同它的两个变体以及其它深度学习算法相比分离性能评估指标大幅领先;在声歌分离任务上将RECA-U-net与它的两个变体相比也取得了优势;使用Breath竹笛音乐分离集对RECA-U-net模型进行训练,利用主观评价标准对模型进行分离性能评价,并给出了该模型在竹笛音乐中的适用范围。本文针对器乐分离的第二种解释,基于Breath竹笛技巧分离集构建了Breath1d和Breath2d器乐技巧分离参考模型;在对划分的子集进行二分类时,分别使用Breath1d和Breath2d模型对竹笛技巧进行了区分,得到了适合于不同技巧间分类的最佳模型;在对全集进行分类实验时通过借鉴数据增强方法,融合Breath1d和Breath2d模型将技巧分离性能提高到91.3%,最后通过分析性能提升的原因证明了数据集的完备性。
教育部[3](2020)在《教育部关于印发普通高中课程方案和语文等学科课程标准(2017年版2020年修订)的通知》文中研究说明教材[2020]3号各省、自治区、直辖市教育厅(教委),新疆生产建设兵团教育局:为深入贯彻党的十九届四中全会精神和全国教育大会精神,落实立德树人根本任务,完善中小学课程体系,我部组织对普通高中课程方案和语文等学科课程标准(2017年版)进行了修订。普通高中课程方案以及思想政治、语文、
秦楚雄[4](2020)在《端到端语音识别技术研究》文中研究指明语音识别技术已经广泛应用于各类民用和军用领域,基于传统建模方法的语音识别技术相对成熟。近年来,随着端到端语音识别技术的提出与发展,语音识别系统逐渐克服了传统的模块化设计和独立性假设,模型具备了能够联合优化、易于部署等优点,并在很多识别任务中取得了最佳的识别结果,成为了极具发展前景的语音识别技术,是近年来语音识别领域的研究热点。当前的端到端语音识别模型主要依赖于深度学习技术,并利用一体化的神经网络进行建模,这导致了端到端语音识别存在三个突出问题。一是当前端到端语音识别对标注训练数据量的需求极大;二是数据驱动的模型机制存在很多优化空间;最后,端到端语音识别依赖于深度网络模型还会导致其缺乏可解释性。本文围绕端到端语音识别的这三个关键问题展开研究,具体工作主要体现在四个方面,分别为基于迁移学习的语音识别、基于主动学习和半监督训练的语音识别、对端到端模型的结构优化与训练优化、注意力模型的可解释性等研究。主要工作如下:1.基于迁移学习的端到端语音识别技术。基于数据驱动训练方式的端到端语音识别模型缺乏知识的引导,在训练数据量有限的语音识别任务中,因受制于特征表达能力有限、模型假设空间较多等因素,端到端语音识别性能不够理想。本文为此提出了一种基于迁移学习的端到端语音识别方法。首先在特征提取层面,提出了一种新的语音高层迁移特征提取方法。该方法基于数据增强的思想,通过多语言共享训练、迁移隐含层进行目标语言自适应训练,从而实现意大利语、德语、法语、西班牙语到英语的知识迁移,然后对权值矩阵进行凸非负矩阵分解(Convex Nonnegative Matrix Factorization,CNMF)来提取高层特征,使得特征具有更强的鲁棒性和高层语义表达能力。其次,基于高层特征,在建模层面进行迁移学习。基于非共享隐含层结构,提出两种联合建模方法,一种是连接时序分类(Connectionist Temporal Classification,CTC)-注意力联合模型,另一种是多CTC-多编码器层次注意力模型。通过迁移CTC算法对序列对齐的单调约束能力,以及共享不同分辨率模型之间的互补信息,达到减少建模假设空间的目的,从而在有限的训练数据条件下获得更好的模型性能。实验证明,本文所提出的迁移学习方法相比其他方法具有明显的优越性,且在TIMIT语料库中取得了最佳的端到端语音识别结果。2.基于主动学习和半监督训练的端到端语音识别技术。对语音数据进行标注通常较为耗时耗力,为了更高效的利用训练数据,降低模型对标注数据的依赖度,本文基于端到端注意力语音识别中的主动学习任务和半监督训练任务,提出一种新的语句评估算法——N-best信息密度(N-best Information Density,NID)算法。具体来说,首先在注意力模型中提出一种基于注意力的语句信息表示方法,基于该信息表示方法可以计算得到每条语句相对其他语句的平均距离,从而对决策时的语句信息密度进行评估。然后利用N-best解码概率,将语句的解码熵和基于注意力平均距离的信息密度相结合,计算语句的标注价值得分。在不同的主动学习和半监督训练实验中,均证明了NID算法相对其他算法的优越性,而对于扩展语句数量较多的任务,语句平均距离这一指标在决策得分中起到更大的作用。进一步对比不同算法的得分排序,证明NID算法有效引入了与其它算法互异的查询信息。3.端到端语音识别模型的结构优化与训练优化方法。端到端语音识别模型结构与训练算法在模型内部缺乏足够的约束条件,导致模型在训练时存在一定盲目性。本文重点针对注意力模型结构和训练的代价函数这两个方面展开研究。首先在结构优化方面,为了使得基于递归神经网络(Recurrent Neural Network,RNN)的注意力模型在计算注意力时引入更多长时信息与单调约束,提出一种融合多层编码器输出的注意力机制,在深度上对注意力机制进行扩展。使用连续多层输出乘积替代编码器的单层输出,进而计算注意力匹配得分,然后利用连续输出的残差连接机制计算注意力背景(Attention context)向量。进一步将多层注意力结构与多抽头机制结合,在广度上对注意力进行扩展。该方法基于多层输出的注意力构建多抽头结构,使得每个抽头在计算时均包含多层输出信息。其次,在训练优化方面,为了解决训练目标函数与测试评价指标的不一致的问题,同时也为了降低模型训练过拟合以及预测过置信的问题,本文将评价指标引入训练目标函数。提出了一种基于评价指标正则化的标签平滑训练算法。该算法将传统标签平滑算法中平滑项的常量系数替换为语音识别的测试评价指标,实现了自适应正则化标签平滑。从结构优化、训练优化、综合优化三方面展开实验,在TIMIT、WSJ和LibriSpeech三个语料库的实验结果表明,使用多层注意力机制显着优于使用传统注意力机制的识别率,且结合了多层与多抽头的注意力模型在识别率方面得到进一步提升。此外,无论是RNN注意力模型还是Transformer语音识别模型,训练优化算法相比普通训练方法以及传统的标签平滑训练方法在识别率方面有显着提升。最终的综合优化实验则在TIMIT、WSJ两个语料库中取得了当前最佳的端到端语音识别结果,在LibriSpeech语料库则取得最佳的RNN注意力模型语音识别结果。4.注意力语音识别模型的可解释性研究。基于注意力机制的模型是端到端语音识别技术中的重要建模方法,然而使用深度学习技术的注意力模型属于一种“黑盒(Black box)”模型,它的中间输出结果与训练过程缺乏足够的透明度与解释性。本文主要针对注意力语音识别模型,针对编码器的输出和训练动态规律展开两方面的解释性研究工作。首先给出一种注意力模型编码器输出的可视化方法,提出了一种基于注意力权重和先验知识的帧级强制对齐方法,结合t分布随机邻近嵌入(t-distributed Stochastic Neighbor Embedding,tSNE)降维算法对编码器的输出实现可视化;其次针对注意力模型的训练规律进行研究,将编码器带标注的t-SNE降维输出通过音素分段的方式进行不同模型之间的典型关联分析(Canonical Correlation Analysis,CCA),从而实现对音素级别的训练动态分析。实验对比了不同设置下模型的编码器可视化图,可视化图所展示的流形形状可以较好的展示出按照标注符号的顺序排列方式,并分析了不同模型输出与可视化图中符号分布的关系。实验进一步揭示了语音识别中不同类别音素在模型训练过程中的收敛性质,总结了收敛性质与相应识别率之间的关系。
肖兆雄[5](2019)在《基于变邻域搜索的音乐生成方法研究》文中指出随着社会的飞速发展,人们对音乐的需求也越来越丰富,音乐的使用场景也在不断的在拓宽。人们不仅仅满足于聆听优美的旋律、享受音乐带给我们的感动,同时也对现代作曲提出了更高的要求。随着计算机的计算能力逐步提升,研究人员希望寻找到一种方法,使其能够协助作曲家完成可重复的部分工作,并降低作曲的门槛,使普通音乐爱好者也能享受作曲这一过程。本文首先研究了音乐生成方法的目的与意义,分析了基于传统方法的音乐生成方法以及基于机器学习的音乐生成方法的国内外研究现状。其次,分析了基于音高显着度的旋律提取与变邻域搜索算法等相关理论基础在音乐生成领域的应用。除此之外,本文针对传统与机器学习音乐生成方法存在的一系列问题完成了如下研究:(1)根据训练样本易获取、紧贴时代的要求,规定预处理前的输入格式为WAV或MP3,随后进行单声道提取与分节。接下来经过离散傅立叶变换后对各帧进行基于音高显着度的旋律提取,初步获得旋律线,同时在时域基于掩蔽效应和等响曲线对能量分块,判断存在音符的帧和存在休止符的帧。映射到音符域后进行对数加权模糊处理,有意使旋律线出现虚假音高,在后续的步骤中锻炼操作者的音感。随后将乐谱表格通过GUI可视化,可根据偏好认为对乐谱进行增删。随后将乐谱输入依据乐理知识设定的训练模型中,获得训练参数矩阵,并可与已训练参数相结合,更新训练数据库。(2)研究了基于变邻域搜索的音乐生成算法。根据本文的音乐生成问题对传统的变邻域搜索算法中的某些步骤进行修改。随后由于大量乐器难以获得,同时系统对乐谱存在着人耳试听的需求,研究了模拟乐音生成算法。对现有的乐器与人声生成模型进行总结和归纳,将参数化乐音模拟算法结构分为激励源和共振腔两部分,并分为弦乐器与体乐器进行简单实现,可为旋律添加乐器,也可反过来指导乐器的结构设计。(3)以读取一段音乐片段为例对训练系统进行测试,基本实现了系统要求,体现了人机交互的思想,证明了二次折叠参数的有效性,验证了系统的便捷性与可行性;并对音乐迭代生成系统进行测试与分析。系统基本满足了本研究对便捷性和灵活性的要求,界面直观,迭代生成流程清晰,测试生成结果也具备一定的艺术性,最后输出的音乐片段较为理想。
范安静[6](2019)在《多维生物医学数据的调控网络构建与分析》文中认为随着高通量技术的不断发展,实验过程中产生了大量的全基因组SNP数据、蛋白质组、表观基因组、转录组及代谢产物组等高维多组学生物医学数据,这些数据具有高维小样本的特点。海量高维多组学生物医学数据为研究和揭示基因与基因及其产物之间的相互作用关系提供了机遇。网络在数据信息挖掘中扮演着重要的角色,基于网络的系统生物学方法已经成为研究生物系统复杂行为的强大工具。本文基于高维多组学生物医学数据,建立模型和提出智能优化算法,分别从大规模的基因调控网络和多层调控网络两个不同的网络层次来研究基因之间的调控机制。因此,本文聚焦基于高维多组学生物医学数据构建调控网络方法的研究及对构建的调控网络分析,主要研究内容包括以下三个方面:1.针对高维时序基因表达数据,提出了一种基于随机奇异值分解推断大规模基因调控网络算法。高维的时序基因表达数据具有维数高、时间点少且带有噪声的特点,为了解决这一问题,提出了一种基于奇异值分解构建大规模基因调控网络算法。首先用常微分方程模型刻画基因之间的调控关系,并将构建基因调控网络的问题转化为一个估计模型参数的优化问题。然后,将时序基因表达数据与高斯矩阵结合,可以对数据噪声进行平滑处理,有利于降低数据的噪声。最后,为了对高维时序基因表达数据进行降维,在提出的算法中引入了一个随机策略。一般来说,基因表达数据中只有少数基因在基因调控网络中起着重要作用。随机策略可以随机选择数据中部分基因来推断基因调控网络,而不是所有的基因数据。与原始的高维数据相比,降维后的数据更容易构建有效的基因调控网络。同时,在构建基因调控网络的时候容易引入过多的假阳性,我们在提出的算法中引入一个迭代策略来提高构建的基因调控网络的精度,降低网络的假阳性。研究表明生物网络通常是非常稀疏的。为了精确有效的评价构建的基因调控网络,提出两个新的网络评价指标-期望精度和期望误差。由于基因调控网络具有较高稀疏性,即基因调控网络中调控边的数量比网络规模要小得多。从而,导致假阳性与假阴性、真阳性与真阴性的数量不在一个数量级上。针对稀疏的基因调控网络,将网络的高稀疏性特征考虑到指标期望精度与期望误差的设定中。数值实验结果表明,相比较用精度和错误率评价生物网络,提出的两个新指标更加具有合理性。为了验证所提出的算法的性能,将提出的算法在Dialogue for Reverse Engineering Assessments and Methods challenge(DREAM)的四个着名的标准数据集上进行测试。实验结果表明,基于高维时序基因表达数据,基于奇异值分解构建大规模基因调控网络算法可以构建高精度,稀疏的基因调控网络。2.针对不同实验设置的呼吸道合胞病毒感染的转录组学数据,结合数据库信息及优化算法构建基因调控网络并识别网络的关键模块。接种预防呼吸道合胞病毒感染疫苗时容易引起疫苗增强性疾病。为了研究疫苗增强性疾病发生的机制,基于不同实验设置的呼吸道合胞病毒转录组学数据,提出一种结合已有数据库的优化算法来构建不同实验条件下的基因调控网络。为了降低实验数据的维度,在构建网络时通过Fold Change和T-test筛选呼吸道合胞病毒数据中有差异表达的基因。研究表明,基因调控网络规模是非常庞大的,无法靠观察和描述的方法来理解。使用模块探测算法Cluster-one识别基因调控网络中的重要模块,对基因调控网络的规模进行约减。每个实验设置下的基因调控网络可以识别多个关键模块,模块中的基因往往参与相同的生物过程或者具有相似的生物功能。在不同的实验条件下,我们不仅需要挑出相似性高的模块,也希望挑出差异性大的模块。为了挑选在不同实验条件或不同时间点差异性大的模块,我们提出一个模块差异性度量指标,即模块网络的差异性度。根据模块网络差异性度可以挑选出不同的实验条件下差异性大的模块。根据网络的差异性度对识别模块进行筛选,对呼吸道合胞病毒感染网络的模块中挑出两个差异性较大的模块。为了研究模块内部生物组分之间的关系,我们利用DAVID生物信息数据库对所识别的两个模块进行生物功能注释。模块中基因的KEGG通路分析和GO功能富集分析的结果显示,模块中的基因大都聚集在免疫相关的生物过程和通路上,这说明挑出的模块与呼吸道合胞病毒免疫增强性相关。3.针对多组学生物医学数据,通过构建多层调控网络来整合多组学数据。高通量技术的不断发展,生物实验过程产生了大量不同类型的组学数据,整合多组学数据构建多层调控网络可以更全面、精确地挖掘基因之间的调控关系。首先,用一组常微分方程模型来描述多层调控网络,并将整合多组学数据构建多层调控网络的问题转化为一个估计模型参数优化问题。其次,基于整合多组学数据,我们提出了一种递归正则化算法来推断多层调控网络。在构建多层调控网络的过程中,由于数据维数问题导致网络中出现假阳性和假阴性的调控关系,而变量之间的间接调控是导致假阳性的主要原因。为了降低多层调控网络的假阳性和假阴性,提出了一种多层调控网络的框架来优化网络。在构建多层调控网络的框架中,为了降低调控关系中的假阴性,我们提出了一种判断变量间调控关系有效性的动态阈值策略。我们将一个变量与其他所有变量间调控关系的四分之一分位数以下的值设置为零,并在递归正则化算法的下一个步骤中只重新估计非零的变量间的调控关系。使用CMI2对变量间的调控关系进行筛选,降低变量间的间接调控所引起的假阳性。我们使用两组仿真数据和两种类型的真实生物数据对递归正则化算法的性能进行评估,并将其与Narromi、HalfThr和CMI2NI等几种常用算法进行了比较。实验结果表明,该方法能有效地整合生物多组学数据来重构多层调控网络。
李荣光[7](2019)在《基于卷积神经网络的音乐信号多乐器识别方法研究》文中进行了进一步梳理随着音乐数据的增长,基于内容的音乐信息检索已经迫在眉睫。在音乐信号中对多种乐器进行分类识别,是音乐信息检索领域的一个重要研究课题。传统的乐器识别工作大多针对单音音乐中的乐器识别和复音音乐中的主要乐器识别。受限于数据集和有效的分类特征,复音音乐中多乐器识别的工作并不多。卷积神经网络在图像识别中得到了突破性的应用,很多工作已经使用卷积神经网络对时频谱图的特征进行提取和学习。同时,最近帧级数据集的发布,也为多乐器识别问题提供了新的思路。本文通过合成数据集来扩展网络模型的可用数据量,从乐器的乐理知识出发提取关键特征,构建了符合认知逻辑的两级分类模型,提出了基于卷积神经网络的音乐信号多乐器识别方法。本文的主要工作如下:(1)调研了众多数据集,并引入了三个具有帧级标签的数据集。受其启发,我们也构建了自建数据集来增加数据规模。我们从专业平台获取了真实世界演奏的原始音频和相应的MIDI数字乐谱,选择基于动态规划的动态时间规整算法来把MIDI乐谱上的标签注释对齐到原始音频上。(2)从乐理知识和信号处理的角度出发,以音高特征和常数Q变换作为网络的输入特征。首先,提取音高特征时,我们使用了人工设置参数的滤波器组来提取音频的初级特征,减少了传统端到端网络的参数量,有效减少过拟合的风险。然后,我们结合十二平均律的乐理知识引入了常数Q变换。在提取音频的常数Q变换矩阵时,先按每个八度进行变换再汇总,减少计算时间。(3)进行特征处理后,提出了三个分类模型并进行分类实验。基准模型通过对比实验,证明音高特征对识别的正相关性,并探究了识别不同乐器时应该关注的谐波数量。基于注意力网络的分类模型,借鉴了人类听觉注意力的特性,提升了主要演奏乐器的识别分数和全部乐器的整体识别精度。两级分类模型分为第一级分类模型和第二级分类模型,第二级分类模型由三个残差网络组成,分别单独训练用来专门识别弦乐、管乐、打击乐,也就是第一级分类模型先进行乐器族的粗分类,在粗分类的基础上第二级分类模型再利用专门的乐器族分类网络进行某种乐器的细分类,最后把分类结果汇总,这种方法识别分数和整体精度最高。
朱熔[8](2019)在《多层图分析技术研究》文中研究指明近年来,越来越多的领域都使用“图”来表示和管理数据,称为“图数据”。针对图数据的分析可以发现其中的结构特征、频繁模式、演变规律等有用的知识,具有重要的科研意义和应用价值。随着研究的深入,人们发现现实世界的图数据往往包含数据对象间多种类型的关系。例如,社交网络数据包括多个社交媒体组成的网络;交通网络数据涵盖了多种交通工具组成的网络。这种图数据称为“多层图”,其每一层包含了数据对象间某种特定类型的关系。多层图分析可以发现准确可靠、价值更高的知识。然而,多层图分析面临两方面的挑战:一方面,单层图上的计算语义在多层图场景下不再适用,多层图上的计算语义更加复杂;另一方面,多层图分析涉及多个图层上的计算任务,使得问题的固有计算复杂性大大增加。现有的多层图分析方法在计算语义和算法设计两个方面都存在缺陷,不能很好的解决多层图分析的有关问题。本文综合运用数据分析的相关理论、技术和方法,对于多层图分析进行了系统研究。本文同时考虑了无概率的普通多层图和带概率的多层图,从图数据的稠密性、可靠性、传播性和相似性四方面重要性质出发,对多层图分析领域中的一系列重要问题进行了深入研究,主要研究成果如下:1.本文研究了多层图上的多样化稠密区域发现问题,该问题在生物蛋白复合体检测和社区发现上具有重要应用。在无概率的普通多层图模型基础上,本文提出了一种新的稠密区域概念d-Coherent-Core(简称d-CC),设计了两种近似比为1/4的高效搜索算法来求解该NP-难问题,算法在结果质量和执行时间两个方面均优于基于准团的传统算法。d-CC概念同时刻画了稠密区域的稠密度和支持度两方面重要特性,满足唯一性、包含性和层次性3个重要数学性质。自底向上和自顶向下两种搜索算法采用了高效的搜索策略和剪枝方法,分别适用于支持度参数较小和较大两种情况。真实数据上的实验结果表明:自底向上和自顶向下两种搜索算法是高效、准确的。2.本文研究了多层图上的top-k可靠顶点搜索问题,该问题在通信网络中具有重要的研究意义,相比基于阈值的搜索问题自适应性更好。本文给出了一种图层带概率的多层图模型,提出了一种新的多层图计算框架——共享计算,其可以有效利用多层图不同图层间的重叠结构以减少搜索代价、提高算法效率。基于此,本文设计了求解top-k可靠顶点搜索问题的共享BFS精确算法和随机算法。真实数据上的实验结果表明:共享BFS精确算法具有很高的效率和扩展性;共享BFS随机算法具有很高的准确率。3.本文研究了多层图上的影响力最大化问题,该问题在病毒式营销和舆情控制中应用广泛。为描述影响力最大化问题中的图数据,本文给出了一种带概率的多层图模型,其可以表示由于边的不确定性而形成的多层图。针对已有算法的缺陷,本文设计了一种能够同时达到高时间效率、高结果质量、低内存开销和高健壮性的影响力最大化算法,具有线性的时间和空间复杂度。该算法采用高质量的分数估计方法和增量式的分数更新方法,在实际社交网络中表现出良好的性能和很高的扩展性。4.本文研究了多层图上SimRank顶点相似性测度问题,该问题是推荐系统、实体识别等众多应用的基础。在带概率的多层图模型基础上,本文严格给出了符合其可能世界语义的SimRank相似性测度定义,设计了高效、准确的计算顶点间SimRank相似性的方法。同时,作为SimRank相似性测度的基础,本文提出了多层图上随机游走的定义,严格证明了这一定义满足马尔可夫性,设计了计算随机游走概率的高效算法。真实数据上的实验结果表明:本文提出的SimRank算法是高效、准确的;本文提出的SimRank测度比传统测度在实际应用中效果更好。
李伟,李子晋,高永伟[9](2018)在《理解数字音乐——音乐信息检索技术综述》文中提出近20年来,音频压缩技术的成熟及互联网的普及使得音乐迅速从磁带和激光唱盘(CD)转变为互联网上以MP3为代表的数字音乐.海量数字音乐带来分类组织、查询检索、内容理解与分析等一系列问题,促使产生了一个新兴的交叉学科,即基于内容的音乐信息检索(Content-based Music Information Retrieval,MIR).本文阐述了MIR与音乐科技、声音与音乐计算、计算机听觉、语音信息处理、音乐声学等各个相关领域概念的区别与联系,将MIR技术的数十个研究领域按照与音乐要素的密切程度划分为核心层与应用层.分类总结了各领域的概念、原理、应用、基本技术框架及典型文献,同时介绍了研究中常用的音乐领域知识并明确了中英文术语.最后总结MIR领域存在的各方面问题,并展望其未来发展趋势.
牛嵩峰,唐炜[10](2018)在《基于人工智能的中文语音文本智能编辑系统设计》文中研究表明广播电台和电视台对新闻采访所获得的音频内容有着巨大的编辑工作量,利用人工智能维特比优化算法、时间戳、MFCC声纹识别、语义识别、语音合成和同音替换技术,设计开发出一种基于AI的中文语音文本同步剪辑系统,能够大幅度提升编辑语言类音频内容效率,提高音频新闻发布的时效性。
二、CD音轨智能编辑转录的数学模型及递归算法(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、CD音轨智能编辑转录的数学模型及递归算法(论文提纲范文)
(1)基于和弦约束的GAN网络的双轨音乐生成(论文提纲范文)
摘要 |
Abstract |
第1 章 引言 |
1.1 音乐旋律生成的研究背景 |
1.2 研究目的及意义 |
1.3 音乐生成技术国内外研究现状 |
1.4 论文的结构安排 |
第2 章 音乐生成中的乐理基础 |
2.1 音乐的表现形式 |
2.1.1 音频 |
2.1.2 乐谱 |
2.1.3 MIDI |
2.1.4 Pianoroll |
2.2 音乐的基本理论 |
2.2.1 音高 |
2.2.2 音程 |
2.2.3 十二平均律 |
2.3 和弦 |
2.4 本章小结 |
第3 章 基于卷积对抗生成网络的音乐生成模型 |
3.1 数据集 |
3.2 模型结构 |
3.2.1 生成式对抗网络 |
3.2.2 基于卷积对抗生成网络的音乐生成模型 |
3.2.3 模型目标 |
3.3 本章小结 |
第4 章 基于和弦约束的GAN网络的双轨音乐生成模型 |
4.1 数据集 |
4.1.1 数据来源 |
4.1.2 数据预处理 |
4.2 模型编译环境 |
4.3 基于乐理规则的音乐生成模型 |
4.3.1 模型目标 |
4.3.2 模型结构 |
4.4 基于和弦特征的GAN网络音乐生成模型 |
4.4.1 模型目标 |
4.4.2 模型结构 |
4.5 基于整体风格的GAN网络音乐生成模型 |
4.5.1 模型目标 |
4.5.2 模型结构 |
4.6 本章小结 |
第5 章 实验结果与分析 |
5.1 实验结果 |
5.2 评估与分析 |
5.2.1 实验评估 |
5.2.2 实验分析 |
5.3 实验总结 |
5.4 本章小结 |
第6 章 总结与展望 |
参考文献 |
附录 |
在读期间的科研成果及获奖情况 |
致谢 |
(2)基于深度学习的器乐分离算法研究(论文提纲范文)
中文摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外相关的研究进展 |
1.3 论文组织结构 |
第2章 音频分离相关理论基础 |
2.1 音频分离种类 |
2.1.1 语音分离 |
2.1.2 声歌分离 |
2.1.3 器乐分离 |
2.2 深度学习技术基本原理 |
2.2.1 神经网络基本原理 |
2.2.2 神经网络的训练 |
2.3 音乐分离深度学习算法 |
2.3.1 用于声歌分离的U-net算法 |
2.3.2 基于时域的wave-u-net算法 |
2.3.3 加入条件机制的C-U-net算法 |
2.4 本章小结 |
第3章 音乐分离数据集及数据分析方法 |
3.1 公共音乐分离数据集 |
3.2 基于竹笛音频的Breath数据集 |
3.2.1 竹笛音乐分离集 |
3.2.2 竹笛技巧分离集 |
3.3 数据分析方法 |
3.3.1 时域特征 |
3.3.2 频域特征 |
3.4 本章小结 |
第4章 RECA-U-net器乐分离模型 |
4.1 器乐分离模型构建基本流程 |
4.2 无损音质假设 |
4.3 使用加权机制融合的U-net模型 |
4.3.1 池化残差模块 |
4.3.2 注意力机制及ECA模块 |
4.3.3 融合模块RECA |
4.3.4 基于融合模块改进的RECA-U-net |
4.4 实验准备 |
4.4.1 数据集预处理 |
4.4.2 特征提取 |
4.4.3 数据增强 |
4.4.4 训练数据构建 |
4.5 分离音乐的质量评估 |
4.6 器乐分离实验评估及分析 |
4.6.1 基于MUSDB18 数据集的实验 |
4.6.2 基于Breath竹笛音乐分离集的实验 |
4.7 本章小结 |
第5章 器乐技巧分离参考模型 |
5.1 参考模型 |
5.1.1 Breath1d模型 |
5.1.2 Breath2d模型 |
5.2 实验评估 |
5.2.1 实验设置 |
5.2.2 实验流程及实验结果 |
5.3 本章小结 |
结论 |
参考文献 |
致谢 |
攻读学位期间发表的学术论文 |
(4)端到端语音识别技术研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 技术发展现状 |
1.2.1 受限训练数据条件下的端到端语音识别的研究现状 |
1.2.2 端到端语音识别模型优化方法的研究现状 |
1.2.3 注意力语音识别模型可解释性研究现状 |
1.3 论文研究思路及主要工作 |
1.3.1 存在的科学问题 |
1.3.2 论文主要工作 |
1.4 论文的结构安排 |
第二章 端到端语音识别基本原理 |
2.1 引言 |
2.2 递归神经网络基础理论 |
2.2.1 基本结构 |
2.2.2 长短时记忆单元(Long Short-Term Memory,LSTM) |
2.2.3 门控递归单元(Gated Recurrent Unit,GRU) |
2.3 端到端语音识别模型算法 |
2.3.1 CTC模型 |
2.3.2 RNN-Transducer模型 |
2.3.3 基于RNN的注意力模型 |
2.3.4 Transformer模型 |
2.4 端到端语音识别实验 |
2.4.1 评价指标 |
2.4.2 实验的软硬件配置 |
2.4.3 实验数据设置 |
2.4.4 CTC模型实验参数设置 |
2.4.5 RNN-T模型实验参数设置 |
2.4.6 基于RNN的注意力模型实验参数设置 |
2.4.7 Transformer模型实验参数设置 |
2.4.8 语言模型参数设置 |
2.4.9 实验结果与分析 |
2.4.10 总结 |
2.5 本章小结 |
第三章 基于迁移学习的端到端语音识别技术 |
3.1 引言 |
3.2 基于迁移学习的语音高层特征提取 |
3.2.1 多语言DNN训练方法 |
3.2.2 基于非负矩阵分解的高层语音特征提取 |
3.3 基于高层语音特征的CTC-注意力联合建模 |
3.3.1 CTC与注意力模型的联合训练 |
3.3.2 联合模型的解码算法 |
3.4 实验与分析 |
3.4.1 实验数据设置 |
3.4.2 基于迁移学习的实验设置与结果分析 |
3.4.3 不同模型参数规模的比较 |
3.4.4 对注意力热图的分析 |
3.5 本章小结 |
第四章 基于主动学习和半监督训练的端到端语音识别技术 |
4.1 引言 |
4.2 通用的ID算法 |
4.3 基于端到端语音识别模型的NID算法 |
4.4 基于NID的主动学习和半监督学习训练算法流程 |
4.4.1 主动学习算法流程 |
4.4.2 半监督学习算法流程 |
4.5 实验与分析 |
4.5.1 基于主动学习的端到端语音识别实验 |
4.5.2 基于半监督训练的端到端语音识别实验 |
4.5.3 不同方法之间的相似性分析 |
4.6 本章小结 |
第五章 端到端语音识别模型的结构优化与训练优化方法 |
5.1 引言 |
5.2 多层多抽头注意力机制的语音识别模型 |
5.2.1 多层注意力机制 |
5.2.2. 基于多层得分计算的多抽头注意力机制 |
5.3 基于评价指标正则化的标签平滑训练算法 |
5.4 实验与分析 |
5.4.1 实验的基本设置 |
5.4.2 基于多层注意力的语音识别实验 |
5.4.3 基于评价指标正则化标签平滑算法的实验 |
5.4.4 结构优化与训练优化的综合实验 |
5.5 本章小结 |
第六章 注意力语音识别模型的可解释性研究 |
6.1 引言 |
6.2 编码器输出表示的可视化方法 |
6.2.1 基于t-SNE的编码器输出数据降维算法 |
6.2.2 引入先验知识的注意力强制对齐方法 |
6.3 基于典型关联分析的音素动态分析方法 |
6.4 实验与分析 |
6.4.1 端到端注意力语音识别模型的实验设置 |
6.4.2 对注意力模型中强制对齐方法的验证 |
6.4.3 对编码器输出的可视化实验 |
6.4.4 音素训练动态分析实验 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 本文工作总结 |
7.2 后期工作展望 |
致谢 |
参考文献 |
作者简历 |
(5)基于变邻域搜索的音乐生成方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究的目的和意义 |
1.2 国内外研究现状 |
1.2.1 传统音乐生成技术在国内外的研究现状 |
1.2.2 机器学习音乐生成技术在国内外的研究现状 |
1.3 本文的主要研究内容和结构安排 |
第2章 音乐相关理论分析 |
2.1 基础乐理与作曲知识 |
2.1.1 基础乐理知识 |
2.1.2 基础作曲知识 |
2.2 音乐的数字存储形式 |
2.3 乐器与人声发声系统 |
2.3.1 乐器结构 |
2.3.2 人的发声系统 |
2.4 人耳听觉系统 |
2.5 本章小结 |
第3章 时域波形旋律提取与训练 |
3.1 时域波形输入及预处理 |
3.2 旋律提取与分块 |
3.2.1 基于音高显着度的频域旋律提取 |
3.2.2 基于掩蔽效应的时域分块 |
3.3 模糊处理及乐谱可视化 |
3.3.1 模糊处理 |
3.3.2 乐谱可视化 |
3.4 训练 |
3.5 系统测试 |
3.6 本章小结 |
第4章 基于变邻域搜索的音乐生成算法 |
4.1 变邻域搜索算法 |
4.2 乐器及人声生成模型 |
4.3 参数化乐音模拟算法及其简单实现 |
4.3.1 声音在自由声场中的衰减 |
4.3.2 弦乐器模拟 |
4.3.3 体乐器模拟 |
4.3.4 为旋律添加乐器 |
4.4 音乐生成系统测试及分析 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(6)多维生物医学数据的调控网络构建与分析(论文提纲范文)
论文创新点 |
摘要 |
ABSTRACT |
1 引言 |
1.1 高维、多组学生物医学数据 |
1.1.1 高维生物数据 |
1.1.2 多组学生物数据 |
1.2 基因调控网络 |
1.2.1 大规模基因调控网络 |
1.2.2 多层调控网络 |
1.2.3 网络的模块 |
1.3 论文的主要研究内容与结构安排 |
1.3.1 论文的主要研究内容 |
1.3.2 论文的结构安排 |
2 基于随机奇异值分解构建大规模的基因调控网络 |
2.1 随机奇异值方法 |
2.1.1 基因调控网络 |
2.1.2 基于奇异值分解的基因调控网络 |
2.1.3 基因随机奇异值分解的大规模基因调控网络 |
2.1.3.1 高维数据的随机奇异值分解 |
2.1.3.2 IGRSVD算法的迭代过程 |
2.2 基因调控网络的评价标准 |
2.2.1 常用的评价标准 |
2.2.2 改进的评价标准 |
2.3 大规模基因调控网络的构建及实验结果评价 |
2.3.1 实验数据 |
2.3.2 基于数据E.coli,IGRSVD算法与常用算法的比较 |
2.3.3 在DREAM数据,IGRSVD算法的结果 |
2.4 本章小结 |
3 基于灭活呼吸道合胞病毒的转录组学数据的网络构建及分析 |
3.1 RSV炎症网络的构建与模块的识别 |
3.1.1 不同实验条件的RSV炎症网络的构建 |
3.1.2 网络的模块识别 |
3.1.3 模块的评价指标 |
3.2 呼吸道合胞病毒实验结果与分析 |
3.2.1 呼吸道合胞病毒数据 |
3.2.2 挑选差异表达基因 |
3.2.3 构建的调控网络和识别的模块 |
3.2.4 模块中基因在不同实验条件下的网络分析 |
3.3 本章小结 |
4 利用递归正则化算法基于整合生物多组学数据构建多层调控网络 |
4.1 构建多层调控网络的递归正则化算法 |
4.1.1 构建多层调控网络 |
4.1.2 递归正则化算法构建多层调控网络 |
4.1.3 优化多层调控网络的框架 |
4.2 多层调控网络的构建及评价 |
4.2.1 模拟数据 |
4.2.1.1 模块化模拟数据 |
4.2.1.2 高稀疏性模拟数据 |
4.2.2 生物数据 |
4.2.2.1 应用于E.coli数据 |
4.2.2.2 应用于ATAC-seq和RNA-seq的表皮分化数据 |
4.3 本章小结 |
5 总结和展望 |
5.1 全文总结 |
5.2 进一步研究工作的展望 |
参考文献 |
攻博期间发表的科研成果目录 |
致谢 |
(7)基于卷积神经网络的音乐信号多乐器识别方法研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.2.1 乐器识别的场景 |
1.2.2 乐器识别的方法 |
1.2.3 乐器识别的时间精度 |
1.3 本文主要工作 |
1.4 本文的组织结构 |
第二章 基础知识介绍 |
2.1 乐器基本知识介绍 |
2.1.1 乐器的音高范围 |
2.1.2 乐器的音色 |
2.1.3 乐器的分类 |
2.1.4 乐器适用的音乐类型 |
2.2 数字音乐的基础知识 |
2.2.1 音频的属性 |
2.2.2 MIDI文件 |
2.3 卷积神经网络的基础知识 |
2.3.1 卷积神经网络简介 |
2.3.2 损失函数 |
2.3.3 网络的优化 |
2.4 帧级数据集 |
2.4.1 Bach10 数据集 |
2.4.2 MedleyDB数据集 |
2.4.3 MIXING SECRETS数据集 |
2.5 本章小结 |
第三章 数据集的构建 |
3.1 引言 |
3.2 乐谱对齐算法 |
3.2.1 隐马尔可夫模型 |
3.2.2 动态时间规整算法 |
3.3 MIDI乐谱对齐原始音频 |
3.3.1 搭建流程 |
3.3.2 对齐结果 |
3.4 本章小结 |
第四章 音高特征与常数Q变换 |
4.1 引言 |
4.2 音高特征 |
4.2.1 多音高检测方法综述 |
4.2.2 构建音高特征提取模型 |
4.2.3 音高特征提取实验及结果分析 |
4.3 常数Q变换 |
4.3.1 十二平均律与常数Q变换 |
4.3.2 常数Q变换的快速计算及其改进 |
4.3.3 计算常数Q变换矩阵 |
4.4 本章小结 |
第五章 基于两级分类模型的乐器识别研究 |
5.1 特征处理 |
5.1.1 音高特征矩阵的处理 |
5.1.2 常数Q变换矩阵的处理 |
5.2 基准模型 |
5.2.1 基准模型的构建 |
5.2.2 实验与分析 |
5.3 基于注意力网络的分类模型 |
5.3.1 基于注意力网络的分类模型的构建 |
5.3.2 实验与分析 |
5.4 两级分类模型 |
5.4.1 两级分类模型的构建 |
5.4.2 实验与分析 |
5.5 实验总结及与现有方法对比 |
5.6 本章小结 |
总结与展望 |
参考文献 |
攻读硕士学位期间取得的研究成果 |
致谢 |
附件 |
(8)多层图分析技术研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景 |
1.2 国内外研究现状分析 |
1.2.1 多层图模型相关工作 |
1.2.2 多层图分析相关工作 |
1.2.3 稠密区域发现相关工作 |
1.2.4 可靠顶点搜索相关工作 |
1.2.5 影响力最大化相关工作 |
1.2.6 顶点相似性测度相关工作 |
1.2.7 现有工作的不足 |
1.3 本文的主要研究内容 |
1.3.1 多层图多样化稠密区域发现问题 |
1.3.2 多层图Top-k可靠顶点搜索问题 |
1.3.3 多层图影响力最大化问题 |
1.3.4 多层图SimRank顶点相似性测度问题 |
1.4 本文的主要研究成果 |
1.5 本文的章节安排 |
第2章 多层图多样化稠密区域发现问题 |
2.1 引言 |
2.2 基础概念和问题定义 |
2.2.1 多层图模型 |
2.2.2 d-core和 d-Coherent-Core |
2.2.3 问题定义 |
2.3 d-CC计算方法 |
2.4 贪心算法 |
2.4.1 算法流程 |
2.4.2 算法局限性 |
2.5 自底向上算法 |
2.5.1 Top-k多样化d-CC更新方法 |
2.5.2 自底向上候选d-CC生成方法 |
2.5.3 整体算法 |
2.6 自顶向下算法 |
2.6.1 自顶向下候选d-CC生成方法 |
2.6.2 可能顶点集收缩方法 |
2.6.3 整体算法 |
2.7 优化算法 |
2.7.1 索引结构 |
2.7.2 d-CC快速计算方法 |
2.7.3 DCCS优化算法 |
2.8 实验结果 |
2.8.1 实验设置 |
2.8.2 DCCS算法执行时间 |
2.8.3 DCCS算法结果质量 |
2.8.4 DCCS算法性能和参数s的关系 |
2.8.5 DCCS算法性能和参数d的关系 |
2.8.6 DCCS算法扩展性 |
2.8.7 DCCS算法性能和预处理方法的关系 |
2.8.8 DCCS算法和跨层准团算法的对比 |
2.9 本章小结 |
第3章 多层图Top-k可靠顶点搜索问题 |
3.1 引言 |
3.2 基础概念和问题定义 |
3.3 基础算法 |
3.4 多层图共享计算框架 |
3.5 共享BFS算法 |
3.5.1 共享BFS精确算法 |
3.5.2 共享BFS随机算法 |
3.6 多源Top-k可靠顶点搜索问题 |
3.6.1 问题定义 |
3.6.2 规约算法 |
3.7 反向Top-k可靠顶点搜索问题 |
3.7.1 第一类反向Top-k可靠顶点搜索问题 |
3.7.2 第二类反向Top-k可靠顶点搜索问题 |
3.8 实验结果 |
3.8.1 实验设置 |
3.8.2 Top-k可靠顶点搜索算法执行时间 |
3.8.3 SimuBFS-Exact算法性能和参数k的关系 |
3.8.4 SimuBFS-Exact算法性能和图层数量的关系 |
3.8.5 SimuBFS-Exact算法性能和源顶点集合大小的关系 |
3.8.6 SimuBFS-Rdm算法结果准确性 |
3.8.7 反Top-k可靠搜索算法性能 |
3.9 本章小结 |
第4章 多层图影响力最大化问题 |
4.1 引言 |
4.2 基础概念和问题定义 |
4.2.1 多层图模型 |
4.2.2 影响力最大化问题 |
4.3 现有影响力最大化算法分析 |
4.3.1 算法分类 |
4.3.2 评价指标 |
4.3.3 正向模拟算法 |
4.3.4 反向采样算法 |
4.3.5 评分估计算法 |
4.3.6 总结和发现 |
4.4 分数估计方法 |
4.4.1 分数估计函数分析 |
4.4.2 分数计算算法 |
4.5 分数更新方法 |
4.5.1 算法概览 |
4.5.2 增量更新方法 |
4.5.3 延迟更新方法 |
4.6 QuickIM算法 |
4.7 实验结果 |
4.7.1 实验准备 |
4.7.2 QuickIM算法性能和参数L的关系 |
4.7.3 延迟更新策略的效果 |
4.7.4 QuickIM算法运行时间 |
4.7.5 QuickIM算法结果质量 |
4.7.6 QuickIM算法内存开销 |
4.7.7 QuickIM算法健壮性 |
4.8 本章小结 |
第5章 多层图SimRank顶点相似性测度问题 |
5.1 引言 |
5.2 基础概念 |
5.2.1 随机游走 |
5.2.2 SimRank顶点相似性 |
5.3 多层图随机游走定义 |
5.4 转移概率计算方法 |
5.4.1 游走概率计算方法 |
5.4.2 WalkPr算法优化策略 |
5.4.3 k-步转移概率计算方法 |
5.4.4 基于采样的k-步转移概率计算方法 |
5.5 多层图SimRank定义 |
5.6 单对顶点SimRank计算方法 |
5.6.1 基础算法 |
5.6.2 采样算法 |
5.6.3 两阶段算法 |
5.6.4 两阶段优化算法 |
5.7 单源Top-k SimRank计算方法 |
5.8 实验结果 |
5.8.1 实验设置 |
5.8.2 不同顶点结构相似性度量比较 |
5.8.3 多层图SimRank收敛性 |
5.8.4 多层图SimRank算法执行时间 |
5.8.5 多层图SimRank算法结果相对误差 |
5.8.6 多层图SimRank算法性能和参数N的关系 |
5.8.7 多层图SimRank算法扩展性 |
5.8.8 多层图单源Top-k SimRank算法实验结果 |
5.9 多层图SimRank应用 |
5.9.1 相似蛋白质发现 |
5.9.2 实体识别 |
5.10 本章小结 |
结论 |
参考文献 |
攻读博士学位期间发表的论文及其他成果 |
致谢 |
个人简历 |
(9)理解数字音乐——音乐信息检索技术综述(论文提纲范文)
1 音乐科技概述 |
2 基于内容的音乐信息检索 |
2.1 音高与旋律 |
2.1.1 音高检测 |
2.1.2 旋律提取 |
2.1.3 音乐识谱 |
2.2 音乐节奏 |
2.2.1 音符起始点检测 |
2.2.2 速度检测 |
2.2.3 节拍跟踪 |
2.2.4 拍子检测、小节线检测及强拍估计 |
2.2.5 节奏型检测 |
2.3 音乐和声 |
2.3.1 和弦识别 |
2.3.2 调高检测 |
2.4 歌声信息处理 |
2.4.1 歌声检测 |
2.4.2 歌声分离 |
2.4.3 歌手识别 |
2.4.4 歌唱评价 |
2.4.5 歌词识别 |
2.5 音乐搜索 |
2.5.1 音乐识别 |
2.5.2 哼唱/歌唱检索 |
2.5.3 音乐版本识别或翻唱识别 |
2.5.4 敲击检索 |
2.5.5 音乐借用 |
2.6 音乐高层语义分析 |
2.6.1 音乐流派/曲风分类 |
2.6.2 作曲家识别 |
2.6.3 智能乐器识别 |
2.6.4 音乐结构分析 |
2.6.5 音乐摘要/缩略图 |
2.6.6 音乐情感识别 |
2.7 其他MIR领域 |
2.7.1 音乐推荐 |
2.7.2 音乐自动标注 |
2.7.3 歌声与歌词同步 |
2.8 与MIR相关的其他音乐科技领域 |
2.8.1 自动/算法/AI作曲 |
2.8.2 歌声合成 |
2.8.3 听觉与视觉的结合 |
2.8.4 音频信息安全 |
2.8.4. 1 音频版权保护 |
2.8.4. 2 音频认证 |
3 总结与展望 |
(10)基于人工智能的中文语音文本智能编辑系统设计(论文提纲范文)
0引言 |
1语言类音频内容的采集和编辑现状 |
2应用场景和设计目标 |
2.1音频文本同步编辑的核心——“时间戳”的建立 |
2.2可能的应用场景和本系统需要实现的目标 |
2.2.1删减部分内容和词语 |
2.2.2修改或修正部分词语 |
3高级人工智能算法的应用和实践 |
3.1维特比算法简介 |
3.2同音替换方法——维特比算法的应用 |
3.3传统语音合成流程 |
3.4改进的单位选择语音转换新方法 |
3.5进一步改进后的范围选择算法及其应用 |
3.5.1范围选择算法 |
3.5.2范围选择算法的优势 |
3.5.3基于AI的中文语音文本智能编辑系统的设计和具体应用实际效果 |
4设计中文音频文本同步编辑系统的现实意义与伦理问题 |
4.1基于AI的中文语音文本同步编辑系统的现实意义 |
4.2中文音频文本同步编辑系统的应用领域和伦理问题 |
四、CD音轨智能编辑转录的数学模型及递归算法(论文参考文献)
- [1]基于和弦约束的GAN网络的双轨音乐生成[D]. 武堂颖. 西北民族大学, 2021(08)
- [2]基于深度学习的器乐分离算法研究[D]. 郭毓博. 黑龙江大学, 2021(09)
- [3]教育部关于印发普通高中课程方案和语文等学科课程标准(2017年版2020年修订)的通知[J]. 教育部. 中华人民共和国教育部公报, 2020(06)
- [4]端到端语音识别技术研究[D]. 秦楚雄. 战略支援部队信息工程大学, 2020(01)
- [5]基于变邻域搜索的音乐生成方法研究[D]. 肖兆雄. 哈尔滨工业大学, 2019(02)
- [6]多维生物医学数据的调控网络构建与分析[D]. 范安静. 武汉大学, 2019(08)
- [7]基于卷积神经网络的音乐信号多乐器识别方法研究[D]. 李荣光. 华南理工大学, 2019(01)
- [8]多层图分析技术研究[D]. 朱熔. 哈尔滨工业大学, 2019(01)
- [9]理解数字音乐——音乐信息检索技术综述[J]. 李伟,李子晋,高永伟. 复旦学报(自然科学版), 2018(03)
- [10]基于人工智能的中文语音文本智能编辑系统设计[J]. 牛嵩峰,唐炜. 广播与电视技术, 2018(04)