中自网

热门搜索:PID  plc  传感器  电机  变频器  工业以太网  无线通讯  低压 

当前位置:首页>>应用案例首页>>专业论文>>正文

基于人工智能的机器人音乐类型识别

发布日期:2021-01-22   来源:《变频器世界》20-10期   作者:乔元健   浏览次数:14076
分享到:
【摘   要】:音频与我们生活密切相关,我们的大脑不断处理和理解音频数据,并为我们提供有关环境的信息。为实现机器人对音乐类型的智能识别,设计了基于人工智能的机器人音乐类型识别,首先,基于摇滚、爵士、吹奏和管弦四类音乐建立数据集,并将预处理后的数据集分为训练集和测试集;然后设计了BP深度学习模型,并选择合适的优化器、设置学习率以及迭代周期等相关的网络模型参数,借助深度学习网络模型对数据进行训练。仿真实验表明,相比于机器学习模型,BP深度学习模型音乐类型识别准确率达到了91.7%。


 

 

关键词:人工智能;深度学习模型;优化器;准确率

Abstract: Audio is closely related to our life, our brains constantly process and understand audio data and provide us with information about the environment. In order to realize the robot's intelligent recognition of music types, a robot music type recognition based on artificial intelligence is designed. First, a data set is established based on four types of music, rock, jazz, wind and orchestra, and the preprocessed data set is divided into training sets And the test set; then design the BP deep learning model, and select the appropriate optimizer, set the learning rate and iteration period and other related network model parameters, and use the deep learning network model to train the data. Simulation experiments show that, compared with the machine learning model, the BP deep learning model music type recognition accuracy rate reaches 91.7%.

Key words: Artificial intelligence; Deep learning model; Optimizer; Accuracy rate

 中图分类号: TP391  文献标识码A    文章编号:1002-1841(2017)00-0000-00

 


1  引言

机器人音乐类型识别是神经网络发展的研究方向之一。神经网络是一个新出现的跨学科领域,是人类信息研究的一个重要组成部分,现已成为大脑科学、神经科学、认知科学、心理学和计算机科学的一个组成部分。数学与数学物理普遍关注的问题[1]。神经网络是模仿人神经网络的一种结构,也是建立一种处理计算机模型的特定行动机制。在过去20年中,制定了有效的治疗和声音识别方法和方案,对音频信号进行了分类研究,并使用了许多音频信号分类系统[2]。一个像听电脑这样的梦想在今后十年里向前迈进了一步。将在各个领域引进语音信号分类技术(接入控制系统、移动电话自动编号系统、工业、消费电子、电信、汽车电子、医疗服务等),家庭服务和消费电子服务是一个针对特定人群的语音信号分类系统,一个针对非特定人群的语音信号分类系统,以及一个单独语言的语音信号分类系统。可被分类为对特殊人群的语音信号进行连续分类的系统和四个非特定语音信号分类系统[3]

2  深度学习算法

BP神经网络学习过程,误差反向格式化误差反向格式化算法,具有两个过程:格式化信息正向和误差反向再现。每个传入神经元负责接收来自外部的传入信息,并在中间产品。中间层是内部计算机层,根据信息变化功能的需要,接口处理从单个隐藏层或多个隐藏层(从处理的最后一层到初始层中的每个神经元)传输的信息,然后终止学习过程,而这个问题补充了行动,输送到外界[4]

反向传播算法也称为BP算法。该算法也称为BP模型,因为它基本上是用于神经网络学习的数学模型。 由于BP算法是用来解决多层前向神经网络加权系数优化问题的,因此BP算法是指通常:拓扑对于无反馈的神经网络多层前馈网络[5]。因此,无反馈的多层前馈网络也是BP模型的感知器,感知器学习算法是一种网络旋转算法。多层网络只能改变网络的端权因子,这就是为什么不能用Perzeptron学习算法进行神经网络训练的原因。1986年的Rumpelstiltskin击退乘法学习算法或BP(反向乘法)这里。算法适合于形成多层网络,因为它改变了每层网络的加权系数[6]BP算法是神经网络学习中最常用的算法之一。图1表示一个典型的层BP网络的拓扑结构。BP网络学习的主要特点是把网络学习的过程分为正向传播输出过程以及反向传播调整过程这两部分[7]。正向学习传播过程中,输入信号从输入层输入后,经隐含层的逐层传输处理,最终经输出层输出,每一层神经元的状态只受上一层神经元的影响。如果在输出层的输出与期望值差距过多,则输出信号将把误差按着原来的传播通路反向传播回去,直到输入层。通过沿途每步修改各隐含层神经元间的连接权值,将输出误差逐步达到最小。

 

1  BP神经网络的拓扑结构

3  基于深度学习的音乐类型识别

音乐信号分类的神经网络设计原理:

1)确定语言表达:语言信号被提取为一种确定的数据类型,它反映了语言允许在神经网络中使用。

2)选择网络模型:它包括激活功能、连接方法和不同神经元之间的相互作用,它对原神经网络进行了变换,在一般模型的基础上,针对具体的语言功能,提出了几种新的组合网络模型结构。

3)网络参数选择:确定输入输出神经元的数目、多层网络的层数和隐藏神经元的数目。

4)选择学习和训练算法:确定网络的学习规则,改进学习规则,结合具体的训练算法,研究初始化问题。

2  基于深度学习的音乐类型识别流程 

4  仿真实验

BP神经网络的训练和测试使用参数设置如表1所示。




音乐信号的识别采用BP神经网络模型。应用美国MathWorks公司出品的数学软件Matlab2019a中BP神经网络工进行模型建立及分析。初始化网络:选择min-max法在区间[0-1]中缩放数据。配置输入层,输出层,隐藏层。利用输入模式由输入层经中间层计算出输出层的实际输出;利用误差逆传播即由输出层经中间层传向输入层进行误差校正;确定输入向量和期望输出。判断期望值和实际值的偏差,对每种组合分别进行训练和测试,调整权参数。在误差不再下降达到平衡时,筛选出最佳组合,建立模型。模型训练过程如图3所示。

 

3  模型训练过程

从图3中可以看出,随着迭代次数的逐渐增加,网络的最小均方误差值逐渐减小,在迭代周期大于300时,网络的损失函数值趋于稳定,并且保持在小于10-8的误差范围内。

 

4 BP神经网络的分类误差

4展示了BP神经网络的分类误差。为了便于分析,统计了训练集与测试集的模型混淆矩阵:

1)第一类信号(摇滚):130个第一类信号数据中,被正确预测到了123个,错误判断为第二类、第三类、第四类信号的数量分别为0、7、0,准确率为123/(123+0+7+0)= 0.9462。

2)第二类信号(爵士):128个第二类信号数据中,被正确预测到了127个,错误判断为第一类、第三类、第四类信号的数量分别为0、0、1,准确率为127/(0+127+0+1)= 0.9922。

3)第三类信号(吹奏):125个第三类信号数据中,被正确预测到了101个,错误判断为第一类、第二类、第四类信号的数量分别为24、0、0,准确率为101/(67+0+58+0)= 0.808。

4)第四类信号(管弦):17个第四类信号数据中,被正确预测到了10个,错误判断为第一类、第二类、第三类信号的数量分别为2、4、1,准确率为10/(2+4+1+10)= 0.9402。

因此,对训练集预测的整体准确率为(123+127+101+10)/(130+128+125+17)=0.917。综上所述,BP神经网络模型的准确率为0.917,表明基于深度学习的音乐信号识别具有可行性和有效性。从BP神经网络分类结果可以看出,基于BP神经网络的语音信号分类算法具有较高的准确性,能够准确识别出语音信号所属类别。

 

5  结束语

为提高机器人音乐类型识别性能,设计了基于BP卷积神经网络的音乐类型识别模型,首先,在网上下载数据集,对数据集中的数据进行预处理,比如滤波、去噪、归一化等。然后设计基于深度学习的语音信号分类模型,模型主要包括网络模型训练以及测试环节。将测试数据输入到训练好的得到语音信号分类器中实现对语音信号的分类。仿真实验表明,所设计的音乐类型识别模型效率更高,优于现有的音乐类型识别模型。

 

参考文献:

[1]邓丽君,王涛. 基于阈值的英语语音自动识别系统研究[J]. 微型电脑应用,2020,36(08):48-50.

[2]赵康. 改进SVM结合决策树的情感语音识别[J]. 信息技术,2020,44(08):17-22.

[3]韩丽丽,潘炜,刘丰威. 基于人工智能语音识别客服稽查应用前景[J]. 电子测试,2020(15):118-119+95.

[4]陈后全. 一种基于MATLAB的智能语音识别系统设计[J]. 科学技术创新,2020(21):74-75.

[5]孙全宝.基于语音识别的智能家居系统设计[J]. 物联网技术,2020,10(07):105-106+110.

[6]唐海桃,薛嘉宾,韩纪庆. 一种多尺度前向注意力模型的语音识别方法[J]. 电子学报,2020,48(07):1255-1260.

[7]李田港,叶硕,叶光明,褚钰.基于集成学习的语音情感识别算法研究[J]. 计算机技术与发展,2020,30(06):82-86.

 

作者简介:

乔元健(1996— ) 男 工学硕士 研究方向:工业测控网络技术

 基金项目:
   山东省高等学校科技发展计划J14LN04

 
 
[ 应用案例搜索 ]  [ ]  [ 告诉好友 ]  [ 打印本文 ]  [ 关闭窗口 ]  [ 返回顶部 ]

0条 [查看全部]  网友评论