（BP进阶1）从M-P模型到BP神经网络_数字化

经过两天的研究，终于更加清晰地搞明白了所谓BP，做此记录。

M-P模型，其实就是按照生物神经元的结构和工作原理来构造出来的比较简单的模型。下图为M-P模型的示意图：

具体的推论详见 http://blogcsdnnet/u013007900/article/details/50066315

抛去繁重的公式，我们可以把这个模型理解为：

要想下一个神经元接收到信息，那么接收到的信号一定要大于某一个阙值θ才能由输出信号yj输出，该阙值由具体的神经元决定；也就是说，输入的信号总和在经过神经元后失去了阙值θ的信号以后，转化为输出信号输出。

我们假每一个输出信号x都输入一定的神经元Wij，那么该神经元共接收到的输入信号即为

这个公式不难理解，于是在神经元中失去了阙值量θ后：

经过信号转化（激活函数f(x)的作用）为输出信号：

然而神经元突触的信号类型又分为兴奋和抑制两种状态，于是，在M-P模型中，这种性质体现为权值w的正负，如果权值是负，那么输出y值就也为负，体现为抑制状态；如果权值是正，那么输出y值就也为正，体现为兴奋状态。

这种“阈值加权和”的神经元模型称为M-P模型 ( McCulloch-Pitts Model )，也称为神经网络的一个处理单元( PE, Processing Element )。

常用的激活函数有五种：

线性激活函数：

非线性激活函数：

在进行BP神经网络进行训练的时候，我们常用的函数是S形函数。

简单来说，感知器就是一个简单的神经网络模型，以下是感知器的拓扑结构图：

而oi表现形式为两种，1和-1，来表示兴奋和抑制。

因此，单层感知器的作用为可以使用一条直线来对输入数据进行线性分类，如果仍旧不太明白的话，可以从公式入手来进行分析：

所以可以得知，这是一个关于x1，x2的线性函数，而在图1中用于分类的红色直线，则是与函数w1j x1+w2j x2-θj=0成线性关系的函数。

到此，我们已经讲解了单层感知器的实现分类原理，引入多层分类器的原因在于，单层感知器的局限性只能区分二维平面中的线性函数，而对于多维平面，或着非线性函数来说，则无法实现分类。

可以看出，在加入了隐层以后输入层的数据不再直接经过简单的权值激活运算就直接进入输出层，而是在多层的隐层经过复杂计算后，再输入层输出，这样的计算方法，可以保证输出的o和输入信号x1，x2，不再是简单的线性关系，而其中的计算也将会随着隐层的增加而无限度地复杂化。

我们可以比较一下单层感知器和多层感知器的分类能力：

由上图可以看出，随着隐层层数的增多，凸域将可以形成任意的形状，因此可以解决任何复杂的分类问题。实际上，Kolmogorov理论指出：双隐层感知器就足以解决任何复杂的分类问题。

异或问题的解决：

在M-P模型中，我们得知，为了实现有效的分类，需要加入一定数量的隐层来加强算法的复杂性，而在隐层内部的计算我们是无法得知的，因此，我们需要进行神经网络的训练。

这样说可能有点突兀，我们不妨这样想，我们已知的是一组数据和它们相对应的分类状况，求解的是如何可以用同类的数据来得到正确的分类。

或者这样说，我们已知:

x1=2,x2=3时，y=5，x1=4,x2=5时，y=9，那么，求解x1=8,x2=0时，y的值，这样是不是好理解很多？

总之，我们需要的是一个可以满足当前条件的“公式”，让它可以计算出更多的数据，这在我们的小学数学里叫做解算式，在这里就可以叫做训练。

我们需要知道这些数据在隐层里是经过怎样的计算，才得到了输出结果，于是，我们需要先进性数据的训练，然后再根据现有未知结果的数据套进去，得到预期结果。

而我们在这里，得出的所谓隐层结构的计算，就是需要训练出的“公式”。

具体的BP训练方式下次更新。

拟合

他们都是拟合，先说下拟合的定义：

形象的说，拟合就是把平面上一系列的点，用一条光滑的曲线连接起来。因为这条曲线有无数种可能，从而有各种拟合方法。拟合的曲线一般可以用函数表示，根据这个函数的不同有不同的拟合名字。

1 线性回归

回归分析常用于分析两个变量X和Y 之间的关系。比如 X＝房子大小和 Y＝房价之间的关系， X=(公园人流量，公园门票票价）与 Y=(公园收入) 之间的关系等等。

那么你的数据点在图上可以这么看

现在你想找到房子大小和房价的关系，也就是一个函数f(x) = y 能够很好的表示这两个变量之间的关系。

于是你需要大概评估一下这个房子大小和房价大概是一个什么关系

是线性的关系吗还是非线性的关系

当然在这个问题里面，线性的关系更符合这两者的关系。于是我们选择一个合适的线性模型, 最常用的是 f(x) = ax+b

然后用这个线性的模型去匹配这些数据点。

11 怎么匹配

有了数据点和你臆想出来的线性模型，怎么进行匹配，也就是怎么用这根线最好地描述些数据点的关系

需要最好地描述点, 我们又需要一个关于“好”的定义。你也可以想出很多关于“好”的定义。下面有两个,

这两个定义都是将模型与数据点之间的距离差之和做为衡量匹配好坏的标准。误差越小, 匹配程度越大。

但是总的来说，我们想要找到的模型，最后是想要使 f(x) 最大程度地与y相似，所以我们想要尽量地减少 f(x)与y之间的差值。所以在这里用第二个图的“好的定义” 来评估这根线的匹配程度是很合理的。于是我们有了误差公式!!!!!

这个公式，说的是，可以通过调整不同的a 和 b的值，就能使误差不断变化，而当你找到这个公式的最小值时，你就能得到最好的a,b 而这对(a,b)就是能最好描述你数据关系的模型参数。

111 沿导数下降法(Gradient Descent)

怎么找 cost(a,b)的最小 cost(a,b) 的图像其实像一个碗一样，有一个最低点。找这个最低点的办法就是，先随便找一个点(eg a=3, b = 2), 然后沿着这个碗下降的方向找，最后就能找到碗的最低点。

cost(a,b) 的形状

怎么找(某一点)碗下降的方向答案是，找那一点导数的反方向。拿参数a 举个例子, a与cost 关系如下图,

只要将任意一个a, 沿着使cost 导数的反方向慢慢移动，那么最终有一天a值就会到达使 cost 最小的那一点于是你可以不断地移动a,b, 向着最低点前进。

当然在进行移动的时候也需要考虑，每次移动的速度，也就是\Alpha的值，这个值也叫做（学习率）学习率的增大可以加速参数逼近最优的情况，但是如果在快要到达函数的底端的时候，需要减小学习率，以免出现cost 不断增大或者不停摆动的情况(如下图, J(a,b)就是cost(a,b) )。所以说，当出现以上两种情况时候，我们应该果断选取一个较小的学习率，以保证cost能减少到一个稳定的值(我们称为收敛converge)

112 直接求解最小点方法

这时候，有的人会问，为什么要让a不停地往下跑呢？而且还需要设定学习率，多麻烦，直接让找导数为0点(最小极值)，不就可以了吗嗯。。。也可以但是各有优缺，

具体方法和优劣分析可见Rachel-Zhang 的博客: http://blogcsdnnet/abcjennifer/article/details/7700772

总结一下：回归问题的解决方法是:

1 假定一个模型 2 定义什么叫做最好的匹配(构造误差函数) 3 用这个模型去匹配已有的数据点(训练集)

需要进一步讨论的问题:

如果参数(a,b)更多了该怎么办

如果最合适的匹配模型并不是线性的怎么办－－－选用一个非线性模型比如 y = ax^2 + bx + c

如果误差(cost)与a,b（模型参数）的关系不是像碗一样的, 而是凹凸不平的该怎么办 ------ 这时候你就得注意你得到的cost的最低点(局部的最低)可能因初始点的不同而不同。而这些最低点你需要进行比较，以确定是不是全局的最低

2分类(Logistic regression)

分类问题也是一类很常见的问题。比如说，怎么判定一个人是高富帅还是吊丝假如我是中央电视台的记者，采访了N个人, 拿到了第一手资料。资料如下

我们想要根据一个人的口袋钱数量，来预测一个人是(富帅) 还是（吊丝）我们能不能用回归的方法做呢显然是可以的，我们只要找到一个模型，然后再进行匹配就可以了。

但是因为分类问题的y值常常是一些离散的数字，(比如，富帅为1, 吊丝为0)，所以我们已经不能用一个简单的线性函数来拟合这些数据了。我们需要一个更逼真的模型。

于是我们引入了一个更适合处理分类问题的函数--- 一个非线性函数，阶跃函数。

这个函数的形状更像我们分类问题的数据分布，所以，用他来拟合分类问题的数据将更适合！

所以我们有了一个新的模型,

通过调整a,b 的值，可以让模型不断改变以匹配数据点。为了匹配数据点，我们又需要一个衡量匹配程度的函数，就像回归问题一样的cost 函数于是同理我们可以得到cost

于是我们急切地想要把它用我们之前的gradient descent 的方法求解出使cost 最小的两个a,b值。但是很遗憾的是，这个cost函数关于a,b,是非凸(non-convex)的。就像下面那张图那样坑坑洼洼。。。

所以你没有办法通过以上两种方法(111和112)求出这个cost函数的全局最小值。

所以你需要构造一个更好的cost函数，在可以衡量拟合程度的同时又是一个关于a,b 的凸函数(像回归问题的cost一样，和一个碗一样，只有一个极小值)

这怎么构造啊

幸好我们还有各种伟大的数学家，他们夜以继日，终于赶制出了一个形状和碗一样(convex)的cost函数 (Maximum Likelihoods Estimation 更具体的介绍请看 http://wwwholehouseorg/mlclass/06_Logistic_Regressionhtml )

现在我们又可以用我们熟悉的导数方向下降法(gradient descent) 移动a, b的值，使cost 降低到最小。

最后，分类的问题就这样被解决了。

当然，更复杂的问题可能有:

现在是分成两类，如果数据需要分成三类或者更多该怎么办 ---- 假如有A,B,C三类，把其中A类做为1，BC做为0,然后做Logistic regression, 得到模型a, 同理将B类做为1,AC作为0,得到模型b, 再同理得到模型c 最后测试的时候，对任意一个数据点x, 我们能够得到x分别属于A,B,C三类的概率值

最后比较大小，哪个大，这个x就属于哪一类

具体可看, http://blogcsdnnet/abcjennifer/article/details/7716281 (七)

3总结(两个问题的区别)

这篇文章大概的意图是能想让大家了解，机器学习中最基本的两类问题，线性回归和分类。能让大家有个清晰的思想，对于这两类问题都有以下几个步骤,

如何选取一个合理的模型(线性的，or 非线性的(eg 阶跃函数，高斯函数))

制造一个"美好"的误差函数 (可以评估拟合程度，而且还是convex函数)

采取一切可能的技术(eg 导数下降法，解极值方程法) 求出最好的模型参数

谈谈回归和分类的区别：

其实回归问题和分类问题的本质一样，都是针对一个输入做出一个输出预测，其区别在于输出变量的类型。

分类问题是指，给定一个新的模式，根据训练集推断它所对应的类别（如：+1，-1），是一种定性输出，也叫离散变量预测；

回归问题是指，给定一个新的模式，根据训练集推断它所对应的输出值（实数）是多少，是一种定量输出，也叫连续变量预测。

举个例子：预测明天的气温是多少度，这是一个回归任务；预测明天是阴、晴还是雨，就是一个分类任务。

文章知识点与官方知识档案匹配

算法技能树首页概览

31211 人正在系统学习中

点击阅读全文

打开CSDN，阅读体验更佳

PyTorch-RNN循环神经网络实现分类-回归_Coding路人王的博客

循环神经网络(Recurrent Neural Network, RNN)是一类以序列(sequence)数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network) 对循环神经网络的研究始于二十世纪80-90年代,

分类与回归及网络搭建+神经网络简介(学习记录与分享)

1神经网络是函数有人可能会认为神经网络是池化层,全连接层,激活函数等等元素构成。但学长告诉我们,神经网络本质就是函数。所以下次可以在不懂的朋友面前装一手,问他什么是神经网络啊,你可以告诉他,神经网络就是函数(doge) 2介绍一

BP神经网络用于分类和回归

matlab 编写的BP神经网络，用于分类和回归

机器学习基础分类任务和回归任务的区别与联系

分类任务和回归任务的区别在于需要预测的值的类型：回归任务，是对连续值进行预测（比如多少）；分类任务，是对离散值进行预测（比如是不是，属不属于，或者属于哪一类）。打个比方，预测明天的气温是多少度，这是一个回归任务；预测明天会不会下雨，就是一个分类任务。

继续访问

多分类神经网络:Softmax回归_L_bloomer的博客_神经网络

1逻辑回归是一个单层神经网络,计算非常快速,在使用OvR和MvM这样需要同时建立多个模型的方法时,运算速度不会成为太大的问题。但真实使用的神经网络往往是一个庞大的算法,建立一个模型就会耗费很多时间,因此必须建立很多个模型来求解的

神经网络-回归(Python)_li_rshan的博客

回归与神经网络简介回归分析回归分析(regression analysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法。回归分析的作用是: ①从一组数据出发确定某些变量之间的定量关系式 ②对变量间这些关系式进行统计检验。并从

最新发布深度学习——分类和回归问题联系与区别

深度学习——分类和回归问题联系与区别

继续访问

人工神经网络的分类包括,人工神经网络的分类有

从20世纪80年代末期，人工神经网络方法开始应用于遥感图像的自动分类。目前，在遥感图像的自动分类方面，应用和研究比较多的人工神经网络方法主要有以下几种：人脑计算机对接技术项目名称：小发猫（1）BP（Back Propagation）神经网络，这是一种应用较广泛的前馈式网络，属于有监督分类算法，它将先验知识融于网络学习之中，加以最大限度地利用，适应性好，在类别数少的情况下能够得到相当高的精度，但是其网络的学习主要采用误差修正算法，识别对象种类多时，随着网络规模的扩大，需要的计算过程较长，收敛缓慢而不稳定，且

继续访问

(二)神经网络入门之Logistic回归(分类问题)_coderpai的博客

这篇教程是翻译Peter Roelants写的神经网络教程,作者已经授权翻译,这是原文。该教程将介绍如何入门神经网络,一共包含五部分。你可以在以下链接找到完整内容。 Logistic回归(分类问题) 这部分教程将介绍一部分:

组合分类和回归的神经网络模型_Together_CZ的博客_回归网络

我们可以将数据用作开发单独的回归和分类多层感知器(MLP)神经网络模型的基础。注意:我们并未尝试为此数据集开发最佳模型; 相反,我们正在展示一种特定的技术:开发可以进行回归和分类预测的模型。

Tensorflow学习二：神经网络用于分类和回归的损失函数

引言：对于二分类问题，一般会将预测结果经过一个非线性变换缩小到0到1之间，并设置一个阀值，比如05，小于05便是0，大于05便是1。但是这种做法对于多分类是不适用的。交叉熵：通过神经网络解决多分类的方法是设置n个输出节点，n代表类别数。对于每一个样例，神经网络会得到一个n维数组做为输出结果。数组中的每一个维度代表对应的类别。理想情况下，如果一个样本属于k,那么这个类

继续访问

人工神经网络模型与分类

1 人工神经网络的分类按性能分：连续型和离散型网络，或确定型和随机型网络。按拓扑结构分：前向网络和反馈网络。前向网络有自适应线性神经网络(AdaptiveLinear，简称Adaline)、单层感知器、多层感知器、BP等。前向网络，网络中各个神经元接受前一级的输入，并输出到下一级，网络中没有反馈，可以用一个有向无环路图表示。这种网络实现信号从输入空间

继续访问

深度学习---卷积神经网络解决分类与回归问题_wowMJX的博客

(1)分类:经过一系列的卷积层和池化层之后,再经过全连接层得到样本属于每个类的得分(概率值),用softmax对其进行分类。 (2)回归:定位,用一个矩形框来框住要识别的物体。 ①回归:输入数据通过神经网络不断的拟合数据得到x,y,w,h,通

机器学习 --- 1 线性回归与分类, 解决与区别

机器学习可以解决很多问题，其中最为重要的两个是回归与分类。这两个问题怎么解决，它们之间又有什么区别呢？以下举几个简单的例子，以给大家一个概念 1 线性回归回归分析常用于分析两个变量X和Y 之间的关系。比如 X＝房子大小和 Y＝房价之间的关系， X=(公园人流量，公园门票票价）与 Y=(公园收入) 之间的关系等等。那么你的数据点在图上可以这么看现在你想找到房

继续访问

线性模型小结：还分不清线性回归和线性分类模型？

线性模型0 写在前面1 线性模型2 用于回归和分类回归问题分类问题3 分类任务的几个问题31 如何解决非线性的分类问题32 如何解决多分类问题：三种解决 0 写在前面今天对线性模型做一个总结，围绕以下两个点理一理思路：判别函数 - 决策函数；线性模型 - 线性模型各类拓展具体沿着以下几个问题展开： 1 生成方法与判别方法 2 判别函数与决策函数 3 线性模型 4 广义

人工智能技术是当前炙手可热的话题，而基于神经网络的深度学习技术更是热点中的热点。去年谷歌的Alpha Go 以4:1大比分的优势战胜韩国的李世石九段，展现了深度学习的强大威力，后续强化版的Alpha Master和无师自通的Alpha Zero更是在表现上完全碾压前者。不论你怎么看，以深度学习为代表的人工智能技术正在塑造未来。

下图为英伟达（NVIDIA）公司近年来的股价情况，该公司的主要产品是“图形处理器”（GPU），而GPU被证明能大大加快神经网络的训练速度，是深度学习必不可少的计算组件。英伟达公司近年来股价的飞涨足以证明当前深度学习的井喷之势。

好，话不多说，下面简要介绍神经网络的基本原理、发展脉络和优势。

神经网络是一种人类由于受到生物神经细胞结构启发而研究出的一种算法体系，是机器学习算法大类中的一种。首先让我们来看人脑神经元细胞：

一个神经元通常具有多个树突，主要用来接受传入信息，而轴突只有一条，轴突尾端有许多轴突末梢，可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接，从而传递信号。

下图是一个经典的神经网络（Artificial Neural Network,ANN）：

乍一看跟传统互联网的拓扑图有点类似，这也是称其为网络的原因，不同的是节点之间通过有向线段连接，并且节点被分成三层。我们称图中的圆圈为神经元，左边三个神经元组成的一列为输入层，中间神经元列为隐藏层,右边神经元列为输出层，神经元之间的箭头为权重。

神经元是计算单元，相当于神经元细胞的细胞核，利用输入的数据进行计算，然后输出，一般由一个线性计算部分和一个非线性计算部分组成；输入层和输出层实现数据的输入输出，相当于细胞的树突和轴突末梢；隐藏层指既不是输入也不是输出的神经元层，一个神经网络可以有很多个隐藏层。

神经网络的关键不是圆圈代表的神经元，而是每条连接线对应的权重。每条连接线对应一个权重，也就是一个参数。权重具体的值需要通过神经网络的训练才能获得。我们实际生活中的学习体现在大脑中就是一系列神经网络回路的建立与强化，多次重复的学习能让回路变得更加粗壮，使得信号的传递速度加快，最后对外表现为“深刻”的记忆。人工神经网络的训练也借鉴于此，如果某种映射关系出现很多次，那么在训练过程中就相应调高其权重。

1943年，心理学家McCulloch和数学家Pitts参考了生物神经元的结构，发表了抽象的神经元模型MP：

符号化后的模型如下：

Sum函数计算各权重与输入乘积的线性组合，是神经元中的线性计算部分，而sgn是取符号函数，当输入大于0时，输出1，反之输出0，是神经元中的非线性部分。向量化后的公式为z=sgn(w^T a)（w^T=(w_1,w_2,w_3)，a=〖(a_1,a_2,a_3)〗^T）。

但是，MP模型中，权重的值都是预先设置的，因此不能学习。该模型虽然简单，并且作用有限，但已经建立了神经网络大厦的地基

1958年，计算科学家Rosenblatt提出了由两层神经元组成(一个输入层，一个输出层)的神经网络。他给它起了一个名字–“感知器”（Perceptron）

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程，在当时引起了轰动，掀起了第一波神经网络的研究热潮。

但感知器只能做简单的线性分类任务。1969年，人工智能领域的巨擘Minsky指出这点，并同时指出感知器对XOR（异或，即两个输入相同时输出0，不同时输出1）这样的简单逻辑都无法解决。所以，明斯基认为神经网络是没有价值的。

随后，神经网络的研究进入低谷，又称 AI Winter 。

Minsky说过单层神经网络无法解决异或问题，但是当增加一个计算层以后，两层神经网络不仅可以解决异或问题，而且具有非常好的非线性分类效果。

下图为两层神经网络（输入层一般不算在内）：

上图中，输出层的输入是上一层的输出。

向量化后的公式为：

注意：

每个神经元节点默认都有偏置变量b，加上偏置变量后的计算公式为：

同时，两层神经网络不再使用sgn函数作为激励函数，而采用平滑的sigmoid函数：

σ(z)=1/(1+e^(-z) )

其图像如下：

理论证明：两层及以上的神经网络可以无限逼近真实的对应函数，从而模拟数据之间的真实关系，这是神经网络强大预测能力的根本。但两层神经网络的计算量太大，当时的计算机的计算能力完全跟不上，直到1986年，Rumelhar和Hinton等人提出了反向传播（Backpropagation，BP）算法，解决了两层神经网络所需要的复杂计算量问题，带动了业界使用两层神经网络研究的热潮。

但好景不长，算法的改进仅使得神经网络风光了几年，然而计算能力不够，局部最优解，调参等一系列问题一直困扰研究人员。90年代中期，由Vapnik等人发明的SVM（Support Vector Machines，支持向量机）算法诞生，很快就在若干个方面体现出了对比神经网络的优势：无需调参；高效；全局最优解。

由于以上原因，SVM迅速打败了神经网络算法成为主流。神经网络的研究再一次进入低谷， AI Winter again 。

多层神经网络一般指两层或两层以上的神经网络（不包括输入层），更多情况下指两层以上的神经网络。

2006年，Hinton提出使用预训练 ”（pre-training）和“微调”(fine-tuning)技术能优化神经网络训练，大幅度减少训练多层神经网络的时间

并且，他给多层神经网络相关的学习方法赋予了一个新名词–“ 深度学习 ”，以此为起点，“深度学习”纪元开始了：）

“深度学习”一方面指神经网络的比较“深”，也就是层数较多；另一方面也可以指神经网络能学到很多深层次的东西。研究发现，在权重参数不变的情况下，增加神经网络的层数，能增强神经网络的表达能力。

但深度学习究竟有多强大呢？没人知道。2012年，Hinton与他的学生在ImageNet竞赛中，用多层的卷积神经网络成功地对包含一千类别的一百万张进行了训练，取得了分类错误率15%的好成绩，这个成绩比第二名高了近11个百分点，充分证明了多层神经网络识别效果的优越性。

同时，科研人员发现GPU的大规模并行矩阵运算模式完美地契合神经网络训练的需要，在同等情况下，GPU的速度要比CPU快50-200倍，这使得神经网络的训练时间大大减少，最终再一次掀起了神经网络研究的热潮，并且一直持续到现在。

2016年基于深度学习的Alpha Go在围棋比赛中以4:1的大比分优势战胜了李世石，深度学习的威力再一次震惊了世界。

神经网络的发展历史曲折荡漾，既有被捧上神坛的高潮，也有无人问津的低谷，中间经历了数次大起大落，我们姑且称之为“三起三落”吧，其背后则是算法的改进和计算能力的持续发展。

下图展示了神经网络自发明以来的发展情况及一些重大时间节点。

当然，对于神经网络我们也要保持清醒的头脑。由上图，每次神经网络研究的兴盛期持续10年左右，从最近2012年算起，或许10年后的2022年，神经网络的发展将再次遇到瓶颈。

神经网络作为机器学习的一种，其模型训练的目的，就是使得参数尽可能的与真实的模型逼近。理论证明，两层及以上的神经网络可以无限逼近真实的映射函数。因此，给定足够的训练数据和训练时间，总能通过神经网络找到无限逼近真实关系的模型。

具体做法：首先给所有权重参数赋上随机值，然后使用这些随机生成的参数值，来预测训练数据中的样本。假设样本的预测目标为yp ，真实目标为y，定义值loss，计算公式如下：

loss = (yp -y) ^2

这个值称之为损失（loss），我们的目标就是使对所有训练数据的损失和尽可能的小，这就转化为求loss函数极值的问题。

一个常用方法是高等数学中的求导，但由于参数不止一个，求导后计算导数等于0的运算量很大，所以常用梯度下降算法来解决这样的优化问题。梯度是一个向量，由函数的各自变量的偏导数组成。

比如对二元函数 f =(x,y)，则梯度∇f=(∂f/∂x,∂f/∂y)。梯度的方向是函数值上升最快的方向。梯度下降算法每次计算参数在当前的梯度，然后让参数向着梯度的反方向前进一段距离，不断重复，直到梯度接近零时截止。一般这个时候，所有的参数恰好达到使损失函数达到一个最低值的状态。下图为梯度下降的大致运行过程：

在神经网络模型中，由于结构复杂，每次计算梯度的代价很大。因此还需要使用反向传播（Back Propagation）算法。反向传播算法利用了神经网络的结构进行计算，不一次计算所有参数的梯度，而是从后往前。首先计算输出层的梯度，然后是第二个参数矩阵的梯度，接着是中间层的梯度，再然后是第一个参数矩阵的梯度，最后是输入层的梯度。计算结束以后，所要的两个参数矩阵的梯度就都有了。当然，梯度下降只是其中一个优化算法，其他的还有牛顿法、RMSprop等。

确定loss函数的最小值后，我们就确定了整个神经网络的权重，完成神经网络的训练。

在神经网络中一样的参数数量，可以用更深的层次去表达。

由上图，不算上偏置参数的话，共有三层神经元，33个权重参数。

由下图，保持权重参数不变，但增加了两层神经元。

在多层神经网络中，每一层的输入是前一层的输出，相当于在前一层的基础上学习，更深层次的神经网络意味着更深入的表示特征，以及更强的函数模拟能力。更深入的表示特征可以这样理解，随着网络的层数增加，每一层对于前一层次的抽象表示更深入。

如上图，第一个隐藏层学习到“边缘”的特征，第二个隐藏层学习到“边缘”组成的“形状”的特征，第三个隐藏层学习到由“形状”组成的“图案”的特征，最后的隐藏层学习到由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。

前面提到，明斯基认为Rosenblatt提出的感知器模型不能处理最简单的“异或”（XOR）非线性问题，所以神经网络的研究没有前途，但当增加一层神经元后，异或问题得到了很好地解决，原因何在？原来从输入层到隐藏层，数据发生了空间变换，坐标系发生了改变，因为矩阵运算本质上就是一种空间变换。

如下图，红色和蓝色的分界线是最终的分类结果，可以看到，该分界线是一条非常平滑的曲线。

但是，改变坐标系后，分界线却表现为直线，如下图：

同时，非线性激励函数的引入使得神经网络对非线性问题的表达能力大大加强。

对于传统的朴素贝叶斯、决策树、支持向量机SVM等分类器，提取特征是一个非常重要的前置工作。在正式训练之前，需要花费大量的时间在数据的清洗上，这样分类器才能清楚地知道数据的维度，要不然基于概率和空间距离的线性分类器是没办法进行工作的。然而在神经网络中，由于巨量的线性分类器的堆叠（并行和串行）以及卷积神经网络的使用，它对噪声的忍耐能力、对多通道数据上投射出来的不同特征偏向的敏感程度会自动重视或忽略，这样我们在处理的时候，就不需要使用太多的技巧用于数据的清洗了。有趣的是，业内大佬常感叹，“你可能知道SVM等机器学习的所有细节，但是效果并不好，而神经网络更像是一个黑盒，很难知道它究竟在做什么，但工作效果却很好”。

人类对机器学习的环节干预越少，就意味着距离人工智能的方向越近。神经网络的这个特性非常有吸引力。

1) 谷歌的TensorFlow开发了一个非常有意思的神经网络入门教程，用户可以非常方便地在网页上更改神经网络的参数，并且能看到实时的学习效率和结果，非常适合初学者掌握神经网络的基本概念及神经网络的原理。网页截图如下：

2) 深度学习领域大佬吴恩达不久前发布的《神经网络和深度学习》MOOC，现在可以在网易云课堂上免费观看了，并且还有中文字幕。

3) 《神经网络于深度学习》（Michael Nielsen著）、《白话深度学习与TensorFlow》也是不错的入门书籍。

推理机（Inference Engine）和神经网络（Neural Network）是两种不同的人工智能技术。

推理机通常用于符号推理，也就是根据规则和逻辑来进行推断和决策。推理机可以根据一组规则和已知事实，通过逻辑推理来得出结论或决策。推理机通常使用基于规则的专家系统或基于本体论的语义网络来表示知识。

神经网络是一种基于神经元模型的计算模型，它通常用于模式识别、分类、回归等任务。神经网络模型由多个神经元组成，每个神经元接收多个输入，经过加权和激活函数处理后输出结果。神经网络通过学习大量的数据来优化模型参数，以实现高精度的预测和判断。

总的来说，推理机更侧重于符号层面的逻辑推理和决策，而神经网络更侧重于数据层面的模式识别和预测。两者都是人工智能技术中的重要组成部分，在不同的场景下都可以发挥重要作用。

逻辑回归有点像线性回归，但是它是当因变量不是数字时使用。比如说因变量是布尔变量（如是/否响应），这时候就需要逻辑回归。它称为回归，但实际上是是根据回归进行分类，它将因变量分类为两个类中的任何一个。

网页链接

如上所述，逻辑回归用于预测二进制输出。例如，如果xyk公司打算建立一个模型来决定是否向客户发放xyk，它将模拟客户是否需要这张或者能够承担这张xyk 。

它给出了事件发生概率的对数，以记录未发生事件的概率。最后，它根据任一类的较高概率对变量进行分类。

而神经网络（Neutral Network）是通过数学算法来模仿人脑思维的，它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型，我们知道人脑中有数以百亿个神经元（人脑处理信息的微单元），这些神经元之间相互连接，是的人的大脑产生精密的逻辑思维。而数据挖掘中的“神经网络”也是由大量并行分布的人工神经元（微处理单元）组成的，它有通过调整连接强度从经验知识中进行学习的能力，并可以将这些知识进行应用。

神经网络就像是一个爱学习的孩子，您教她的知识她是不会忘记而且会学以致用的。我们把学习集（Learning Set）中的每个输入加到神经网络中，并告诉神经网络输出应该是什么分类。在全部学习集都运行完成之后，神经网络就根据这些例子总结出她自己的想法，到底她是怎么归纳的就是一个黑盒了。之后我们就可以把测试集（Testing Set）中的测试例子用神经网络来分别作测试，如果测试通过（比如80%或90%的正确率），那么神经网络就构建成功了。我们之后就可以用这个神经网络来判断事务的分类了。

具体来说，”神经网络“是一组互相连接的输入/输出单元，其中每个连接都会与一个券种相关联。在学习阶段，通过调整这些连接的权重，就能够预测输入观测值的正确类标号。因此可以理解为人工神经网络是由大量神经网络元通过丰富完善的连接、抽样、简化和模拟而形成的一种信息处理系统。

神经网络优缺点，

优点：（1）具有自学习功能。例如实现图像识别时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。自学习功能对于预测有特别重要的意义。

预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测，其应用前途是很远大的。（2）具有联想存储功能。用人工神经网络的反馈网络就可以实现这种联想。（3）具有高速寻找优化解的能力。

寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。

缺点：（1）最严重的问题是没能力来解释自己的推理过程和推理依据。（2）不能向用户提出必要的询问，而且当数据不充分的时候，神经网络就无法进行工作。

（3）把一切问题的特征都变为数字，把一切推理都变为数值计算，其结果势必是丢失信息。（4）理论和学习算法还有待于进一步完善和提高。

扩展资料：

神经网络发展趋势人工神经网络特有的非线性适应性信息处理能力，克服了传统人工智能方法对于直觉，如模式、语音识别、非结构化信息处理方面的缺陷，使之在神经专家系统、模式识别、智能控制、组合优化、预测等领域得到成功应用。

人工神经网络与其它传统方法相结合，将推动人工智能和信息处理技术不断发展。

近年来，人工神经网络正向模拟人类认知的道路上更加深入发展，与模糊系统、遗传算法、进化机制等结合，形成计算智能，成为人工智能的一个重要方向，将在实际应用中得到发展。

将信息几何应用于人工神经网络的研究，为人工神经网络的理论研究开辟了新的途径。神经计算机的研究发展很快，已有产品进入市场。光电结合的神经计算机为人工神经网络的发展提供了良好条件。

神经网络在很多领域已得到了很好的应用，但其需要研究的方面还很多。

其中，具有分布存储、并行处理、自学习、自组织以及非线性映射等优点的神经网络与其他技术的结合以及由此而来的混合方法和混合系统，已经成为一大研究热点。

由于其他方法也有它们各自的优点，所以将神经网络与其他方法相结合，取长补短，继而可以获得更好的应用效果。

目前这方面工作有神经网络与模糊逻辑、专家系统、遗传算法、小波分析、混沌、粗集理论、分形理论、证据理论和灰色系统等的融合。

参考资料：

-人工神经网络。

谷歌人工智能写作项目：神经网络伪原创

神经网络的泛化能力差吗？

泛化能力，英文全称generalization ability，指机器学习算法对新鲜样本的适应能力，一种预测新的input类别的能力好文案。

通过学习找到隐含在数据背后的规律，并对具有同一规律的学习集以外的数据，这种经过训练的网络可以给出合适的输出，该能力就被称为泛化能力。

对于神经网络而言，一般越复杂说明该神经网络承受的复杂度越高，描述规律的复杂度容量就越大，当然越好，当然也不是绝对的，但是这能说明一个容器容量的问题，这时该神经网络的泛化能力也越强。

我们需要知道结构复杂性和样本复杂性、样本质量、初始权值、学习时间等因素，都会影响神经网络的泛化能力。

为了保证神经网络具有较强的泛化能力，人们已做了很多研究，得到了诸多泛化方法，常用的包括剪枝算法、构造算法和进化算法等。人工神经网络的泛化能力主要是由于透过无监督预学习可以从训练集导出高效的特征集。

复杂的问题一旦转换成用这些特征表达的形式后就自然变简单了。观念上这个有点像是在做适用于训练集的一种智能化的坐标转换。

举例来说，如果训练集是许多人脸的，那么预训练做得好的话就能导出如鼻子，眼睛，嘴巴，各种基本脸型等特征。如果做分类时是用这些特征去做而不是基于像素的话，结果自然会好得多。

虽然大型的神经网络具有极多的参数，可是由于做分类时其实是基于少数的特征，因此也比较不会产生过拟合的情形。

同时，针对神经网络易于陷入局部极值、结构难以确定和泛化能力较差的缺点，引入了能很好解决小样本、非线性和高维数问题的支持向量回归机来进行油气田开发指标的预测。

神经网络算法的局限性

神经网络算法的局限性是：可以使用均值函数但是这个函数将获取嵌入的平均值，并将其分配为新的嵌入。但是，很容易看出，对于某些不同的图，它们会给出相同的嵌入，所以，均值函数并不是单射的。

即使图不同，节点 v 和 v’ 的平均嵌入聚合（此处嵌入对应于不同的颜色）将给出相同的嵌入。

这里真正重要的是，你可以先用某个函数 f(x) 将每个嵌入映射到一个新的嵌入，然后进行求和，得到一个单射函数。

在证明中，它们实际上显式地声明了这个函数 f，这需要两个额外条件，即 X 是可数的，且任何多重集都是有界的。

并且事实上，在训练中并没有任何东西可以保证这种单射性，而且可能还会有一些图是 GIN 无法区分的，但WL可以。所以这是对 GIN 的一个很强的假设，如果违反了这一假设，那么 GIN 的性能将受到限制。

神经网络算法的普适性是：研究模型的局限性通常更容易获得对模型的洞察。毕竟，网络所不能学到的关于特定特征的知识在应用时独立于训练过程。

此外，通过帮助我们理解与模型相关的任务的难度，不可能性结果（impossibility result）有助于得出关于如何选择模型超参数的实用建议。以图分类问题为例。

训练一个图分类器需要识别是什么构成了一个类，即在同一个类而非其他类中找到图共享的属性，然后决定新的图是否遵守所学习到的属性。

然而，如果可以通过一定深度的图神经网络（且测试集足够多样化）证明上述决策问题是不可能的，那么我们可以确定，同一个网络将不会学习如何正确地对测试集进行分类，这与使用了什么学习算法无关。

因此，在进行实验时，我们应该把重点放在比下限更深的网络上。

PNN神经网络,BP神经网络,Elman神经网络,ANN神经网络,几种神经网络中哪个容错能力最强？

简单介绍人工神经网络和模糊神经网络

其实百科介绍的很详细，如“人工神经网络是模拟人脑结构的思维功能，具有较强的自学习和联想功能，人工干预少，精度较高，对专家知识的利用也较少。

但缺点是它不能处理和描述模糊信息，不能很好利用已有的经验知识，特别是学习及问题的求解具有黑箱特性，其工作不具有可解释性，同时它对样本的要求较高;模糊系统相对于神经网络而言，具有推理过程容易理解、专家知识利用较好、对样本的要求较低等优点，但它同时又存在人工干预多、推理速度慢、精度较低等缺点，很难实现自适应学习的功能，而且如何自动生成和调整隶属度函数和模糊规则，也是一个棘手的问题。

”即保证人工神经网络自身的学习能力下，采用模糊理论解决模糊信号，使神经网络权系数为模糊权，或者输入为模糊量。

比如原本神经网络处理的是连续数据（double）不适合求解模糊数据，此时就需要引入模糊理论，来构造适合于求解这类模糊数据的神经网络。

深度学习有哪些优点和缺点

深度学习的主要优点如下：1：学习能力强深度学习具备很强的学习能力。2：覆盖范围广，适应性好深度学习的神经网络层数很多，宽度很广，理论上可以映射到任意函数，所以能解决很复杂的问题。

3：数据驱动，上限高深度学习高度依赖数据，数据量越大，它的表现就越好。在图像识别、面部识别、NLP 等领域表现尤为突出。

4：出色的可移植性由于深度学习的优异表现，很多框架都可以使用，而且这些框架可以兼容很多平台。深度学习的缺点：只能提供有限数据量的应用场景下，深度学习算法不能够对数据的规律进行无偏差的估计。

为了达到很好的精度，需要大数据支撑。由于深度学习中图模型的复杂化导致算法的时间复杂度急剧提升，为了保证算法的实时性，需要更高的并行编程技巧和更多更好的硬件支持。

因此，只有一些经济实力比较强大的科研机构或企业，才能够用深度学习来做一些前沿而实用的应用。

BP神经网络的核心问题是什么其优缺点有哪些

人工神经网络,是一种旨在模仿人脑结构及其功能的信息处理系统,就是使用人工神经网络方法实现模式识别可处理一些环境信息十分复杂,背景知识不清楚,推理规则不明确的问题,神经网络方法允许样品有较大的缺损和畸变神经网络的类型很多,建立神经网络模型时,根据研究对象的特点,可以考虑不同的神经网络模型前馈型BP网络,即误差逆传播神经网络是最常用,最流行的神经网络BP网络的输入和输出关系可以看成是一种映射关系,即每一组输入对应一组输出BP算法是最著名的多层前向网络训练算法,尽管存在收敛速度慢,局部极值等缺点,但可通过各种改进措施来提高它的收敛速度,克服局部极值现象,而且具有简单,易行,计算量小,并行性强等特点,目前仍是多层前向网络的首选算法多层前向BP网络的优点：网络实质上实现了一个从输入到输出的映射功能，而数学理论已证明它具有实现任何复杂非线性映射的功能。

这使得它特别适合于求解内部机制复杂的问题；网络能通过学习带正确答案的实例集自动提取“合理的”求解规则，即具有自学习能力；网络具有一定的推广、概括能力。

多层前向BP网络的问题：从数学角度看，BP算法为一种局部搜索的优化方法，但它要解决的问题为求解复杂非线性函数的全局极值，因此，算法很有可能陷入局部极值，使训练失败；网络的逼近、推广能力同学习样本的典型性密切相关，而从问题中选取典型样本实例组成训练集是一个很困难的问题。

难以解决应用问题的实例规模和网络规模间的矛盾。这涉及到网络容量的可能性与可行性的关系问题，即学习复杂性问题；网络结构的选择尚无一种统一而完整的理论指导，一般只能由经验选定。

为此，有人称神经网络的结构选择为一种艺术。而网络的结构直接影响网络的逼近能力及推广性质。

因此，应用中如何选择合适的网络结构是一个重要的问题；新加入的样本要影响已学习成功的网络，而且刻画每个输入样本的特征的数目也必须相同；网络的预测能力（也称泛化能力、推广能力）与训练能力（也称逼近能力、学习能力）的矛盾。

一般情况下，训练能力差时，预测能力也差，并且一定程度上，随训练能力地提高，预测能力也提高。但这种趋势有一个极限，当达到此极限时，随训练能力的提高，预测能力反而下降，即出现所谓“过拟合”现象。

此时，网络学习了过多的样本细节，而不能反映样本内含的规律由于BP算法本质上为梯度下降法，而它所要优化的目标函数又非常复杂，因此，必然会出现“锯齿形现象”，这使得BP算法低效；存在麻痹现象，由于优化的目标函数很复杂，它必然会在神经元输出接近0或1的情况下，出现一些平坦区，在这些区域内，权值误差改变很小，使训练过程几乎停顿；为了使网络执行BP算法，不能用传统的一维搜索法求每次迭代的步长，而必须把步长的更新规则预先赋予网络，这种方法将引起算法低效。

有机化学里的PNN什么意

概率神经网络。深度神经网络指的是微软推出了一新款语音识别软件，其工作原理是模仿人脑思考方式，从而使该软件的语音识别速度更快，识别准确率也更高。

有机化学是化学的一个分支学科，是研究碳氢化合物及其衍生物的结构、性质和反应的学科。结构的研究包括通过光谱、化学计算和计算机模拟等手段研究化合物的分子结构和晶体结构特征。

性质研究包括化合物的物理和化学性质，以及化学反应性的预测。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://www.54852.com/zaji/12178378.html

（BP进阶1）从M-P模型到BP神经网络

发表评论

评论列表（0条）