从神经科学到人工智能(十八)- 无监督的赫布学习和机器学习 ...
admin
2023-09-17 10:23:37
0

(欢迎关注我的公众号:Neuro科学和人工智能)

前一节我们介绍了有监督的赫布学习和机器学习,本节我们来介绍无监督的赫布学习和机器学习。

在前面介绍的基本赫布法则(第十六)中,可以将权重向量w用相关系数矩阵Q的特征向量来表示:



其中的系数等于特征向量与w的点积。例如,在时间t=0处cμ(0)=w(0)·eμ。将上式带入基本赫布法则中,得到cμ(t)=cμ(0)exp(λμt/τw)。由此从上式得到:



式中的指数因子将随时间而增长,因为特征值λμ对所有的μ都为正值。当t很大时,具有最大的λμ的项(假定它是唯一的)将远大于其它任何一项并且在w的和中占据压倒性地位。假定这个最大的特征值的下标μ为1,则它对应的特征向量e1被称为主特征向量。因此,对应t很大时,假定w(0)·e1≠0,则w正比于e1将是一个很好的近似值。也即经过训练,对于任意的输入向量u的响应可以很好地近似为:



由于点积相当于将一个向量投射到另一个向量,赫布可塑性可以被理解为生成一个将输入向量投射到与训练时的输入向量的自相关系数矩阵的主特征向量成正比的输出向量。然而,必须想办法解决赫布可塑性内在的正反馈造成的指数增长性,一种方法是用饱和限制来指定一个上限,这将阻碍与主特征向量的同比性,另一种方法就是用前面介绍过的Oja法则(第十六)来替代基本赫布法则,这样当t→∞时权重向量趋近于w=e1/(α),换句话说也即Oja法则使权重向量平行于主特征向量但是归一化到长度1/(α)而不是无边界地增长。

如果应用基本赫布法则和Oja法则的时间足够长,它们都会产生平行于训练时的输入向量的自相关系数矩阵的主特征向量的权重向量。主成分分析法(https://www.zhihu.com/question/41120789/answer/1304023183)告诉我们,如果一系列向量由一系列数值表达或重建,则上述投射方式经常是最优选择。信息理论同样告诉我们,如果输入的统计量和输出的噪声是高斯分布的,通过赫布法则最大化输出v的方差也就是最大化了v携带的输入u的信息量。

之前的章节(第十六)我们介绍过用函数H(τ)来表示突触后活动与时间τ之前的突触前活动影响的突触变化率,假设最初的w=0,我们通过积分得到:



这是之前介绍过的时序赫布法则得到的结果,展示出了一种叫做轨迹学习的现象,因为突触的变化取决于突触前后活动的历史或轨迹,如上式所示,时序依赖的赫布可塑性取决于由H做时间过滤的突触后活动与突触前活动的相关性。这个式子可以用来为不变响应来建模。

上面讨论的是单个输出神经元的情况,我们接下来讨论如下图所示的多神经元的网络:



重要的是在多单元网络中不同的输出神经元对输入的不同特征具有选择性,否则它们的响应就完全是冗余的了。

对于输出层循环权重M为固定且为线性的情况下,训练期间输入的平均赫布变化方程为:



其中,K=(I-M)^(-1),I是单位矩阵,Q=是输入的自相关矩阵。

线性循环连接只能在网络的神经元之间产生有限的差别,因为它们只能在输出神经元之间引起相当弱的竞争,而实际中如果输出层之间的交互是非线性的时候的循环连接可以导向相当强的竞争。在实际的大脑中的连接一般是长程抑制然后是短程激活的,据此构建的模型包括两个步骤,长程抑制可以用下式表示:



参数δ控制单元之间竞争的程度,对于大的δ,只有最大的前向输入才会留存,而δ=1则非常类似于上面的线性循环连接。

而考虑到短程激活后单元a的最终输出为:



这一步保证了za代表的短程激活是局部分散开的,而不是集中在某个位置。在这个场景,循环网络通常是纯激活并且是短程的,因为长程抑制已经被上面的竞争方程建模了。这个式子的输出与前向权重的赫布法则一起被称为竞争性赫布法则。对于更复杂的情况,可以用一种叫做基于功能的模型来建模,这种模型对神经元和它们的输入是用它们的选择性而不是它们的突触权重来建模的,这种模型离神经元放电率和突触强度等生物物理学现实更远了,但是这种模型提供了更紧凑的描述。我们在后续介绍视觉通路的例子的时候再来详细介绍这种模型。

之前我们介绍前向赫布可塑性的时候,以Oja法则为例,在输出层循环连接缺失的时候,这个法则会使得前向权重的每一行都设为输入的自相关矩阵的主特征向量,造成每个输出单元的响应有很大的冗余。在上面介绍的线性模型中可以将线性循环连接权重也设为可塑的而不是固定的来解决这个问题,具体的是当突触前和突触后同时激发时降低突触强度(而不是增加),所以这被称为反赫布可塑性,如下式所示:



这种在循环网络中的交互将阻止输出单元表达同一个特征向量,因为式中的循环交互通过取消共同前向输入的影响而倾向于使不同的输出单元更少相关。在真实环境中,据信在小脑的浦肯野(Purkinje)细胞的平行神经纤维间反赫布法则占据了压倒性的形式。

之前我们介绍的单个神经元的时序赫布法则当应用于多单元网络时可以用来存储时序信息。如下图所示:



从图中可以看出,训练经验使得神经元的响应提前了,也就是可以预测刺激的行为。上图右边是实际小鼠在一个封闭环内跑圈训练时记录的海马区位置细胞预测的LTP和LTD效应。


上面介绍了无监督的赫布学习,下面我们来看看无监督的机器学习。

无监督学习的大多数尝试是指从不需要人为注释的样本的分布中抽取信息。经典的无监督学习的任务是找到数据的“最佳”表示,最常见的三种包括:低维表示、稀疏表示和独立表示。低维表示尝试将x中的信息尽可能压缩在一个较小的表示中,稀疏表示将数据集嵌入到输入项大多数为零的表示中,而独立表示试图分开数据中变化的来源,使得表示的维度是统计独立的。

在无监督的机器学习中,首先同样是主成分分析(PCA,https://zhuanlan.zhihu.com/p/37777074),另外一个简单的表示学习算法是k-均值聚类(https://zhuanlan.zhihu.com/p/142144855)。

对于无监督学习,很多涉及构建输入的概率模型pmodel(x),许多这样的模型还具有潜变量h,其中pmodel(x)=Ehpmodel(x|h),比如一些基于潜变量的最简单的概率模型:线性因子模型(linear factor model,https://zhuanlan.zhihu.com/p/511350550),包括概率PCA(probabilistic PCA,https://www.zhihu.com/question/37069381/answer/2375670079)、因子分析(factor analysis,https://zhuanlan.zhihu.com/p/351322418)等。独立成分分析(independent component analysis,ICA,https://zhuanlan.zhihu.com/p/376408679)是最古老的表示学习算法之一,而慢特征分析(slow feature analysis,SFA,https://www.zhihu.com/question/67934085/answer/1289097407)是使用来自时间信号的信息学习不变特征的线性因子模型。稀疏编码(sparse coding,https://zhuanlan.zhihu.com/p/179053082)是一个线性因子模型,已作为一种无监督特征学习和特征提取机制得到了广泛研究。线性因子模型,包括PCA和因子分析,可以理解为学习一个流形。

在介绍了有监督和无监督的赫布学习和机器学习之后,接下来我们将讨论条件反射和强化学习。


(本文来自我的公众号,原文地址:

上一篇:

下一篇:

参考书籍:

计算神经学教材(Theoretical Neuroscience, Computational and Mathematical Modeling of Neural Systems, by Peter Dayan and L. F. Abbott):

(无购买链接)

相关内容