深度神经网络：WX+b vs XW+b

在大多数的神经网络教科书中，神经网络一般都会使用 y = WX+B 或者 y = XW+B 的形式。但是在 tensorflow 或者 theano 中，神经网络的实现都是采用了 y = XW+B 的形式。这是为什么呢？我花了很多的时间去查找资料，最后发现一点，可能是 y = XW+B 计算导...

chuange6363

1296人浏览 · 2017-09-10 01:22:00

chuange6363 · 2017-09-10 01:22:00 发布

在大多数的神经网络教科书中，神经网络一般都会使用 y = WX+B 或者 y = XW+B 的形式。但是在 tensorflow 或者 theano 中，神经网络的实现都是采用了 y = XW+B 的形式。这是为什么呢？我花了很多的时间去查找资料，最后发现一点，可能是 y = XW+B 计算导数比 y = WX+B 容易。

从理论上讲，XW+B 和 WX+B 在神经网络中是等价的（其实就是一个矩阵的转置）。然而，当我们计算两者的导数的时候却差别很大。我们通过具体的数学推导来感受一下吧。

比如：y = XW

比如：y = WX

原文

matrix cookbook

转载于:https://my.oschina.net/u/3579120/blog/1533442

技术共进，成长同行——讯飞AI开发者社区

更多推荐

论文笔记：AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models（AlphaEdit）

论文发表于人工智能顶会ICLR（基于定位和修改的模型编辑方法（针对和等）会破坏LLM中最初保存的知识，特别是在顺序编辑场景。为此，本文提出AlphaEdit：1、在将保留知识应用于参数之前，将扰动投影到保留知识的零空间上。2、从理论上证明，这种预测确保了在查询保留的知识时，编辑后的LLM的输出保持不变，从而减轻中断问题。3、对各种LLM（包括LLaMA3、GPT2XL和GPT-J）的广泛实验表明，