softmax:建立hard-attention到soft-attention的桥梁

查询向量 $\boldsymbol{q}$ 与每个 $\boldsymbol{x}_{i}$ 计算相关性 $\alpha_{i}$ 后,为什么要使用softmax进行归一化?其他归一化方法不行?hard-attention和soft-attention在数学上有什么联系?这里提供一种数学解释。

阅读全文

谈算法工程师的数学素养

简单谈算法工程师的数学素养

阅读全文

集成回归的有效性证明(更新)

本文提供集成回归的有效性证明

阅读全文

Google的激活函数Swish是怎么设计出来的?

Google的激活函数Swish是怎么设计出来的?

阅读全文

Sigmoid函数导出的另外一个角度

从另外一个角度导出Sigmoid函数~

阅读全文

函数光滑近似(3):abs函数

求模函数在深度学习中也是很常见,例如文本匹配中,求两个词向量的模作为特征。本文讨论abs的光滑近似。

阅读全文

函数光滑近似(2):softmax与argmax

本系列的第一篇函数光滑近似(1):max 函数,我们讨论了 max 函数的光滑近似,softmax 在字面上容易误解为其光滑近似,其实后者是 argmax 的光滑近似。本篇文章讨论这个问题。

阅读全文

函数光滑近似(1):maximum函数

函数的可微性在深度学习中很重要,因为在优化阶段,涉及到梯度的计算。但是深度学习中很多操作,如 max、argmax 等,无法求解梯度。为此,寻找这类操作的光滑近或次梯度似能够很好地解决梯度求解问题。当然这里并不是谈及深度学习中梯度计算的问题,而是探索常用函数如max、argmax、abs的光滑近似。预计会写一个系列,这里首先来谈谈max函数的光滑近似。

阅读全文

古典音乐列表

古典音乐列表

阅读全文

信息论视角的极大似然估计

本文介绍从信息论视角理解极大似然估计(MLE)

阅读全文

使用Conda或Docker创建多版本Python环境

使用Conda创建多版本Python环境

阅读全文

深入理解神经网络中的Padding和Masking

本文讲述变长序列中的padding和masking,并展开讨论收到padding影响的操作如何处理。最后谈及Tensorflow在处理padding和masking上的实践总结。

阅读全文

信息聚合漫谈:加权平均思路

在CNN中,常常使用AveragePooling方法和基于AdditiveAttention的加权Pooling方法。事实上,在深度学习中常常使用加权平均来聚合向量序列,如把词向量序列聚合成句向量;还有如时间序列的平滑处理,例如股票投资中的均线,量化投资中的趋势因子代理指标。

本文不是纯粹NLP中词向量相关文章,只是从数学角度介绍,有哪些加权平均方案。

阅读全文

漫谈注意力机制(六):Transformer与位置信息

Transformer中引入相对位置编码~

阅读全文

漫谈注意力机制(五):自注意力与Transformer

Attention Is All You Need关键点解读以及关于SelfAttention的一些理解和扩展~

阅读全文

漫谈注意力机制(四):注意力机制的退化之AttentionPooling

注意力机制也能退化?退化后的结果是什么?AttentionPooling?!

阅读全文

漫谈注意力机制(三):全局注意力与局部注意力

Attention中的全局注意力与局部注意力。

阅读全文

漫谈注意力机制(二):硬性注意力机制与软性注意力机制

硬性注意力机制与软性注意力机制,以及它们之间有什么联系?

阅读全文

漫谈注意力机制(一):人类的注意力和注意力机制基础

计划写一个系列,讲讲、漫谈Attention,本篇为第一篇,先讲讲人类的注意力和注意力机制基础,包括入门内容。

阅读全文

漫谈序列编码:MLP、CNN、RNN

漫谈序列编码:MLP、CNN、RNN

阅读全文