如何评估词向量化的优劣？

2019-02-28

构造词向量的方法有很多，如何评估词向量的优劣？

阅读全文

求句向量的思路探索

2019-02-27

本文介绍一些求句向量的方法。

阅读全文

词向量系列（6）：动态词向量CoVe之ELMo

2019-02-21

动态词向量（CoVe）是未来的发展趋势，本篇介绍ELMo~

阅读全文

词向量系列（5）：fastText快速轻量的有监督方法

2019-02-15

FastText使用n-grams作为特征的词向量求取和文本分类方法。

阅读全文

词向量系列（4）：Glove一个别致的思路

2019-02-14

GloVe，全称 Global Vectors for Word Representation，以下均用GloVe代替，使用全局词频统计结合局部上下文进行词的全局向量表示。GloVe可以理解成是， 1GloVe = 词-词共现矩阵 + word2vec 共现矩阵在语料库中，容易获得单词-上下文矩阵（word-word co-occurrence matri...

阅读全文

词向量系列（3）：深入Word2Vec及其实现

2019-02-12

更新了Word2Vec的实现，包括若干技巧。

阅读全文

优化算法系列（5）：SGD改进之Adam一个综合方案和派生（更新）

2019-01-31

本文已经更新了Adam的派生方案。

阅读全文

理解神经网络中Embedding层的原理

2019-01-24

随着深度学习的发展及其在工程上的落地，Embedding技术便成为模型的标准组件，那么Embedding的原理是什么？本文老剖析一下Embedding的原理。

阅读全文

序列标注之NER、CWS经典模型HMM实现

2019-01-12

序列标注之NER经典模型HMM实现

阅读全文

文本分类中的一些Tricks分享

2018-12-27

深度学习已经成为 AI 的标配技术，在 NLP 领域更是大放异彩。而NLP中分类任务是应用上最基础的任务，具体包括新闻标题分类、情感倾向性分析、情绪识别、意图识别、关系分类、事件类型判断、语义相似识别等等。本文总结一下文本分类中的一些Tricks。

阅读全文

词向量系列（2）：VSM和主题模型思路

2018-12-25

主题模型思路是基于VSM构建共现矩阵，并通过矩阵分解获得语义的稠密表示。

阅读全文

优化算法系列（4）：SGD改进之自适应学习率调整

2018-12-21

自适应学习率调整的方法，常见包括AdaGrad、RMSprop、AdaDelta等。

阅读全文

优化算法系列（3）：SGD改进之梯度估计修正

2018-12-17

在SGD中，我们提到过每次选取批量样本计算梯度和实际的梯度存在误差，这个梯度误差的直观体现是损失曲线呈现震荡下行。于是，为了缓解这个SGD中梯度误差我们可以通过最近一段时间内的平均梯度来代替当前时刻的梯度，进而缓解梯度带来的随机性。文本就从这个方向着手解决问题。

阅读全文

优化算法系列（2）：深入讨论SGD及其改进思路

2018-12-16

从机器学习角度来看，一个完整的任务包括模型、评估、优化，本系列谈的就是优化。机器学习模型的训练其实就是参数学习，通常是通过一定的优化算法来寻找一组可以最小化结构风险的参数。而最常见的优化算法是梯度下降算法（SGD），基于SGD可以引申出很大的优化算法。本系列打算探讨优化算法的改进与变化逻辑。

阅读全文

优化算法系列（1）：梯度下降算法与推导

2018-12-14

深度学习（机器学习）算法 = 模型表征 + 模型评估 + 优化算法，而基本上所有的机器学习算法都在损失函数下转化为某种形式的优化问题，可以说模型训练就是一个数值优化过程。

阅读全文

中文分词详解：从词典匹配到深度学习方法

2018-12-12

词法分析、句法分析和语义分析是NLP的三大任务系。其中词法分析包括分词（word tokenization）、词性标注和命名实体识别，今天这里梳理中文分词（chinese word segment，CWS）的思路和方法。我们知道，在英语中，单词之间的自然分界符是空格，这样便于切分。然而，中文中词与词之间并没有这样天然的特点，因此，对文本以词汇粒度进行划分，中文比英文要复杂得多困难很多。

更新：更新或添加部分分词算法和一些补充链接。

阅读全文