NLP中GlobalMaxPooling的可视化理解

最近的一些在NLU中可视化实验总结，包括AttentionPooling1D、GlobalMaxPooling1D的物理意义。

在进行NLU任务时，我们常常通过词（或字）向量序列通过Pooling的方法获得局向量（或文档）的表示。这样的Pooling方法常见有：

AveragePooling
MaxPooling
MinVariancePooling
AttentionPooling
SIF
TF-IDF作为权重对向量序列进行加权平均
等等

以上方法都是无监督，Pooling消耗资源极小。考虑对NLP的序列都是不定长，以上方法都应该支持Mask。以上相关实现和实验可参看sentence-embedding。

然而，我们面临一个疑问，以上Pooling方法是否可理解？这里我们不深入探讨“可理解”是什么？直观点，以上Pooling方法是否真的捕获了对下游任务相关的信息。Pooling过程把词向量序列Aggregation成一个定长向量，这个过程必然有大量的信息丢失，那么Pooling有效必须要保留对下游任务有用的信息而过滤无用的信息。

GlobalMaxPooling1D可视化理解

GlobalMaxPooling1D直觉上很难理解，因此很有必要通过可视化理解其作用原理。一个词向量序列可以用矩阵表示，其维度为(maxlen, hdims)，MaxPooling操作后，变为向量，可以看做句向量的表示，其维度为(1, hdims)。hdims每个值对应着某个词向量的最大值，把其作为该词在下游任务中重要性的权重，并通过可视化来观察是否具有预期的效果。

GlobalMaxPooling1D原理示意图，

Embedding中的每一维可以当做是隐含的主题，当然这种主题并不像主题模型一样直观。GlobalMaxPooling1D要做的事情则是词向量序列中最显著的主题，也就是$[e_{21}, e_{42}, e_{53}, e_{64}]$向量。然后我们此向量中元素取值作为该元素所对应的字的重要性权重，如$e_{53}$表示“淇”的重要性权重，如上图所示。

实现

MaskGlobalMaxPooling1D的实现和字权重计算方法，

class MaskGlobalMaxPooling1D(tf.keras.layers.Layer):
    
    def __init__(self, **kwargs):
        super(MaskGlobalMaxPooling1D, self).__init__(**kwargs)

    def call(self, inputs, mask=None):
        if mask is None:
            mask = 1
        else:
            # 扩展维度便于广播
            mask = tf.expand_dims(tf.cast(mask, "float32"), -1)
        x = inputs
        x = x - (1 - mask) * 1e12 # 用一个大的负数mask
        x = tf.reduce_max(x, axis=1, keepdims=True)
        ws = tf.where(inputs == x, x, 0.0)
        ws = tf.reduce_sum(ws, axis=2)
        x = tf.squeeze(x, axis=1)
        return x, ws