使用CNN按字符串/示例进行单词点查询

我正在研究需要进行单词发现的项目。我尝试了解以下方法： https://arxiv.org/pdf/1604.00187.pdf

此方法使用金字塔形字符直方图（PHOC）作为标签，CNN能够CNN能够在Queryby-Example以及不同字符串查询方案中实现最新性能数据集。

PHOCNET体系结构：

PHOCNet架构

仅使用3x3转换，然后激活ReLU。我们在较低的层中选择较少的过滤器，而在较高的层中选择增加的过滤器。这导致神经网络学习减少较小的接收场的特征，较高水平的特征，以及更多抽象特征的特征
使用空间金字塔池化作为池化层来接受大小不同的输入图像，并仍然产生恒定的输出大小，这对于训练网络至关重要。特别，在CNN的完全连接部分之前使用SPP池层。
对于单词发现任务，提出了PHOC。 PHOC是字符串的二进制金字塔形表示。它编码相应单词图像的视觉属性。直觉的单词图像的属性是其字符。如果单词的字符串表示形式的某个拆分中存在某种属性（即字符），则PHOC会进行编码。例如， PHOC的第二级编码单词在单词的前半部分或后半部分中是否包含某个字符。为了用PHOC训练深层的CNN，softmax层不能再用作其中的一个元素训练向量为1，而PHOC标签的多个元素可以为1。但是，以PHOC作为标签训练CNN可以看作是多标签分类任务。从而，我们用一个S型激活函数交换softmax 函数，该函数应用于输出矢量的每个元素。

在单词发现任务中，有两种方法：

在文档中，我不太了解如何评估QBS和QBE方法中的单词斑点。计算的MAP是指什么？

对于示例查询，我了解我们将图像传递到CNN中，该CNN会预测估算的PHOC。那么，我们如何执行单词发现以及如何评估预测呢？对于按字符串查询，我也不了解该过程。字符串如何映射到图像中？问候。