创建特征标签(特征标注)

标签是用户生成的输入数据,用于建立工具的基本事实。真值是指有关应用程序中图像的毋庸置疑的事实,也就是说由人所确定的图像中的关键信息(特征、字符、缺陷、类)。标签建立了基本事实,可用于训练和性能分析。因此,必须准确地进行标注。

 

什么是标注

由于 Deep Learning 软件基于学习,因此向网络传授的关于图像的知识非常重要。在 Deep Learning 的说法中,这个过程称为“标注”。标注是用户识别特征或缺陷并在图像上以图形方式说明特征或缺陷的过程。标签为工具呈现“真值”,用于训练工具并验证其性能。

标签为工具呈现“基本事实”,也就是您告诉工具,这是它应该学习的东西。对工具编程最重要的部分是确保用于训练的图像被完全、准确地标注。在不知道图像的真值数据的情况下,您无法判断工具是否正常工作。此外,如果没有准确的标注,工具的训练也不会起作用。

在评估工具和应用程序的性能时,会始终根据您提供的标注来衡量。如果您的标注未能反映图像的实际真值,那么即使工具性能准确且可重复,也没有任何意义。在您训练 Deep Learning 工具时,训练目标 – 成本函数 – 会尝试训练工具以产生与您提供的标注精确匹配的响应。

每个工具都需要手动标注(有关如何为每个工具执行标注的详细信息,请参见下文)。良好标注的最重要特征是图像之间、观察者和标注者之间的一致性。如果您将图像集提供给多个人进行标注,而他们的标签不一致,则工具可能无法正常工作。

 

每个工具的过程都有略微区别,但原理是相同的。标注完成后,即可训练工具,并检验工具提供的标记。可以使用 Alt + 左箭头键和 Alt + 右箭头键,或者从图像的右键菜单中切换标签和标记的显示。

 

您还可以通过在叠加复选框中启用“标签”来显示叠加。

 

蓝色读取中标注

蓝色读取工具是一个经过预先训练的工具,可自动识别字符和字符串,因此在大多数情况下无需标注即可使用该工具。但是,建议使用标注进行应用程序验证和增量训练。由于蓝色读取工具不返回有关字符位置的详细信息,因此不需要精确的位置标注。只需要标注字符的大致尺寸及其标识。支持的字符可以是任何单个 UTF-8 字符。

1

特征尺寸

2

特征标识

 

图像集中的图像可以是标注图像,也可以是未标注图像。标注图像由显示屏上的绿色图形(特征或字符串)表示。为了确定蓝色读取工具在您的图像上的性能,您需要能将工具识别的字符与图像中的实际字符值进行比较。标注的过程允许您指定图像中字符的位置和值。图像集部分或完全标注后,您可以执行以下两项重要操作:

  • 您可以计算工具对图像的性能统计度量结果,包括收回、混淆、精度和 F-得分。
  • 您可以对工具执行增量式训练。(您可以通过举例说明特定字符在图像中的显示方式来提高工具的性能。)

 

标注图像时非常重要的考虑因素是,如果图像被标注,则应标注图像中的所有字符。如果只标注了一些字符,这将使统计测量无效(因为该工具将发现“虚假”或“意外”字符),并且它还将导致任何渐进式训练降低而不是提高工具的准确性(因为工具会假定图像中的未标注字符不是字符)。

 

将特征转换为标签

标注图像最简单的方法是从工具找到的图像特征开始。要将图像中所有找到的特征转换为标签,只需右键单击图像并选择接受视图。所有黄色已找到特征都将替换为绿色标签:

从几个方面来说,绿色标签与黄色特征类似:

  • 您可以单击它们来选中。
  • 您可以从中创建模型(选择一个或多个标签,然后右键单击图像并选择创建模型)。

 

但绿色标签与特征之间有一些重要区别:

  • 您可以移动标签。如果找到的特征的位置不正确,您可以在标注时将其重新定位。
  • 您可以更改特征的值。如果已找到的黄色特征具有错误的字符值(例如,“8”为“B”),则可以将该特征转换为标签,选择标签,然后键入正确的值即可。标签更正后,工具找到的特征与您创建的标签之间的差异将反映在工具的性能统计中。此外,当您逐步训练工具时,正确的值将包含在已训练的工具中。

 

直接标注

除了将特征转换为标签外,您还可以通过单击图像并键入标签值来创建标签。如果单击图像并创建特征,但未指定字符值,则工具会将之视为“空特征”并且不允许您进行训练。

如果您单击包含已找到特征的未标记图像,工具会询问您应该如何处理图像中找到的特征:

如果单击,黄色已找到特征将转换为绿色标签,您可以根据需要调整其位置并更改其字符值。如果单击,则不会转换找到的特征。已找到的特征现在以橙色显示 - 这表明它们可能应该转换为特征。

 

特征标签图形

这是工具指示尚未与任何模型匹配的标注字符的方式。标注字符以绿色显示。

 

蓝色读取的特征参数

两个特征参数定向缩放仅用于蓝色定位工具和蓝色读取工具。对于蓝色读取工具,默认情况下启用这些参数,并且不能禁用它们。此外,蓝色读取工具被设置为对缩放参数使用不一致选项。

 

如何快速标注:引导程序标注

您可以考虑使用标注图像的引导程序方法来加快每个工具的标注过程。“引导程序”标注是指通过仅标注小样本量的图像来开始标注过程,然后训练工具,通过接受带有正确标记的视图以将其转换为标签来检查结果,最后删除错误标记并用正确的标签替换它们。通过将图像划分为多个视图并仅标注单个视图,可以进一步加快此过程。此外,还可以临时减少训练参数中的“训练期计数”,这将缩短训练时间。

 

  1. 在您的训练集中标注一些图像。
  2. 训练工具。
  3. 查看图像和结果。
  4. 接受工具标记准确的视图(右键单击并选择“接受视图”或按下“Ctrl + Shift + A”)。这会将标记更改为标签。对于监督模式下的红色分析工具,您可能必须编辑缺陷区域。对于不准确的标记,请从图像中移除(右键单击并选择“清除标记”,或按下“Ctrl + C”),然后添加正确的标签。