解释结果

经过训练和处理后,系统会针对所有视图计算工具的结果。但是,只应在测试集上检查结果,才能对工具进行正确的评估。

 

测试集:用于评估结果的图像

VisionPro Deep Learning 内的统计测量用于验证训练后的神经网络的性能。在深度学习范例中,验证是指根据测试数据(由用户标注,但未用于训练的数据)评估经过训练的神经网络模型的过程。因此,如果您想通过统计指标来确定神经网络模型的可用性和性能,则必须仅根据测试数据计算这些指标。

重要的是要明白,在训练你的神经网络模型后(指您的工具,即蓝色定位/读取、绿色分类或红色分析),如果您想检查模型是如何训练好的,不允许您根据用于训练此模型的数据测试模型。训练数据不能用于评估训练模型,因为模型在训练期间已经拟合到该数据,以在给定训练数据集的情况下发挥最佳性能。因此,这些数据无法说明模型泛化的程度,也不能说明在遇到看不见的新数据时也能很好地执行。

 

 

因此,为了公平正确地测试模型的可用性和性能,模型应该应用于它之前从未见过的数据,包括其训练阶段。这就是为什么模型评估的数据被称为测试数据集

 

数据库概述

“数据库概述”窗格提供有关用于训练的图像和视图的信息,以及对 Cognex 深度学习工具的统计输出的访问。此窗格将根据所选工具更改其显示。

 

可以单击名称并按下铅笔图标以启动“重命名标记”对话框,然后对标记进行重命名。

 

在专家模式下,您可以使用筛选条件字段分隔图像/视图,并仅对这些图像/视图执行统计分析。有关筛选图像/视图的语法信息,请参阅显示筛选条件筛选条件;有关筛选条件的可能用途的更多信息,请参阅测试图像样本集主题。

 

处理时间

单独工具处理时间在数据库概述中显示,如下所示:

 

 

处理时间是上一个处理任务中每个图像的平均处理时间,它是处理时间和后处理时间的总和。包含多个工具的流的处理时间无法通过 VisionPro Deep Learning GUI 获得,而且由于处理时间包括准备和在工具之间传输视图信息所需的时间,因此无法通过汇总流的工具执行时间来估计处理时间。

Note: 对于 API,请记住,在考虑流处理时,调用 Stream.Process() 时的流中工具的处理总是序列化的。一次只能处理一个工具,除非明确使用 Tool.Process() 单个处理工具。
Note: 有关如何加速训练或处理的信息,请参阅 优化速度
Note: 有关训练和处理的一般提示和技巧,请参阅应用设计

 

结果指标

绿色分类工具的统计信息包含“召回”、“精度”和“F-得分”值。此外,它还包括一个交互式混淆矩阵(在数据库概述中可见)。

 

绿色分类高细节快速的输出指标如下所示:

  • 混淆矩阵
  • 精度、召回和 F-得分
Note: 仅为训练集中未使用的标注图像显示结果。

 

基本概念:假正值,假负值

除了统计结果组件,了解它们如何影响假阳性假阴性结果也很重要。

假设有一个用于捕获图像中缺陷的图像检测系统。如果它捕获了图像中的一个或多个缺陷,则该图像的检查结果为 ,如果它根本没有捕获任何缺陷,则该图像的检查结果为 。那么,检验任务的统计结果可以归纳为以下几点:

 

  • 假正值(也称为 I 类错误)

    • 检查系统识别图像的类,但该图像实际上并不属于该类。

  • 假负值(也称为 II 类错误)

    • 检查系统无法识别图像的类,但该图像应该已被识别为属于该类。

 

基本概念:精度、召回和 F-得分

然后,使用以下指标对假正值和假负值再次进行汇总并表示:精度和召回、所有VisionPro Deep Learning工具中使用的统计结果。

 

  • 精度
    • 低精度的神经网络通常无法对应正确分类的图像(测试数据)进行正确分类,因此它会返回许多假正值判断(1 类错误)。
    • 高精度的神经网络通常能够成功地正确分类图像数据(测试数据),但如果与低召回结合使用,则可能会出现许多假负值判断(2 类错误)
  • 召回
    • 低召回的神经网络通常无法对应分类的图像(测试数据)进行充分的分类,因此它会返回许多假负值判断(2 类错误)。
    • 高召回的神经网络通常能够对图像(测试数据)进行充分的分类,但如果与低精度结合使用,则可能会出现许多假正值判断(1 类错误)

 

总之,

  • 精度 - 已检测到的分类与标注分类相匹配的百分比。
  • 召回 - 工具正确识别的标注类的百分比。
  • F-得分 - 召回和精度的调和平均值。

 

几乎所有检查案例(可能有例外)的理想统计结果同时包括高精度和高召回

Note: 有关如何优化精度、召回和 F1 得分的信息,请参阅优化精度、召回、F-得分

 

绿色分类的混淆矩阵

混淆矩阵是基本事实与工具预测的直观表示。绿色分类工具的混淆矩阵是召回和精度得分的图形表示。左侧的混淆矩阵是右表的表示。如果您单击数据库概述上混淆矩阵中的每个圆圈,表格的每个单元格中的相应项目(视图)将显示在视图浏览器上。

 

 

预测类

Bauble

Beef

Grizzly

Key

Nuts

实际类

Bauble

18

2 2 2  

Beef

 

23

   

1

Grizzly

   

24

   

Key

6    

18

 

Nuts

  2    

22

 

混淆矩阵单元格的颜色表示预测视图的数量(单元格的值)与标注视图的总数(行总和)的比率。颜色越深表示比率越高,颜色越浅表示比率越低。

 

例如,索引 (1,1) 处的单元格的颜色是深红色,因为在标签为“Bauble”的视图中,分类为“Bauble”的视图的数量是 18,它占标签为“Bauble”的视图的 75% (18/24)。

 

又例如,索引 (1,2) 处的单元格的颜色是黄色,因为在标签为“Bauble”的视图中,分类为“Beef”的视图的数量是 2。分类为“Beef”的视图数量占标签为“Bauble”的视图的 8.3% (2/24)。

 

通常建议将较暗的单元放置在混淆矩阵的对角线索引处,因为它代表理想的结果。

性能良好

性能不佳

 

混淆矩阵表中的变量

变量 说明
标记 类标签。
已找到 分裂(预测、标记)为此类的视图总数。
训练 标注为此类并包含在训练集中的视图总数。
已标注 标注为此类的视图总数。
n/c
(未分类)

不在训练集中且其分数(类概率)低于阈值的视图的比例。

召回

在标记为此类且不在训练集中的视图中正确分类的视图的百分比。有关详细信息,请参阅以下部分。

精度 分类为此类且不在训练集中的视图中正确分类的视图的百分比。有关详细信息,请参阅以下部分。
F-得分 上面计算的精度和召回的调和平均数。

 

混淆矩阵计算:所有视图与未训练视图

混淆矩阵中的“计数”选项提供从所有视图(全部)或仅从未包括在训练集中的视图(未训练视图)计算的当前工具的结果。您可以在从每个视图(包括训练和测试图像)生成的结果和仅从作为测试图像的未训练视图生成的结果之间切换。

 

绿色分类的精度、召回、F-得分

使用未用于训练工具的数据计算精度和召回。F-得分是精度和召回的调和平均数,因此它也基于不在训练集中的数据得出的。您可以使用显示过滤器手动计算出与混淆矩阵表中的值相同的值。

 

预测类

Bauble

Beef

Grizzly

Key

Nuts

实际类

Bauble

18

2 2 2  

Beef

 

23

   

1

Grizzly

   

24

   

Key

6    

18

 

Nuts

  2    

22

 

  • “Beef”类的精度计算示例(显示筛选语法)

    • 真正值:best_tag='Beef' 和 tag![name='Beef'] 未训练

    • 假正值:best_tag='Beef' 和 tag![name!='Beef'] 未训练

    • 精度 = 真正值/(真正值 + 假正值)

  • “Beef”类的召回计算示例(显示筛选语法)

    • 真正值:best_tag='Beef' 和 tag![name='Beef'] 未训练

    • 假负值:best_tag!='Beef' 和 tag![name='Beef'] 未训练

    • 召回=真正值/(真正值+假负值)

  • “Beef”类的 F-得分计算示例

 

精度计算

对于绿色分类工具,精度的计算结果为检测到的与已标注类相匹配的类的百分比。

工具计算的精度是预测为类 i 的正确分类视图的百分比:

例如,“鸡胸肉”类的精度为 90% 表示神经网络在 10 次中有 1 次会将鸡胸肉图像与其他类混淆。

 

预测类

鸡胸肉

鸡腿

肉片

翅根

颈部

竹签

切片的鸡胸肉

大腿

翅膀

实际类

鸡胸肉

19

           

1

   

鸡腿

 

14

   

2

   

2

2

 

肉片

   

20

             

翅根

     

19

1

         

       

18

         

颈部

   

2

   

17

       

竹签

1

         

13

     

切片的鸡胸肉

4

 

4

       

14

   

大腿

       

1

   

2

16

 

翅膀

                 

20

 

召回计算

对于绿色分类工具,召回是工具正确识别的标注类的百分比。

工具通过标注为类 i 且正确分类为类 i 的已分类视图的分数计算召回得分:

例如,“鸡胸肉”类的召回为 90% 表示神经网络在 10 次中有 9 次会对鸡胸肉图像进行正确分类。

 

预测类

鸡胸肉

鸡腿

肉片

翅根

颈部

竹签

切片的鸡胸肉

大腿

翅膀

实际类

鸡胸肉

19

           

1

   

鸡腿

 

14

   

2

   

2

2

 

肉片

   

20

             

翅根

     

19

1

         

       

18

         

颈部

   

2

   

17

       

竹签

1

         

13

     

切片的鸡胸肉

4

 

4

       

14

   

大腿

       

1

   

2

16

 

翅膀

                 

20

 

F-得分计算

对于绿色分类工具,F-得分提供收回精度值的调和平均数。F-得分往往是工具整体准确性的最佳衡量标准。

要优化工具,请考虑以下操作:

  • 为了绝对避免假阳性,请将目标设定为精度得分为 100
  • 为了绝对避免假阴性,请将目标设定为收回得分为 100

否则,请设定以下目标:

  • 对于稀疏类很重要的不平衡问题,请使用 F-得分
  • 使用所有类的平均 F-得分
  • 将阈值处理参数设置为 0%,以避免未分类视图的比率发生变化。
Note: 如果您获得的结果意外表现不佳,并怀疑因表现不佳而错误标注或杂乱标注,您可以检查每个视图的标签质量级别,并更正错误的标签。有关详细信息,请参阅使用标签检查优化标注