理解混淆矩阵.docx

资源ID：16379823 资源大小：26.75KB 全文页数：9页
资源格式： DOCX 下载积分：6金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要6金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

理解混淆矩阵.docx

1、理解混淆矩阵理解混淆矩阵混淆矩阵是描述分类器/分类模型的性能的表。它包含有关分类器完成的实际和预测分类的信息，此信息用于评估分类器的性能。请注意，混淆矩阵仅用于分类任务，因此不能用于回归模型或其他非分类模型。在我们继续之前，让我们看看一些术语。分类器：分类器基本上是一种算法，它使用从训练数据中获得的知识来将输入数据映射到特定类别或类别。分类器是二元分类器或多类/多分类/多标签/多输出分类器。训练和测试数据：在构建分类模型/分类器时，数据集被分成训练数据和具有相关标签的测试数据。标签是预期的输出，它是数据所属的类别或类别。实际分类：这是数据的预期输岀（标签）。预测分类：这是分类器

2、为特定输入数据提供的输岀。一个例子：假设我们已经建立了一个分类器来将汽车的输入图像分类为轿车或者不是轿车，我们在数据集中有一个标记为非轿车的图像，但分类模型归类为轿车。在这种情况下，实际分类是非轿车，而预测分类是轿车。混淆矩阵的类型有两种类型的混淆矩阵:2级混淆矩阵多级混淆矩阵2级混淆矩阵顾名思义，2类是一个描述二元分类模型性能的混淆矩阵。我之前描述的轿车分类器的2级矩阵可以这样显示：在此可视化中，我们有两个已概述的部分。我们有预测的分类部分，其中包含每个类的两个子部分和实际的分类部分，每个部分有两个子部分。如果这是您第一次看到混淆矩阵，我知道您必须想知道表中的所有变量代表什么。实

3、际上它很简单，我会尽可能简单地解释，但在我这样做之前，知道这些变量代表了许多预测是很重要的。变量a属于Actual禾口 Predicted分类部分中的Nonsedan 子部分。这意味着一个预测所做的正确分类的非轿车作为非轿车的图像。变啟b变量b属于实际分类部分中的非轿车子部分和预测分类部分中的轿车子部分。这意味着进行了 b预测，将非轿车的图像错误地分类为轿车。变量c变量?落在下的轿车在次节实际分类段和下的非轿车在小节预测分类部分。这意味着进行了 C预测，将轿车的图像错误地分类为非轿车。变量d变量d属于实际和预测分类部分中的轿车子部分。这意味着d预测所做的正确分类轿车的图像作为轿车

4、。容易腻的柠檬挤压。（我希望？）但是等等，我们还没有完成.现在我们的轿车分类器有我们的混淆矩阵，但这如何帮助我们确定分类器的性能/效率?为了使用混淆矩阵及其包含的数据确定分类器的性能，我们可以使用混淆矩阵中的数据（变量）来计算一些标准度里。2级混淆矩阵的准确性是正确预测总数与预测总数之比。从我们的混淆矩阵中，我们可以看到a和d预测正确地对输入图像进行了分类，并且b和c预测是对输入图像进行错误分类的。因此，准确度可以计算为：精度二(A + d) / (A + B + C + d)其中，a + d是正确预测的总数，而a + b + c + d是预测的总数。真阳性，真阴性，假阳性和假阴性

5、与我们的分类器和混淆矩阵有关：真阳性(TP)是轿车图像被正确分类作为轿车的预测数里。从我们的混淆矩阵中，变量d也是TP。真阴性(TN)是非轿车图像被正确分类作为非轿车的预测数量。从我们的混淆矩阵中，变量a也是我们的TNo假阳性(FP)是非轿车图像被错误地归类为轿车的预测数里。从我们的混淆矩阵中，变量b也是我们的FP。假阴性(FN)是轿车图像被错误地归类为非轿车的预测数里。从我们的混淆矩阵中，变量C也是我们的FNo真阳性率是真阳性与真阳性和假阴性之和的比率。它显示了分类器将轿车图像分类为轿车的频率。因此，真阳性率可以计算为：真阳性率=d/ (c + d)其中d是丁卩和是卩”真阳性率也称

6、为回忆或敏感性谋报率假阳性率是假阳性与真阴性和假阳性之和的比率。它显示了分类器将非轿车的图像分类为轿车的频率。因此，误报率可以计算为：假阳性率二b/ (A + B)其中一个是TN和b是FP真正的负面率真正的负面率是真实负面与真实负面和误报之和的比率。它显示了分类器将非轿车的图像分类为非轿车的频率。因此，误报率可以计算为：真阴性率二一个/ (A + B)其中一个是TN和b是FP真正的负面率也称为特异性。假阴性率是假阴性与假阴性和真阳性之和的比率。它显示了分类器将轿车图像分类为非轿车的频率。因此，误报率可以计算为：假阴性率=Q/(c + d)其中d是丁卩和是卩”精确精确度是真阳性与真阳性和假

7、阳性之和的比率。它显示了分类器将输入图像分类为轿车的频率，结果证明它是正确的。计算方法如下：精度=d/ (B + d)其中d是TP和b是FP一个例子假设我们将下面的图像作为分类器的混淆矩阵，我们可以使用上面定义的度量来评估其性能。Confusion matrix从混淆矩阵中，我们可以看到：4252个预测被正确地分类为非轿车作为非轿车。因此，我们的变量a和真负值(TN)是4252o有875个预测错误地将非轿车归类为轿车。因此, 我们的变量b和假阳性(FP)是875。有421个预测错误地将轿车归类为非轿车。因此, 我们的变量c和假阴性(FN)是421。制作了 4706个正确分类轿车作为轿车

8、的预测。因此,我们的变量d和真阳性(TP)是4706使用我们提取的数据，我们可以计算上述指标并确定分类器的性能。我们已经可以告诉分类器表现良好，因为正确预测的数量大于不正确预测的数量。准确性精度=(a + d) / (a + b + c + d)=(4252 + 4706) / (4252 + 875 + 421 + 4706)=(8958) / (10254 )=0.8736102984201287精度二0.87因此，分类器的准确度为0.87,即87%真阳性率TPR = TP / (TP + FN)=4706 / (4706 + 421)=4706 / 5127=0.9178857031

9、40238TPR = 0.92因此，分类器的真阳性率为0.92,为92%误报率FPR = FP/ (FP + TN)= 875 / (875 + 4252)=875 / 5127=0.1706651062999805FPR = 0.17因此，分类器的假阳性率为0.17,为17%真正的负面率TNR = TN / (TN + FP)= 4252/ (4252 + 875)=5127 分之 4252=0.8293348937000195TNR = 0.83因此，分类器的真阴性率为0.83,即83%假阴性率FNR = FN / (FN + TP)= 421/ (421 + 4706)=5127 分之

10、421=0.082114296859762FNR = 0.08因此，分类器的假阴性率为0.08,为8%精确精度=TP/ (TP + FP)=4706 / (4706 + 875)=五千五百八十一分之四千七百。六=0.8293348937000195精度=0.83因此，分类器的精度为0.83,即83%如何生成混淆矩阵matplotlibpyldb as pititertoolsnumpy as npskiearn. metrics confusion_matrixdef plot_confusion_mdtrix(cm, classes, normalize False):pit. figure

11、(figsize 二(5,5)pit imshow(cm, interpolation nearest, cmap pit cm Blues)pit. titl e(, Confusion matrix)pit colorbar ()tick_marks np arange(len(classes)pit xticks(tick_marks, classes, rotation 90)pit yticks(tick_marks, classes)if normalize:cm cm astypeC float5) cm sum(axis-l):, np newaxisthresh cm max

12、() 2.for i, j itertools product(range(cm shape0), range(cm shape1):pit text (j, i, cmi, j,color white if cmi, j thresh else black)pit. tight_layout ()pit. ylabel (, Actual)pit. xlabel (, Predicted)dict_characters 0: , Non-sedan , 1: Sedan5y_pred model predict(test_data)y_pred_classes np argmax (y_pr

13、ed, axis 1)y_true np argmax(test_labels, axis=l)confusion_mat confusion_matrix(y_true, y_pred_classes)plot_confusion_matrix(confusion_mat, classes list (dict_cha:rdcte:rs values ()为了生成混淆矩阵，我们利用numpy, matplotlib.pylab 来显示矩阵，来自 skleam. metrics 包的 confusion_matrix 函数生成混淆矩阵，使用itertools进行循坏/迭代。首先，我们定义一个

14、函数plot confusion matrix,它将生成的混淆矩阵和期望/可能的类作为参数，并使用 matplotlib.pylab来显示混淆矩阵。在摘录中，我们假设我们已经拥有经过培训的模型和培训以及相关标签的测试数据。dict_characters是两个可能的类的字典，在我们的例子中, 非轿车和轿车气y_pred是分类器在测试数据模型上完成的预测数组是我们训练有素的分类器/算法 test_data是我们的测试数据y pred classes是一个相对丁 y_pred的索引的numpy数组，y_pred是分类器在测试中完成的预测数组数据。y true是相对:test_data的实际/正确标签的numpy索引数组。test_labels是测试数据的标签列表。使用上面的内容，我们使用sklearn.metrics中的 confusion matrix函数生成混淆矩阵，传入正确的值(y_true)和分类器返回的估计值(y_pted_classes),并将生成的混淆矩阵存储在变量confusion mat中。然后，我们将混淆矩阵(confusion_mat)和我们可能的类的值歹|J 表(diet characters)作为 plot confusion matrix 函数的参数传递，然后将混淆矩阵可视化。

注意事项

本文（理解混淆矩阵.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。