何时应该信任AI模型

导读由于机器学习模型可能会做出错误的预测，研究人员通常会让模型具备告诉用户他们对某个决定有多自信的能力。这在高风险环境中尤其重要，例如

由于机器学习模型可能会做出错误的预测，研究人员通常会让模型具备告诉用户他们对某个决定有多自信的能力。这在高风险环境中尤其重要，例如当模型用于帮助识别医学图像中的疾病或筛选求职申请时。

但模型的不确定性量化只有在准确的情况下才有用。如果一个模型说它有49%的把握认为医学图像显示胸腔积液，那么49%的时间里，这个模型应该是正确的。

麻省理工学院的研究人员推出了一种可以改善机器学习模型中不确定性估计的新方法。他们的方法不仅比其他技术能产生更准确的不确定性估计，而且效率更高。

此外，由于该技术具有可扩展性，因此可以应用于越来越多地部署在医疗保健和其他安全关键情况下的大型深度学习模型。

这种技术可以为最终用户(其中许多人缺乏机器学习专业知识)提供更好的信息，他们可以使用这些信息来确定是否信任模型的预测或是否应该将该模型部署到特定任务中。

“很容易看出这些模型在它们表现非常好的场景中表现非常好，然后假设它们在其他场景中也会同样出色。这使得推动这类旨在更好地校准这些模型的不确定性以确保它们符合人类对不确定性的观念的工作变得尤为重要，”主要作者、多伦多大学研究生、麻省理工学院访问学生NathanNg说道。

吴恩达与多伦多大学计算机科学助理教授RogerGrosse以及电气工程与计算机科学系副教授、医学工程科学研究所和信息与决策系统实验室成员MarzyehGhassemi共同撰写了这篇论文。这项研究将在国际机器学习会议上发表。

量化不确定性

不确定性量化方法通常需要复杂的统计计算，而这些计算无法很好地扩展到具有数百万个参数的机器学习模型。这些方法还要求用户对用于训练模型和数据做出假设。

麻省理工学院的研究人员采用了不同的方法。他们使用了所谓的最小描述长度原则(MDL)，该原则不需要可能影响其他方法准确性的假设。MDL用于更好地量化和校准模型被要求标记的测试点的不确定性。

研究人员开发的技术称为IF-COMP，它使MDL速度足够快，可用于部署在许多现实环境中的各种大型深度学习模型。

MDL涉及考虑模型可能为测试点提供的所有标签。如果该点有许多适合的备选标签，则其对所选标签的信心应相应降低。

“了解模型信心程度的一种方法是告诉它一些反事实的信息，看看它相信你的可能性有多大，”吴恩达说。

例如，假设一个模型认为一张医学图像显示有胸腔积液。如果研究人员告诉模型，这张图像显示有水肿，并且模型愿意更新其信念，那么模型对最初的决定应该不那么有信心。

使用MDL，如果模型对标记数据点有信心，它应该使用非常短的代码来描述该点。如果它对自己的决定不确定，因为该点可能有许多其他标签，它会使用较长的代码来捕捉这些可能性。

用于标记数据点的代码量称为随机数据复杂度。如果研究人员询问模型，在有相反证据的情况下，它有多愿意更新对数据点的信念，如果模型有信心，随机数据复杂度应该会降低。

但是使用MDL测试每个数据点需要大量的计算。

加快进程

利用IF-COMP，研究人员开发了一种近似技术，可以使用一种称为影响函数的特殊函数准确估计随机数据的复杂性。他们还采用了一种称为温度缩放的统计技术，该技术可以改善模型输出的校准。这种影响函数和温度缩放的组合可以对随机数据的复杂性进行高质量的近似。

最后，IF-COMP可以高效地生成经过良好校准的不确定性量化，反映模型的真实置信度。该技术还可以确定模型是否错误标记了某些数据点，或揭示哪些数据点是异常值。

研究人员在这三个任务上测试了他们的系统，发现它比其他方法更快、更准确。

“确保模型经过良好校准确实非常重要，而且人们越来越需要检测出特定预测是否看起来完全正确。审计工具在机器学习问题中变得越来越必要，因为我们使用大量未经检查的数据来创建将应用于人类问题的模型，”Ghassemi说。

IF-COMP与模型无关，因此它可以为多种类型的机器学习模型提供准确的不确定性量化。这可以使其部署在更广泛的现实环境中，最终帮助更多从业者做出更好的决策。

“人们需要明白，这些系统非常容易出错，而且会随着时间推移不断修正。一个模型可能看起来非常有信心，但当有相反的证据时，它就会愿意相信很多不同的东西，”吴恩达说。

未来，研究人员有兴趣将他们的方法应用于大型语言模型，并研究最小描述长度原理的其他潜在用例。