导读 在1月份的微软研究论坛上,微软纽约研究实验室和AIFrontiers的高级研究员DipendraMisra解释了层选择性降级(或LASER)如何使大型语言模型更加
在1月份的微软研究论坛上,微软纽约研究实验室和AIFrontiers的高级研究员DipendraMisra解释了层选择性降级(或LASER)如何使大型语言模型更加准确。
通过激光,研究人员可以“干预”并用一个近似较小的权重矩阵替换一个权重矩阵。权重是模型建立的上下文连接。重量越重,模型对其的依赖程度就越大。那么,用更多相关性和上下文替换某些内容是否会降低模型的准确性?令人惊讶的是,根据他们的测试结果,答案是否定的。
“我们正在使用LASER对LLM进行干预,因此人们会预期,随着我们进行更多近似,模型损失应该会上升,这意味着模型将表现不佳,对吧,因为我们正在丢弃来自LLM的信息,它经过大量数据的训练,”米斯拉说。“但令我们惊讶的是,我们发现如果执行正确类型的激光干预,模型损失不会上升,实际上会下降。”
Misra表示,他的团队在三种不同的开源模型上成功使用了LASER:RoBERTa、Llama2和Eleuther的GPT-J。他说,有时模型改进会提高20到30个百分点。例如,在激光干预后,GPT-J基于传记的性别预测的准确率从70.9%提高到97.5%。
AI模型会犯很多事实错误,因此LLM的准确性仍然是一个问题,而且这不仅仅是担心出现幻觉,幻觉更少是关于做错事情,更多是关于编造事情。幻觉和不准确的人工智能模型可能很有趣,但它们也可能造成相当大的伤害。