人工智能的蓬勃发展让普通消费者能够使用ChatGPT等人工智能聊天机器人从既有广度又有深度的提示中获取信息。然而,这些人工智能模型仍然容易产生幻觉,即给出错误的答案。此外,人工智能模型甚至可以提供明显错误的(有时是危险的)答案。虽然一些幻觉是由错误的训练数据、泛化或其他数据收集副作用引起的,但牛津大学的研究人员从另一个角度着手解决这个问题。他们在《自然》杂志上发表了一种新开发的检测虚构行为(或任意和错误的生成)的方法的细节。
LLM通过在训练数据中寻找特定模式来找到答案。这种方法并不总是有效,因为人工智能机器人仍然有可能找到一个不存在的模式,就像人类可以看到云中的动物形状一样。然而,人类和人工智能之间的区别在于,我们知道那些只是云中的形状,而不是天空中漂浮的真正的大象。另一方面,LLM可能会将此视为真理,从而导致他们产生幻觉,想象尚不存在的未来技术,以及其他胡说八道。
牛津大学的研究人员使用语义熵来根据概率确定法学硕士是否产生幻觉。语义熵是指相同的单词具有不同的含义。例如,沙漠可能指地理特征,也可能意味着抛弃某人。当法学硕士开始使用这些词时,它可能会对自己想要表达的意思感到困惑,因此通过检测法学硕士输出的语义熵,研究人员旨在确定它是否可能产生幻觉。
使用语义熵的优势在于,它可以在LLM上工作,而无需任何额外的人工监督或强化,从而可以更快地检测出AI机器人是否产生了幻觉。由于它不依赖于特定于任务的数据,您甚至可以将其用于LLM以前从未遇到过的新任务,让用户更加信任它,即使这是AI第一次遇到特定问题或命令。
研究团队表示,“我们的方法可以帮助用户了解何时必须格外小心使用LLM,并为使用LLM开辟新的可能性,否则LLM会因其不可靠性而无法使用。”如果语义熵确实被证明是一种检测幻觉的有效方法,那么我们可以使用这些工具来仔细检查人工智能的输出准确性,让专业人士相信它是更可靠的合作伙伴。然而,就像没有人是绝对可靠的一样,我们也必须记住,即使使用最先进的错误检测工具,LLM也可能出错。因此,明智的做法是始终仔细检查ChatGPT、CoPilot、Gemini或Siri给您的答案。