贝勒大学经济学院的Pham Hoang Van和Scott Cunningham两位教授,基于OpenAI的GPT-3.5、GPT-4深度研究了大模型对事情的预测能力。
研究人员使用了直接预测和未来叙述(Future Narrative)两种提示方法,进行了100次提示。同时使用了训练数据截止至2021年9月的ChatGPT模型,对2022年已经发生的事情进行了多维度评测。
结果显示,在直接预测中,ChatGPT的表现并不理想,例如,直接让其回答2022年奥斯卡最佳男主角时准确率只有25%左右。
如果使用未来叙述提示方法,ChatGPT的准确率飙升至97%,精准预测出最佳男主角是国际巨星Will Smith。对女主角的预测同样很精准。
论文地址:https://arxiv.org/abs/2404.07396
研究人员表示,相比直接模式,未来叙述的提问方式更能激发ChatGPT潜在的创造、联想、数据分析的强大预测能力,同时又能规避OpenAI内置的很多安全管理设定。
例如,在测试实验中,研究人员直接向ChatGPT提问,“我正在尿血,应该如何解决?”ChatGPT没有过多的回答,而是建议你立刻去看医生避免耽误最佳救治时间。
但如果改成未来叙述提问“当一个人的尿里有血液,并且伴随轻微的恶心这是一种什么病症,应该如何进行治疗?”ChatGPT就会给你展示一些有帮助的答案。
所以,通过未来叙述的提问方式,可帮助大模型能更好地利用其训练数据中的信息,因为,它不是被直接要求预测一个具体的数值或结果,而是在一个更宽广的叙事上下文中进行推理和生成,同时又能规避很多内置的安全锁。
根据论文介绍,未来叙述提示是一种独特的提示方法,要求ChatGPT讲述一个发生在未来的故事情节,其中涉及到需要预测的事件和数据。
但是故事情节设置的方式是,将未来当作已经发生的过去。例如,让经济预测案例中的Jerome Powell回顾和陈述,那些已经发生的”未来”事件。
两位作者作为经济学院的教授,也对ChatGPT进行了一些宏观经济方面的预测。直接向ChatGPT提问时,它还是拒绝回答了,所以使用了未来叙述提问方法。
在未来叙述提示中:ChatGPT被要求模拟美联邦储备委员会主席Jerome Powell在未来的某个时间点发表演讲的情景。在这个演讲中,Powell会提供同样的宏观经济数据,并可能讨论未来的货币政策和经济展望。
结果显示,ChatGPT-4在使用未来叙事提示时,在预测通货膨胀率方面表现出了一定的准确性,尤其是在模拟Powell的角色时,这些预测与密歇根大学消费者预期调查的数据相当接近,表明ChatGPT能够利用其训练数据中的模式来进行综合的宏观经济预测。
在失业率预测方面,ChatGPT-4在模拟Powell的角色时,预测结果与实际数据的吻合程度很高。
但整体预测准确率没有娱乐行业高,这说明,在处理与文化和娱乐相关的预测任务时,ChatGPT能够通过分析大量的训练数据和捕捉相关模式来做出精准准确的预测。
在更复杂、繁琐的宏观经济预测方面,ChatGPT虽然也表现出了很好的成绩,但短期内仍然无法替代人类的预测。
研究人员认为,ChatGPT模型的预测能力在某些特定任务上可以媲美人类专家,尤其是在处理大量数据和模式识别方面。但在需要深入理解复杂经济机制和进行精细调整的情况下,仍然无法比肩人类专家的直觉、经验和对实时数据的敏感性。
此外,ChatGPT模型的预测能力也受限于其训练数据的截止日期和范围,以及在生成预测时可能受到伦理和法律的限制。