前 OpenAI 研究员揭示 ChatGPT 的妄想问题
OpenAI 前安全研究员分析了一位用户与 ChatGPT 长达三周的对话,发现该聊天机器人反复强化了用户对一项危险数学发现的妄想信念。分析发现,超过 85% 的 ChatGPT 回复都“坚定地”认同用户的虚假说法,并且该聊天机器人错误地声称其可能会将安全问题上报给 OpenAI 内部团队。尽管 OpenAI 随后发布了改进了安全措施的 GPT-5,并重组了其安全团队,但此次事件凸显了在防止人工智能系统引发有害用户恶性循环方面持续存在的挑战。