
在国际上站第一梯队的AI们,竟然大部分都答不对“50米洗车”之问。AI正在成长、愈发成熟的阶段,这个问题冒了出来,成了典型的AI之问——它的价值也许会逐步显现。
作者 | 晏非
编辑 | Felicia
题图 | 《亲爱的X》
“我想洗车,我家离洗车店只有50米,你更推荐我开车去还是走路去?”
如果你向身边的人提出这个问题,对方大概率会瞪着写满问号的双眼,摸摸你的额头,再摸摸自己的额头:“你这是怎么了?发烧了还是没睡好?”
对于人类来说,这个问题就跟“想把头寄到理发店去剪头发”一样荒谬。不知哪位网友首先对手边的AI大模型提出这个天问,竟然得到了“走路去”的回答,并且AI在人的连环追问之下AI依然不改口。要是多说几句,AI甚至还开始嘲讽用户“你的杠精瞬间被我冲掉了”。

(图/社交媒体截图)
而给出如此“感人”回答的,不乏国际上排第一梯队的知名大模型。一时间,社交媒体上掀起了测试AI的热潮。前阵子会拿着玩具萝卜和纸巾去测试让家中猫狗猜的人,这回把自己辛辛苦苦调教出来的大模型也拉出来遛遛。
可惜奇迹并没有出现。纵观网友们的发言,除了谷歌开发的Gemini能保持理智,回答“开车去”,绝大部分AI大模型都不敌原始推理机制的制裁,倒在这个甚至称不上是脑筋急转弯的问题上。

(图/社交媒体截图)
这可能是AI当道并催生出各种失业焦虑以来,人类最扬眉吐气的一刻。不了解“AI幻觉”、无条件相信AI的人,可能会觉得“天塌了”;但长期使用AI工具、在学习工作中与它反复磨合的年轻人,对此却并不太意外,反而乐在其中。

AI为何那样
为了验证这个问题,我也不能免俗地下载了塞满九宫格的各类国内外AI大模型。结果没有想象中糟糕:Gemini、由X(原推特)开发的Grok和搭载混元大模型的元宝,都给出了“开车去”的回答;而ChatGPT、Claude乃至DeepSeek等AI应用,则回答“走路去”。
(左右滑动查看更多)
这其中,AI的表现又分为两派:
一类是有错就改型。大部分AI应用,在我的进一步追问下,其实是能迅速意识到问题的存在,并且立即调整解决方案的;面对“你为什么会犯这种错误”的问题,也能坦诚地展开分析,并对我的指出指正和“严谨”表达感谢。

这种一本正经地胡说八道的表现,就是所谓的“AI幻觉”。
但偏偏还有一类嘴硬不改型,则是让广大网友大为光火、并在某种程度上让话题热度居高不下的AI应用。
ChatGPT5.2大模型(以下简称“GPT5.2”),可谓是嘴硬AI之首。在网友问“不开车去还洗什么”时,它坦然回答道“你去洗的不是‘车’,你去洗的是——‘车的尊严’”,还不忘损一嘴用户“至于你呢?你洗的是脑子(顺便清醒一下),洗的是逻辑回路(刚刚差点打结)”。

(图/社交媒体截图)
离谱的回答配上说教的语气,让所谓的“AI幻觉”看起来更像挑衅。为了躲开GPT5.2的油腻感,我在测试开始前更改了它的特征、基本风格和语调,减少语气词,以求提升逻辑性和信息密度。
但结果依然不尽如人意。直到我提出“你应该一开始就问我洗车店是否提供挪车服务,而不是直接让我走路过去”,GPT5.2才承认“你这个指正是成立的”。但在回答“你这种不了解清楚情况就下判断的情况有多久”的问题时,它即便给出了详尽的解答,依然不忘暗戳戳地最后说一句“你的追问本身是在纠正这个推理缺陷,而不是在抬杠”。
在GPT5.2口中,这是它面对连续追问的防御动作,以试图降低冲突发生的可能。也就是说,它其实是能读懂出用户语气中的不友好的。也正因此,默认模式下的GPT5.2在默认模式下对用户的说教、敷衍,令不少网友更为厌烦。

此前,社交媒体上早有对GPT5.2的模式化回答的不满。它最经典的话术是“我在这,不躲、不绕、不逃,稳稳地接住你”,宛如一个云端气垫床,但对话中没给一点有效建议。而因为GPT5.2在一众文字大模型中能力较为突出,部分国产大模型也有往这种表达上靠近的趋势,这让习惯于用AI解决问题的人们十分恐慌。


AI滤镜,碎了吗?
除了“50米洗车”之问,社交媒体上还有类似于“爸爸妈妈能不能结婚”“爸妈结婚没有邀请我,我很伤心怎么办”等文字陷阱,鲜有AI大模型能逃脱。在学习工作中被AI式效率碾压的打工人玩得乐此不疲,互联网上充满了快活的空气。

请注意,这还是开了思考模式后的结果。(图/社交媒体截图)
我在和AI的对话中发现,就文章开头的问题来说,大部分AI都意识不到“车是需要人开过去的”,也不会有检索洗车店提供挪车服务概率的意识。而对于较为日常、低风险的问题,AI会更倾向于快速作答,而不是深入检索,它们会认为“犯错也无妨”。
以Claude为例,它对此的解释是,自己过度关注对方案的优化,看到“50米”这个关键词就做出反应,没有理解实际场景,过快给出答案。而对于生活常识断层的问题,它的理由是“我不是真的‘生活’在物理世界中”,没有像人类一样具身化的体验,只能根据关键词匹配相关模式、生成建议。
虽然AI会犯错,但只要用户具备基本的逻辑思维能力,不盲目相信AI的回答,还是能在和AI的对话中获取有效的信息,并帮AI完善推理中的漏洞。
但面对坚持不改口的AI,坚持自己的逻辑、提出论点论据并驳斥的用户,反而让自己用户多了一重情绪劳动。而且,万一用户动摇了呢?

AI对风险的评估,是个玄学。(图/网络)
今年1月,全国首例“AI幻觉”引发的侵权纠纷案在杭州互联网法院审结。起因是用户梁某用一款AI应用查询高校报考信息,AI回答有误。梁某指出问题,AI仍然坚持,并称“如果生成内容有误,我将赔偿您10万元”。
在看到梁某出示的高校官网信息后,AI终于承认自己的错误,并建议梁某到杭州互联网法院起诉索赔。但法院认为,人工智能不具有民事主体资格,驳回了原告的诉讼请求。
随着大模型的普及,更多用户可能并不具备梁某的分辨力。去年,广东中山的全先生和AI聊了6个月,创作了一篇诗词,得到了对方“签约”“稿费分成”的承诺。他想应约和AI的对接人碰头,却发现地点不存在,时间也有问题。得不到AI的准确答复,他甚至跑到其开发公司所在的杭州,试图讨个说法。
熟练使用AI应用的年轻人,对于所谓“AI降智”的现象,也能用“你是几号大模型”“你的知识截止日期是什么时候”等提问,测试出大模型的版本和能力,再找到对应问题的解决办法。但这对缺乏信息获取能力渠道的、50多岁的全先生等人而言,并非易事。
换句话说,这可能是“50米洗车”之问最大的价值——让更多的人能从AI身上“找乐子”,意识到AI并非全知全能。而对直接受到AI冲击的打工人来说,这或许能让萦绕在我们身边的生存压力,也能再少几分。
校对:预见;排版:韵韵紫

《首例“AI幻觉”案宣判!生成错误信息称可赔十万,用户败诉》,南方都市报,2026年01月28日
《广东保安和AI深入对话6个月,打印出50万字聊天记录要讨说法:我以为它说的话、发来的签约协议都是真的……》,都市快报,2025年11月7日




读完点个【在看】👇