`

LARGE LANGUAGE MODELS AS ‘HIDDEN PERSUADERS’: FAKE PRODUCT REVIEWS ARE INDISTINGUISHABLE TO HUMANS AND MACHINES∗

创建于 更新于

摘要

本报告通过三项系统性研究,首次实证比较了人类与先进大型语言模型(LLMs)在辨别真假产品评价中的表现,发现双方准确率均仅略高于随机水平,且LLMs在检测造假内容时表现不如人类,显示生成与识别能力严重失衡。此外,研究揭示了人机在判断真实性时采用不同启发式策略:人类存在“怀疑偏差”,更倾向怀疑过度正面的评价,而LLMs更依赖文本表层特征如长度与复杂度,且表现出“真实性偏差”,普遍将评价误判为真实。这些发现凸显计算机生成内容对电商评价体系的潜在威胁,并呼吁发展更有效的认证机制来确保平台及消费者的信任安全 [page::0][page::1][page::9][page::12][page::15][page::16]

速读内容


人类对真假产品评论辨别力有限 [page::9][page::10]


  • 人类参与者整体分类准确率仅为50.82%,接近随机水平。

- 对真实评论的识别(65.8%正确识别率)明显优于虚假评论的识别(35.8%正确识别)。
  • 参与者自信心普遍高于实际准确率,且自信与准确度无明显相关性。

- 年龄与识别准确率呈负相关,年轻群体稍表现更好。

先进LLMs检测虚假评论的表现及局限性 [page::12]


| 模型名称 | 准确率 | 精确率 | 召回率 | F1分数 | 平均置信度(标准差) | 重复试验一致率 |
|------------------------|-------|-------|-------|--------|---------------------|-------------|
| ChatGPT-o1 | 50.0% | 0.752 | 0.507 | 0.348 | 85.93 (2.91) | 98% |
| DeepSeek-R1 | 38.0% | 0.346 | 0.347 | 0.346 | 79.87 (4.47) | 78% |
| Grok-3 | 50.0% | 0.250 | 0.500 | 0.333 | 84.86 (8.32) | 100% |
| Gemini-2.0-FlashThinking| 48.0% | 0.425 | 0.467 | 0.380 | 84.97 (6.30) | 80% |
| ChatGPT-4o | 50.0% | 0.482 | 0.493 | 0.397 | 90.62 (5.31) | 78% |
| Gemma-3-27B-it | 35.6% | 0.434 | 0.345 | 0.345 | 87.73 (6.83) | 80% |
| Qwen2.5-Max | 48.0% | 0.430 | 0.474 | 0.377 | 85.36 (7.52) | 78% |
  • 所有模型均偏向将评论判定为真实,导致对虚假评论召回率极低,最高仅约9%。

- ChatGPT-4o表现最佳但仍未超越人类在虚假评论识别上的准确率。
  • LLMs的高置信度反映其过度自信,实际能力不足。


影响真假评论认定难度的文本特征分析 [page::14][page::15]


  • 高评分真实评论更难被判断为真实,且人类和LLMs判断分歧最大,表明人类倾向怀疑过度正面的评价。

- 对于LLMs,评论长度及句子复杂度正相关于识别准确率,而人类则更受书写错误数量影响。
  • 对虚假评论,LLMs对长文本和积极情绪表现出误判。

- 人类展现“怀疑偏差”,更倾向于质疑过于完美的评价;LLMs展现“真实性偏差”,过度信任详尽文本。

深度阅读

深度解析报告:《大型语言模型作为“隐形说服者”:假产品评论对人类和机器均不可辨识》



---

一、元数据与报告概览


  • 报告标题:《LARGE LANGUAGE MODELS AS ‘HIDDEN PERSUADERS’: FAKE PRODUCT REVIEWS ARE INDISTINGUISHABLE TO HUMANS AND MACHINES》

- 作者:Weiyao Meng 等多位学者,来自诺丁汉大学商学院N/LAB、Haydn Green创新创业学院以及英国Strategic Innovation Ltd。
  • 发布日期:2025年初(内部文档暗示,部分引用年份最大到2025)

- 研究主题:大型语言模型(LLMs)和生成式人工智能(GenAI)在生成假产品评论中的表现与影响,特别聚焦人类和机器识别真伪假评论的能力比较。

核心论点
  • 生成式AI导致假评论的制造变得极为容易且逼真,传统辨别真假的方法已经失效。

- 人类对真假评论的识别能力仅有约50.8%的准确率,基本等同随机猜测。
  • 同样,主流LLMs在鉴别评论真伪上表现不佳,甚至比人类更差。

- 人类和LLMs采用了不同的判断策略,导致误判类型不同,展现出认知上的“怀疑偏见”和机器的“真实性偏见”。
  • 该研究呼吁通过购买验证等机制保障评论系统的可靠性,避免大规模机械化的欺诈行为对消费者信任的破坏。[page::0,1,2]


---

二、逐节深度解读



2.1 引言及背景



报告开篇指出,产品评论是电商消费者决策的关键影响因素,随着生成式AI和大型语言模型的发展,制造虚假评论的门槛大幅下降。作者强调,虽然对AI技术替代人力劳动的担忧广泛存在,但其在消费说服领域的影响受关注较少。新兴的LLMs成为“隐形说服者”,为营销人员提供自动化、跨语言、低成本制造虚假评论的工具,从而潜在地操控消费者认知。

背景部分分析了AI生成内容的真实性判别难题,特别是产品评论因其语言自由、结构宽松的特性,对AI与人类识别均具挑战。提出三大研究问题:
  • 人类能否分辨真假评论?

- LLMs自身能否分辨真假评论?
  • 假评论的哪些特征导致其难以辨识?


这为后续三个实证研究奠定基础。[page::0,1,2]

2.2 相关工作综述



2.2节对“消费者如何判断评论真实性”及“AI如何进行真假判定”进行了梳理,聚焦三大方面:
  • 认知模型:基于Chaiken(1980)启发式-系统式模型,揭示人类评估信息真实性时既有系统性思考,也依赖启发式短路(如信息长度、权威性等表层线索),但受到认知资源限制和自证偏差的影响,易受先验信念影响而判断失误。
  • 文本启发式:人们往往根据评论文字长度、详尽度、正负情绪平衡以及语法、拼写错误率等文本特征判断真实性。同时,存在消极评论偏重原则,即人们更倾向于相信负面评论,认为正面评论过多时反而降低可信度。
  • AI判定机制:AI检测依赖诸如文本长度、语法模式、话题分布等表层特征,且缺乏真正的语义理解,表现不稳定。LLMs依靠统计预测生成文本,无法进行反思或真正“理解”,导致检测假评论的能力受限。


报告还指出现有人类与机器判断策略的显著差异:人类基于直觉和认知负担做出决策,而机器更多依赖统计特征,这种差异为研究提供了解释框架。[page::2,3,4]

3 研究一:人类能否区分真假评论?


  • 数据来源:选取2023年亚马逊“家居与厨房”品类真实评论作为样本,分析了评论长度、句长变异、大小写使用、代词频率、语态、俗语及拼写错误等诸多维度,形成了对真实评论多样性和特征的细致画像(表1)。例如,真实评论中有显著的拼写错误(50%以上)和不规则标点,且正面评论通常更规范,差评则更随意。
  • 假评论生成:基于真实评论特征设计详细Prompt,综合考虑上述语言习惯与错误率,使用ChatGPT生成假评论。重点包括评论长度符合真实分布、适度错误植入、评论情绪与评分一致、避免过度格式化等(见表2)。
  • 实验设计:邀请288位英国成年英语母语者参与,分别对50条评论(25条真实,25条假)做“真假”判别,并对自己的判断信心进行评分。评论顺序随机,确保实验设计科学。
  • 结果

- 人类总体准确率仅50.82%,几乎与随机猜测相当。
- 识别真实评论正确率较高(65.8%),但识别假评论正确率仅为35.8%。
- 参与者普遍自信,其平均信心水平远高于实际表现。
- 年龄负相关,年轻群体表现稍优;教育水平、LLM使用经验与识别准确率无显著联系。
- 任务过程中准确率有轻微提升,信心和反应时间逐渐降低,反映认知负荷和不确定性的增加。
  • 总结:人类识别假评论面临巨大挑战,同时过度自信可能使消费者容易被虚假信息误导。[page::5,6,7,8,9,10,11]


4 研究二:LLMs能否区分真假评论?


  • 模型选择:涵盖七款领先LLMs,包括ChatGPT(两个版本)、DeepSeek-R1、Grok-3、Gemini-2.0、Gemma-3与Qwen2.5,确保覆盖开源、商业及不同开发商。
  • 方法:同样使用研究一的50条评论,模型分三轮独立判定“真实”或“假”,并给出置信度。禁用会话上下文存储,保证每次判断独立,默认生成参数。
  • 评估指标:与人类评测保持一致,计算准确率、精确率、召回率及F1分数,分别针对真实与假评论。
  • 结果(见表5、6及图1b):

- 准确率均接近或低于50%,几乎与随机持平。
- 所有模型识别真实评论表现较好(召回率高),但识别假评论严重不足(召回率近0),特别是Grok-3,完全将所有评论判为真。
- ChatGPT-4虽然准确率50%且一致性最高,但检测效果仍不及人类。
- 模型普遍展现“真实性偏见”,倾向于判定大多数评论为真实。
- LLM们置信度高于人类,但准确性低,反映过度自信。
  • 总结:当前LLMs虽能生成逼真文本,却无法可靠识别AI生成的假评论,其生成能力远强于检测能力。[page::11,12,13]


5 研究三:哪些特征使假评论难以辨识?


  • 分析思路:统计分析50条评论的语言特征与判别难度的相关性,结合人类准确率、LLM准确率和两者判决相似度(余弦相似度)。
  • 真实评论间关联(图3a):

- 评论评分是最关键特征,评分高的真实评论更难被识别(人类与LLM准确率均负相关,r约-0.72和-0.45)。
- 人机对高分评论的判断一致度最低,表现出人类对高评价评论存在怀疑倾向,而LLMs则较易接受它们为真。
- 评论长度(词数、句长及结构多样性)正相关于LLM正确率,说明更丰富的文本有助于机器判断。
- 拼写和语法错误增加识别率,反映人类和机器都视错误为非真实信号。
- 情绪极端正面降低正确率。
  • 假评论特征关联(图3b):

- 人机总体对假评论的判断更分歧,尤其在评分、文本长度及情感极性方面。
- 高评分假评论更容易被人类识别为假,但LLM对此特征不敏感。
- 文本越长越复杂,LLM识别准确率反而下降,说明长度多样性人为制造了迷惑因素。
- 情绪极端正面同样降低机器识别准确率。
  • 综合结论

- 人类表现出“怀疑偏见”——对“太好”的评论保持怀疑,易将精炼完整的正面评论误判为假,而对稍有瑕疵却表面平平的假评论则更易误判为真。
- LLM则倾向根据文本冗长度和表面丰富性判断真实性,造成对假评论的误判。
- 两者策略截然不同,但均表现有限,尤其对假评论的判别能力不足。
  • 理论架构:人类综合认知、情境及经验判断,LLM基于统计语言模式,背景差异导致判断失衡,凸显技术和认知层面的根本差异。[page::13,14,15]


---

三、图表与图片深度解读



图1:混淆矩阵


  • 图1(a)(参与者判断)显示:

- 真评论被正确识别比例为32.9%,错误识别为17.1%。
- 假评论被正确识别32.1%,错误识别为17.9%。
- 合计准确率约50.8%,与随机猜测相近。
  • 图1(b)(LLM判断)显示:

- 真评论正确识别率更高(41.3%),假评论正确识别率极低(4.7%)。
- LLM整体表现倾向于将评论判断为真。
  • 对比:人类较LLM在识别假评论时表现稍优,而LLM整体置信度高但准确度低。


图2:年龄与准确率关系


  • 图示散点图和拟合二次曲线表明,年龄越大,识别准确率越低,尤其40岁以上趋势显著下降。


图3:评论特征与识别指标的相关性热图


  • 分别针对真评论(3a)与假评论(3b)展示特征与人类准确率、LLM准确率及人机判断一致性的Spearman相关系数。

- 明显出现人机相异的模式,如评分对真评论的判别影响呈负相关,但对假评论的影响为正相关,人机一致性反映出较大分歧。

---

四、估值分析



本报告为社会科学与计算机交叉领域研究,不涉及传统意义上企业或资产的财务估值,但采用了严格的统计与分类学指标体系,包括:
  • 二分类评价指标:准确率(accuracy)、精确率(precision)、召回率(recall)、F1分数(综合衡量精确率与召回率的调和均值)。

- 该指标体系明确区分正负类(真评论为正类,假评论为负类),同时对两类指标均衡考虑。

此外,比较了人类整体判断能力及各LLM模型在同一指标上的表现,确保横向一致性与公平性。

---

五、风险因素评估



报告识别出的主要风险包括:
  • 真假评论区分难度高,导致消费者容易受误导,损害购买决策质量及市场信任。

- LLM生成能力强但检测能力弱,技术性“失衡”使得假评论泛滥的风险急剧上升。
  • 人类过度自信但准确率低,自信错位增加了误判假评论的概率。

- 僵化的判断启发式,如对极正面评论的怀疑与对文本长度的依赖,为欺诈者提供可乘之机。
  • 数据污染风险,广泛的AI生成内容可能导致电商平台以及相关研究的数据源被污染,长期影响消费者行为模型及市场策略制定。


报告建议结合身份验证、内容水印、平台披露等技术手段,同时辅以伦理监管,缓解和控制上述风险。[page::15]

---

六、批判性视角与细微差别


  • 偏见与局限

- 报告在生成假评论环节依赖单一LLM,可能限制了假评论的多样性和代表性,未来可用多模型集成以增强研究普适性。
- LLM检测评估未深入调优Prompt和模型参数,实际中模型性能或有提升空间。
- 评估限定于英语及特定文化背景,跨文化和多语言环境下的判别策略及挑战未充分涉及。
- 实验环境人工设定,缺乏真实电商平台中复杂多变的上下文和动态互动。
  • 强观点节点

- 明确将当前LLM生成与检测能力的不平衡视为AI的“黑暗面”,并警示消费者的潜在风险。
- 强调“怀疑偏见”和“真实性偏见”作为人机识别差异的核心,理论上有较高创新和应用价值。
  • 潜在矛盾

- 一方面指出人类利用启发式策略易被AI假评论欺骗;另一方面实验中年轻人表现稍好,暗示适应性可能存在。
- 强调LLM识别失败,但部分模型具备高稳定性和部分识别能力,现实中可能尚有技术突破空间。

---

七、结论性综合



该研究首次系统比较了人类与多款主流大型语言模型在识别真实与AI生成产品评论的表现,揭示如下核心发现:
  • 极难区分:不论是人类还是最先进LLM,都仅能以约50%的准确率检测真假评论,接近随机水平,且均表现出明显的判断偏差与信心错置。
  • 不同判断策略

- 人类普遍对极正面、完美的评论持怀疑态度,受认知偏差影响存在“怀疑偏见”,导致易错判。
- LLM倾向于根据文本的表层特征如长短、复杂度做判断,体现“真实性偏见”,对长且详尽的假评论误判为真。
  • 技术挑战:生成能力远超检测能力的失衡,使得电商和消费者信任体系面临严重威胁,亟需技术和监管层面联合建立透明的身份验证和原创性标识机制。
  • 现实意义:研究揭示打造可信数字消费环境的关键难点,为未来在社会、技术和政策层面设计防范虚假内容扩散提供了科学依据。
  • 图表洞见

- 混淆矩阵展示了双方在人类与机器判断中的误判分布差异。
- 相关性分析揭示影响真假评论判别难度的文本特征,特别是评论评分、情绪极性和文本丰富度。
- 年龄与识别能力负相关,提示数字素养和代际差异在未来可能成为提升防骗能力的切入点。

总体而言,报告权衡了技术潜力与现实威胁,呼吁产业界、学术界及监管机构共同应对快速演进的生成式AI带来的伦理与安全挑战。[page::0-17]

---

综上所述:



本报告以严谨的实验设计和多维度分析,全面展示了生成式AI在产品评论领域的潜在风险和识别难题。关键结论体现了当代AI技术在内容造假与鉴别上的巨大张力,强调了提升消费者数字素养与构建技术伦理防护网的双重必要性。同时,报告中的数据、图表及分析逻辑严密,具有较强的学术价值和实践指导意义,是相关领域不可或缺的前沿参考资料。

报告