`

Strategic Behavior and AI Training Data

创建于 更新于

摘要

本报告聚焦于人类创作者在其作品被用于人工智能(AI)训练数据后所产生的战略性行为变化。通过对比被纳入公开AI训练集(LITE数据集)与未被纳入的Unsplash平台贡献者,发现被处理的创作者更可能退出平台,并显著降低新作品上传频率。专业及成功摄影师的反应更强烈,同时上传作品的多样性和新颖性下降,导致训练数据集的质量与数量均受负面影响。这揭示了版权持有者利益与AI技术创新之间的重要权衡,为版权及AI政策制定提供了重要实证依据 [page::0][page::2][page::15][page::26][page::27]。

速读内容

  • Unsplash平台及数据集背景 [page::6][page::7]

- Unsplash拥有约600万高质量照片,365,000贡献者。
- 2020年夏推出LITE数据集,包含2.5万张自然主题精选照片,供商业及非商业AI训练使用。
- 数据集发布后,贡献者无法选择退出,且未获得额外补偿。
  • 用户退出与上传行为变化 [page::14][page::15][page::16]

- 被纳入LITE的图片存活率更高,约减少删除3%/年,非LITE图片删除率约4%/年。
- 被纳入LITE的用户账号删除率比对照组高1个百分点,约减少上传3%/年。
- 活跃度明显下降,月均上传量下降约38%,上传至少一张图片的概率下降30%。
  • 用户类型差异分析 [page::16][page::17][page::18]

- 使用专业摄影装备的用户上传减少更明显,减少幅度约50%。
- 公开标记“Available for hire”的用户上传减少幅度近90%。
- 上传活跃度较高的用户(90%以上分位)上传减少约40%以上。
  • 作品类型及质量变化 [page::18][page::19][page::20]

- 自然主题和经平台策划的图片上传概率下降约23%-70%。
- 作品的多样性下降5%,新颖性下降约30%,上传图片更趋同于既有图库。
  • 机制分析与政策启示 [page::21][page::22][page::26][page::27]

- 2022年8月后,随着Stable Diffusion等工具普及,上传减少幅度扩至49%。
- 多图像被纳入训练集的用户减少上传幅度显著更大。
- 受影响用户更倾向于加入Unsplash+付费计划以避免AI使用其作品。
- 若整个平台作品均供AI训练,数据流量可能减半,作品高度同质化显著增加。
  • 跨平台影响 [page::24][page::25]

- 作品上传行为变化仅限Unsplash,未在用户Instagram上传活跃度中体现,表明并未整体停止线上分享。

深度阅读

研究报告详尽分析报告



---

1. 元数据与报告概览



报告标题:Strategic Behavior and AI Training Data
作者:Christian Peukert, Florian Abeillon, Jérémie Haese, Franziska Kaiser, Alexander Staub
发布机构:洛桑大学经济与商业学院(University of Lausanne, Faculty of Business and Economics - HEC)
日期:2024年4月
主题:本报告聚焦于生成式人工智能(GenAI)训练数据的创造者行为研究,特别探讨当个人创作者的作品被纳入AI训练数据时,其上传行为和作品类型的战略性改变。实证分析以知名免费图库平台Unsplash的用户数据为基础。

报告核心论点与信息
  • 公开披露部分图像供AI训练(Unsplash LITE数据集)作为“自然实验”,研究创作者(贡献者)对其作品被用作AI训练数据后的行为反应;

- 被纳入训练数据的创作者上传频率显著下降,活跃度降低,且离开平台的概率更高;专业摄影师和更成功的用户反应较为强烈;
  • 贡献内容的多样性与新颖度受影响,整体数据集的质量和创新性存在长期影响;

- 该研究揭示版权持有者权益保护与技术创新之间的权衡,向政策制定者提供针对版权和AI发展的实证支持。

---

2. 章节详细解读



2.1 引言(Introduction)



作者指出数据作为AI的关键输入,特别是文本、图像、音频和视频等由人类产生的内容,是生成式AI模型性能进步的关键基础。文中强调当前围绕AI训练数据合法性的政策不确定性,尤其涉及版权法领域,高调诉讼案频发,凸显知识产权权利人与AI创新之间的矛盾。此研究旨在填补该领域经验研究的空白,实证分析人类创作者面对作品被用作商业AI训练数据时的行为变化。[page::1,2]

2.2 实证场景与方法:Unsplash平台与LITE数据集(Empirical Setting)


  • 平台简介:Unsplash是全球最大的高质量免费图库之一,拥有约600万图片和36万上传者,图片授权极其宽松,允许商业免费使用,但可通过删除作品或账号撤回授权。

- LITE数据集发行:2020年6月,Unsplash发布了一套包含25000幅“自然主题”且经人工精选(curated)的图片供商业及非商业用途,包括AI训练,同时提供完整版(FULL)数据集仅供非商业研究。该两级数据访问机制为研究提供了随机准自然实验环境。
  • 选择机制:LITE数据集采用数据库查询筛选关键字“nature”且可信度超过90%的人工精选图像,数据库内部排序不规则,排序与图片、用户人气及上传时间基本无关,仅与关键字自动识别信心度有微弱相关。元数据自动标注由第三方服务(亚马逊Rekognition)完成,存在多标签和softmax非线性机制,决定了标签置信度的复杂动态。[page::6-9]


2.3 数据及分析方法(Data and Methods)


  • 包含近490万张上传图片的元数据,涵盖上传者身份、上传日期、图片精选状态、关键词及拍摄器材信息。专业摄影师通过拍照技术参数(曝光时间长、长焦镜头、专业相机等)定义。

- 建立两组对照用户:被纳入LITE数据集的“实验组”和符合条件但未被纳入的“对照组”,采用差异中的差异(DiD)模型,控制用户及月份固定效应,估计因果效应。
  • 关键词基于自然语言处理(NLP)技术,利用Word2Vec训练100维向量,计算新上传图片与历史库(过去一年内已上传的图片)关键词语义相似度,形成多维度的“多样性”和“新颖性”指标,通过余弦相似度衡量图片质量特征。

- 模型基本形式:
\[
Y{it} = \delta (Postt \times Treatedi) + \etat + \mui + \varepsilon{it}
\]
其中 \(Y_{it}\)为用户上传行为指标,\(\delta\)捕捉LITE纳入与上传行为变化的因果关系。[page::10-13]

2.4 主要结果及解读(Results)



2.4.1 用户和图片删除率(Image and User Survival)

  • 图片被纳入LITE数据集后存续率更高(约提高2个百分点至约92-93%的存活),而被纳入LITE的用户账号被删除率略高(约1个百分点)[page::14]。这表明部分上传图片因版权担忧被删除减少,用户则有更小概率完全离平台。


2.4.2 上传行为变化(Upload Behavior)


  • 上传数量显著下降,幅度约38%:被纳入LITE的用户上传图片数从平均3幅/月降至约1.9幅/月,且上传的用户比例降低30%[page::15-16]。

- 专业用户影响更为显著:专业设备拍摄者与标注“可雇佣”身份的用户上传减少幅度更大,表明职业摄影师因AI的商业替代风险更敏感[page::16-17]。
  • 高贡献用户作用突出:统计最活跃用户上传下降比例最大,排除极端高频贡献者后效果依然显著[page::17]。


2.4.3 图片类型及内容多样性(Image Types and Similarity)


  • 上传的主题性质有显著变化:自然主题照片、精选照片上传概率分别降低约23%和60%,同时两者合并情况下降达70%,暗示平台艺术质量和内容多样性下降[page::18]。

- 使用词向量进行相似度衡量显示,单个用户上传作品的多样性与新颖性无显著变化(用户固定效应控制后),但整体图片库中高相似图片数量反而增加约30%,主要源于上传者结构的变化(即贡献者减少更有创造力的用户)[page::19-20]。
  • 图表分析(图2)显示,LITE纳入的用户上传的图片随时间变得更与现有库存相似,重复度增高,而对照组下降趋势更为明显,支持合成多样性下降的结论[page::20]。


2.4.4 机制探讨(Mechanisms)


  • 公众对AI能力提升认知加强后(2022年8月后Stable Diffusion等技术普及),上传减少效应明显加剧,呈现激增态势(38%增至49%下降)[page::21-22]。

- 用户受影响程度越高(多张图片被纳入训练集)上传减少更多,表明贡献者意识到其作品被用作AI训练引发的行为调整[page::22]。
  • LITE用户中,参与Unsplash+付费订阅服务比例是非LITE用户的3倍,该服务禁止AI训练使用,体现用户寻求经济补偿并规避AI培训利用的战略选择。[page::22]


2.5 鲁棒性检验(Robustness)


  • 使用不同的对照组定义,差异中的差异估计结果稳定,效应幅度变化不显著。

- 用Poisson回归等非线性模型验证OLS结果同样稳健,但OLS便于解释,本文仍以OLS报告为主。[page::23]

---

3. 图表深度解读



图表1(表1)- LITE数据集图像排序分析


描述:表格展示了多种变量(自动关键词置信度、图片受欢迎度、用户关键词选择、图片年龄等)对LITE数据集中图像排序的影响。
解读:仅自动关键词置信度与排序显著相关,其他变量均无显著相关性,且调整后\(R^2\)极低,排序接近随机。说明LITE数据集的抽样在用户和图片特征上实现了准随机分配,以支持因果推断。[page::8]

---

图表2(图1)- 上传图片数量对比(处理组 vs 对照组)


  • Panel A(水平数值):显示两组用户在LITE发布前18个月上传数基本持平后,处理组用户上传数量迅速下降,降幅显著。

- Panel B(差异估计):使用固定效应OLS的分月系数,处理组用户上传数自LITE发布起呈持续负效应,说明该事件显著减少了上传率。[page::15]

---

图表3(表3)- 差异模型上传变化结果


  • 主要结果是LITE用户上传数减少1.11张/月(绝对数),相当于38%的相对下降,上传活跃度降低7%,对数转化的减少也显著。

- 这一表格支持了用户上传行为受到包含训练数据影响而下降的核心结论。[page::16]

---

图表4(表4)- 专业vs业余用户上传变化


  • 专业摄像器材用户及“可雇佣”标识用户上传量减幅更明显,大约在50%-89%的额外下降。

- 表明经济动机驱动职业摄影师调整上传策略。[page::16-17]

---

图表5(表5)- 根据上传活跃度分层的异质性效应


  • 排除高贡献用户后,上传减少幅度加大,暗示高贡献用户对上传下降的贡献更大,且整体上传活跃度的变化主要受活跃用户的影响。[page::17-18]


---

图表6(表6)- 上传图片类型变化


  • 自然主题和精选图片的上传大幅降低,尤其精选图片月上传可能减少超过一半,暗示整体上传内容质量下降。[page::18]


---

图表7(表7)- 上传图片与历史库相似度指标


  • 不考虑用户固定效应时,上传图片的平均相似度提升5%,高度相似作品数量分别提升28%和13%。

- 控制用户固定效应后,这些差异消失,表明变化更多源自用户群体结构的变化,而非单个用户行为彻底改变。[page::19]

---

图表8(表8)- 机制分析:不同时期与处理强度


  • 分两段时间分析发现,2022年8月后,上传下降效果更显著,证明公众/创作者对AI技术认知增强影响上传行为。

- 拥有多张作品被纳入训练的用户上传减少显著高于单张用户,反映对AI训练包含程度的敏感性。[page::21-22]

---

图表9(表9)- Unsplash与Instagram上传量对比


  • 对照用户在Instagram上传行为无显著变化,说明上传行为减少主要是对Unsplash的特定反应,而非整体停止网络发布。

- 这表明创作者可能选择迁移或调整平台,而非完全退出内容创作。[page::25-26]

---

4. 估值分析



本报告不涉及传统财务估值模型,而是利用差异中的差异模型和自然实验设计,通过定量分析创作者上传行为的变化,估算数据流量及数据质量变化对未来AI训练数据供应的影响。
  • 对整体上传量流量用简单的数学模型进行反事实模拟,假设不同规模LITE数据集覆盖比例,估计释放全集数据可能导致最高39%(接近一半)的上传流量下降,及合成训练数据重复率激增。

- 该估计模型依据样本上传和用户数据,反映了版权和开放资源许可政策对AI训练数据供给可能产生的宏观影响。[page::23-24]

---

5. 风险因素评估


  • 版权不确定性:尽管Unsplash采用极宽松的免费许可,现实版权政策和法律诉讼风险仍存在。报告预期版权诉求可能促使部分创作者撤回作品或减少贡献。

- 行为外溢效应:创作者上传减少虽限于Unsplash,但作品上传转移到其他平台的可能影响未完全排除,可能导致数据质量与多样性的流失。
  • 新技术透明度风险:对未来AI训练用途与技术快速变化的认知差异,可能引发创作者不同程度的战略撤退,造成数据供给不稳定。

- 平台政策变化风险:如Unsplash+限用AI训练条款实施,可能激励创作者转向付费服务,但对数据开放性或创作者参与率的长期影响待观察。

报告未明确提供风险缓解措施,但建议政策制定者应当在版权保护与数据开放之间寻找平衡,考虑经济激励机制如按Shapley值分配版权收益等。[page::4,22,27]

---

6. 批判性视角与细微差别


  • 报告基于Unsplash这一特殊平台,虽然开放许可方便研究,但其用户群体、商业模式及社区特点与典型版权受限平台存在差异,限制了结果的广泛外推性和普适性。

- 上传量减少的因果推断虽建立在准随机设计,但仍可能受到一些潜在的未观测行为变量影响,例如用户转移至尚未监测的新平台或私域发布活动。
  • NLP基于关键词的相似度衡量虽然创新,但不能全面捕捉图片内容深层语义及视觉艺术价值变化,可能低估或误判作品新颖性。

- 某些重要表(如表1)\(R^2\)极低,表明随机性较强,说明样本划分可能未能完全控制所有混杂因素,需谨慎解读。
  • 报告表述强调数据流量减少等负面影响,但未充分探讨AI技术对创作流程及摄影行业可能带来的正面促进(如辅助创作工具),缺乏整体创新生态视角。[page::8,20,27]


---

7. 结论性综合



本报告首次利用大规模、结构化、准实验设计的实证数据,系统验证了人类创作作品公开用于生成式AI训练时,创作者上传行为的战略调整,强调了数据供应的经济学意义。关键结论包括:
  • 创作者行为变化显著:被纳入AI训练数据集的照片贡献者上传频率平均下降约38%,离开平台的比率增加,且专业及活跃用户反应更强烈。

- 上传作品类型及质量改变:上传图片的多样性和新颖性整体下降,平台上传的精选与自然主题照片减少,可能导致训练数据质量和AI性能空间受限。
  • 数据流量宏观影响:扩展至全平台纳入训练数据,预测上传量将减少近40%,重复图像数量成倍增加,说明自由利用版权作品对平台创作生态具有深远影响。

- 行为差异来自用户群变动:多样性、新颖性变化源于用户贡献结构的调整,而非单一用户上传内容本身的根本改变。
  • 政策启示:报告警示,放任版权豁免可能导致上游数据供应减少及数据质量衰退,建议制定合理的许可及补偿机制,平衡权利人与技术创新。


通过细致的统计模型和自然语言处理技术,配合丰富的元数据分析,研究为AI政策制定提供了首个量化实证依据,揭示了生成式AI训练数据供应背后的经济行为逻辑与潜在风险。

---

整体报告语气专业且基于严谨的准实验设计,结合技术和经济视角,以详实数据支撑观点,适合作为学术与政策咨询参考。

---

如需进一步具体章节的详解或图表数据解析,请告知。

报告