`

Quantifying a Firm’s AI Engagement: Constructing Objective, Data-Driven, AI Stock Indices Using SEC 10-K Filings

创建于 更新于

摘要

本报告提出基于自然语言处理技术,从纳斯达克上市公司10-K年报中客观量化企业AI参与度,构建了四种不同加权方式的AI股票指数。通过对ChatGPT发布事件的市场反应分析,验证了AI指标对异常收益的预测能力,并发现所建AI指数的风险收益表现优于或匹配现有14只AI主题ETF,兼具透明、公正与成本效益,适合投资者和资产管理者用以构建科技主题投资组合 [page::1][page::2][page::18][page::20][page::25][page::29][page::36]。

速读内容

  • 研究背景与动因 [page::2][page::7]

- ChatGPT发布引发企业加大对AI技术投资,监管机构警惕“AI洗牌”现象。
- 现有AI主题ETF选股标准模糊,依赖主观判断,缺乏透明度和量化依据。
- 本研究聚焦于通过公开10-K年报披露数据,开发客观的AI参与度衡量指标。
  • AI参与度的量化方法 [page::13][page::14][page::15]

- 利用SEC EDGAR数据库收集2010-2022年3,395家纳斯达克公司10-K报告文本。
- 基于词频统计和TF-IDF加权处理“artificial intelligence”、“AI”等关键词,构建了二元AI提及指标和加权AI得分。

- AI关键词在10-K中提及数量逐年快速增长,2022年已达527份相关披露。
  • AI指数构建与分类 [page::16][page::17][page::18]

- 构造四种指数:等权AI指数(AII),基于加权AI分数的市值加权指数(SAII),以及两种历史折现型时间加权指数(TAII05和TAII5X)。
- 指数每日更新,年度调仓,分别体现AI披露广度、深度及历史持续性。

- 所有AI指数表现均优于纳斯达克综合指数(IXIC),其中TAII5X涨幅最高,显示历史AI披露的累积效应。
  • 事件研究:ChatGPT发布后市场反应验证 [page::20][page::21]

- 使用市场模型分析ChatGPT发布后61个交易日内582只AI股票与1959只非AI股票的累计异常收益(CAAR)。

- AI组股票CAAR为17.25%,非AI组为11.59%,差异显著,支持指标分类有效。
  • AI指数对异常收益的预测能力 [page::22][page::24]

- 回归分析显示AI指数权重与股票异常收益显著正相关,AII和TAII05指标近期表现更强。
- SAII指标对582只AI股票异常收益解释力更佳,表明披露强度关联市场表现。
  • 指数与现有ETF比较及综合表现分析 [page::25][page::26][page::27][page::29][page::30][page::42]

- AI指数与14只AI主题ETF对ChatGPT事件的累计异常收益均为正向且多显著,AI指数的CAR均保持16%-21%水平,且整体排名靠前。
- AI指数在6月27日2019年至2023年9月期间日均收益高于AI ETF (0.076%对0.056%),波动性相当,风险调整回报指标(夏普比率、索提诺比率)优于ETF。
- AI指数beta值较高,说明与纳斯达克市场关联紧密;最大回撤略低于ETF。
  • 研究贡献与启示 [page::31][page::32][page::33]

- 提出基于NLP的AI参与度量化指标,理论上可广泛应用于其他科技主题。
- 实证结果支持效率市场假说,市场能有效反映企业AI整合价值。
- 为投资者、基金管理者及监管机构提供构建透明、公正、成本效益优良的主题投资工具的理论和实证基础。
  • 局限性及未来展望 [page::34][page::35]

- 当前模型依赖于10-K文本披露,难以区分AI提及的上下文准确性,存在AI洗牌风险。
- 建议未来结合研发投入、情绪分析及多数据源提高指标有效性。
- 纳斯达克样本有地域局限,后续研究可扩大地域和数据多样性。

深度阅读

量化企业AI参与度:基于10-K文件构建客观、数据驱动的AI股票指数——详尽分析报告



---

一、元数据与概览



报告标题:Quantifying a Firm’s AI Engagement: Constructing Objective, Data-Driven, AI Stock Indices Using SEC 10-K Filings
作者:Lennart Ante, Aman Saggu
发布机构:Technological Forecasting and Social Change(科技预测与社会变革)
发布日期:2025年(文章版本日期:2024年1月1日)
研究主题:利用自然语言处理(NLP)技术,基于美国SEC的10-K企业年报,定量分析企业在人工智能(AI)领域的参与度,进而构建四种AI股票指数并与现有AI相关ETF进行比较。

核心论点
本文揭示当前市场上人工智能主题ETF在股票选择标准上的主观与不透明问题,提出切实可行的、基于NLP的客观方法,通过分析纳斯达克上市公司10-K文件中AI相关词汇的出现频率和上下文构建AI engagement指标,最终形成四个AI股票指数(AII、SAII、TAII05、TAII5X),这些指数表现优于多数现有AI主题ETF,且具有更佳的风险调整收益率和市场反应能力。研究通过ChatGPT发布事件的事件研究验证指标的市场敏感性和预测效力,为投资者、资产管理者和政策制定者提供了有效工具,推动主题投资向透明、数据驱动方向发展。[page::1, page::2, page::3]

---

二、逐节深度解读



2.1 报告引言与研究背景



报告指出,ChatGPT的发布极大激发了全球资本对AI技术的投资热情,同时也引发了“AI 洗白”(AI washing)等监管关注,说明部分企业对自身AI参与的描述存在夸大。现有AI主题ETF往往采用模糊和主观的选择标准,缺乏客观量化体系,这对于缺乏技术背景的传统资产管理者来说,是准确评估企业AI属性的一大难题。报告聚焦基于企业自我披露数据的客观AI股票识别,强调股价表现往往不仅由单一技术驱动,而是多元行业交织体现,如英伟达既是AI芯片龙头,也影响游戏等领域,从而指出构建客观度高的“AI股票”或“AI指数”的必要性。[page::2]

2.2 文献回顾:公开披露与市场反应



从信息披露对股票市场的影响出发,回顾了从Beaver(1968)开始的股价对盈余公告的敏感反应,确认10-K报告等文件在传递公司信息的重要作用。尤其强调EDGAR系统的普及使得企业披露更及时也更复杂,投资者解析难度加大,数据处理能力和财务素养成为关键。此外,研究表明透明、优质的财报披露有助缓解信息不对称,提高投资者信心。论文也提及了其他技术领域(例如区块链)以及ESG披露的重要性,进一步奠定了基础——NLP技术能够从文本中提取有价值的市场信息。[page::5, page::6, page::8]

2.3 ChatGPT效应:AI技术对市场的冲击



报告详细阐释了ChatGPT自2022年11月发布以来对AI领域及股票市场的显著影响,诸如Nvidia股价翻涨4倍,c3.ai涨幅28%,Buzzfeed借助AI内容创作股价暴涨120%。这表明市场对AI技术的认可不仅基于实际业绩,还包含预期和情绪推动。同时,这种影响波及范围广,部分非传统AI公司也因此受益。提及AI相关ETF的“AI标签溢价”及其对市场表现的影响,指出通过观察AI披露频率和程度,投资者可更加准确评估企业AI战略地位。[page::7, page::8]

2.4 主题投资与ETF现状



对主题投资的现状和挑战做了系统性回顾,特别是科技及AI主题ETF。这类产品面临资产选择标准混乱、真实主题暴露度低、预测性强带来的不确定性等问题。文献引用表明多数主题ETF在成立初期表现不佳,存在较高的投机性溢价,且很多基金管理者缺乏深厚技术背景,依赖模糊的投资语境。通过比较,提出本研究通过客观的财报文本数据打造AI指数,有望解决上述透明度和准确性的不足,为主题投资提供科学依据。[page::9, page::10]

3. 数据与方法论



3.1 数据背景


  • 来自纳斯达克的2010-2022年3,395只股票,聚焦科技导向上市公司,数据涵盖每日收盘价,配合SEC提交的10-K文件。

- 挑选14个代表性AI相关ETF,包括ROBO、BOTZ、ARKQ等,分析其费用率、资产数量及模糊的资产选择标准(例如"潜在受益于AI采用")[page::10, page::11]

3.2 AI参与度量化方法


  • 利用SEC EDGAR数据库的10-K文件进行文本抓取。

- 预处理:文本清洗及分词,实现有效词汇提取。
  • 关键词选取基于Web of Science的文献计量,精选核心AI关键词“artificial intelligence”、“ai”和“a.i.”,剔除区块链等非纯AI关键词以聚焦主题。

- 计算关键词频次作为AI参与的基础指标,辅以二元AI提及变量(是否出现相关词汇)。
  • 通过TF-IDF(词频-逆文档频率)对词频进行加权调节,避免长文档带来的词汇自然增加偏差,进一步归一化指标确保不同规模文档的可比性。

- 历年AI关键词出现频次从2010年的个位数渐增至2022年的527次,表现出强劲的AI披露增长趋势,反映企业加大AI战略投入。[page::13, page::14, page::15]
AI 10-K披露趋势

3.3 AI指数构建


  • AII(等权重AI指数):所有年度10-K文件提及AI的公司均等权重,反映广泛市场参与。

- SAII(规模加权AI指数):按AI词频权重分配权重,更强调AI披露密集度,即企业AI投入深度。
  • TAII05和TAII5X(时间折现AI指数):引入历史披露折现因子$\alpha$,TAII05采用0.5,强调近期披露;TAII5X采用5,强调整体历史AI披露,捕捉品牌沉淀或持久AI影响力。

- 公式细节涉及市场市值与权重计算,指标在日内更新,年末再平衡确保指标动态与长期一致性。
  • 2011-2023年,四指数均整体跑赢纳斯达克综合指数,TAII5X表现最佳,凸显历史AI披露价值。

AI指数与IXIC跑赢对比 [page::16, page::17, page::18, page::19]

---

三、图表深度解读



图1:10-K文件中AI提及次数逐年增加


  • 2010年仅11次,2022年激增至527次,表明企业对AI投入和披露强度显著提升。此趋势准确映射了AI技术渗透商业领域的实际进展,成为后续指数构建的基础数据支撑。


图2:四个AI指数相较于纳斯达克综合指数的累积收益


  • 四条指数线均跑赢纳斯达克综合指数,TAII5X最高达300%以上增长,AII则增幅较为温和但依然超越大盘。

- 指数区分基于加权模式,表明AI参与度的深入度和持续性对投资回报有显著积极影响。

图3:ChatGPT发布后事件窗口内AI类股与非AI类股CAAR对比


  • AI股三个月累计平均异常收益率达17.25%,非AI股为11.59%,两者差异5.68个百分点,统计显著($p<0.05$),表明本研究指标有效区分AI参与度对市场反应的影响。

- 说明市场对AI相关信息较为敏感,投资者认可深入AI披露公司的潜力。
ChatGPT事件下AI与非AI股票CAAR

图4(附录A.1):AI主题ETF费用率与平均日回报散点图


  • 费用率普遍高于0.25%,最高超过1%。

- 无明显正相关,部分高费用基金回报并不突出,突出费用率高不一定带来回报优势,强化报告中对费用效率的关注点。

---

四、估值分析



本研究核心在于量化AI披露的“权重”和“参与度”,通过市场加权与披露权重构建多套指数体系。使用的财务估值方法主要体现在事件研究中:
  • 事件研究法:分析ChatGPT发布事件对AI股票的异常收益影响,用S&P 500指数为市场基准,估计市场模型以计算个股的“纯”事件效应。

- 指数回归分析:通过普通最小二乘与鲁棒估计方法,考察AI指数权重对股价异常收益的预测能力,结果系数显著,表明指数能够量化企业AI参与度并预测收益表现。
  • 风险调整表现衡量:包括夏普比率、Sortino比率、最大回撤、Omega比率,验证了基于NLP构建的AI指数在风险调整后优于多数传统ETF。


指数构建中的核心输入变量如权重分配基于公司市值和披露强度,时间折现指数引入历史披露放权参数,用以捕捉企业AI战略的持续影响,整体体现了深度、广度和时间动态的综合评判体系。[page::21, page::22, page::23, page::24, page::25, page::27, page::28]

---

五、风险因素评估



报告明确指出以下风险:
  1. 披露泡沫与“AI洗白”风险:企业可能通过频繁提及AI但缺乏实质行动误导投资者,造成数据指标过度乐观。SEC已针对虚假AI披露展开调查,提醒监管风险存在。[page::2, page::34]
  2. 数据源单一性风险:仅依赖10-K文件截面可能遗漏非正式披露或战略深度,未来建议结合R&D支出、其他监管文件文本、市场新闻情绪增强指标稳健性。[page::34]
  3. 事件窗口偏见:以ChatGPT发布作为验证事件,短期市场热度或投机成分影响指标表现,需结合长期多事件验证防止单一事件过拟合。[page::34]
  4. 地理市场范畴限制:仅纳斯达克上市公司,忽视海外及新兴市场投资机会,未来扩展国际视角有助全面把握AI投资布局。[page::35]
  5. AI概念覆盖不全及语义多样性:文本分析基于简单关键词,难区分AI应用深度、战略优先级和语境差异,需引入更多语义和情感分析技术。[page::35]


---

六、批判性视角与细微差别


  • 优势:该研究构建了基于企业自我披露的透明、客观量化AI参与指标,提供了难得的科学度量方法,推动主题投资标准化和数据化。

- 潜在偏差:AI词频不能全面表达真实技术投入,存在“频繁提及但无实质”风险;未来若未结合实操指标,容易误导投资决策。
  • 模型限制:事件研究虽清晰证明指标相关性,但$R^2$值较低,表明市场影响因素复杂且多样,指标解释能力有限。

- 范围局限:专注美国纳斯达克市场窄化了研究广度,忽视其他资本市场与披露规则差异对AI投资影响。
  • ETF对比中:虽然AI指数表现优于部分ETF,但部分ETF在风险调整表现等指标上有亮点,显示各类产品侧重点和投资策略多样,不可简单替代。


---

七、结论性综合



本文成功开发并验证了一套基于NLP技术的AI股票量化方法,利用纳斯达克上市公司2011-2023年间3,395份10-K年报文本,提取AI关键词频率与上下文权重,构建出四类客观AI股票指数(AII、SAII、TAII05、TAII5X),形成从广度到深度、从即时到历史的多维投资视角。核心结论包括:
  • 显著的AI披露增长趋势:图1显示AI相关披露从2010年低位逐年上升,2021-2022年快速爆发,标志企业战略聚焦加深。

- 指数性能优异:四大指数长期累积收益均超越纳斯达克综合指数,时间折现指数TAII5X表现最优,验证了历史持续披露价值。
  • ChatGPT事件验证:事件窗口内AI股CAAR显著高于非AI股,且指数权重显著预测异常收益,证明指标有效捕捉市场认知。

- 相较现有AIETF的优势:研究构建的AI指数在风险调整收益、信息透明度及费用效率方面普遍优于或不逊色于传统AI主题ETF,实现更低成本更高效率的主题投资产品。
  • 多维风险控制:指标设计兼顾文档长度和词频偏差,采用TF-IDF与时间折现,提升指标稳健性。

- 理论与实践意义重大:对市场反应理论、主题投资研究、战略管理披露等领域均有贡献,并对投资者、基金管理者、监管方提出切实建议。
  • 未来方向明确:建议拓展多数据源、引入更深层语义分析、涵盖多市场样本并拓展事件研究,提升指标全面性和精确度。


综上,研究为AI主题投资提供了科学、透明、具市场响应性和成本优势的量化工具,促进了主题ETF的规范化发展,对投资行业及学界皆具前瞻价值。[page::36, page::37, page::38]

---

(全文图表引用)



图1:企业10-K文件中AI披露数量逐年递增趋势




图2:基于AI披露构建的四种AI股票指数累积收益表现(2011-2023)




图3:ChatGPT发布后AI股与非AI股累计异常收益(CAAR)对比




图4(附录A.1):AI主题ETF费用率与平均日收益散点图




---

综上所述,本文全面系统地从数据源、技术路径、指标设计到市场验证层层深入,提出了以企业披露文本为基础的AI参与度量标准,并着力证明其在主题投资领域优于传统主观选股方法的科学性和实用性,兼顾学术创新与应用实践,具有较强的推广前景与现实价值。

报告