不同大语言模型产品操作性能及进阶应用比较——ChatGPT 应用探讨系列之三
创建于 更新于
摘要
本报告聚焦于GPT3.5、GPT4、文心一言、讯飞星火、Bard与New Bing六种主流大语言模型产品的性能对比,涵盖输入输出限制、中文支持、表格数据分析能力、文本风格模仿及多项代码生成任务。结果显示GPT4在代码生成准确率和多样化输出方面表现最佳,而GPT3.5和New Bing在多项任务中表现稳定,讯飞星火对表格数据分析存在局限,文心一言和Bard在部分细节计算存在误差。整体体现不同语言模型在基础功能与进阶应用的优势差异,为用户根据场景选择提供有力参考 [pidx::0][pidx::5][pidx::9][pidx::15]
速读内容
- 核心产品介绍 [pidx::4]
- GPT3.5和GPT4均为OpenAI开发,GPT4拥有更大参数量和更强文本理解生成能力,支持联网和插件。
- 文心一言基于百度知识增强技术,讯飞星火强调跨领域认知智能,Bard依托LaMDA模型,New Bing结合OpenAI能力扩展搜索引擎功能。
- 基本操作性能对比 [pidx::5]

- 输入容量差异显著,GPT3.5支持4096 tokens,Bard约9850字符,讯飞星火约5500字。
- 讯飞星火、Bard、New Bing支持音频转文字输入。
- GPT4和New Bing对话条数有限制,其他无限制。
- 输出形式多样,GPT4和文心一言支持图像输出,讯飞星火支持音频朗读。
- 表格数据分析能力测试 [pidx::6][pidx::7]

- 除讯飞星火无法正确计算每日收益率外,其余模型能准确识别收盘价列并输出收益率表格。
- 文心一言和Bard计算虽正确,但未准确匹配Close列名称,导致数据细节差异。
- 多模型均实现针对给定股票数据的基本点评能力。
- 文本风格模仿能力 [pidx::8][pidx::9]

- GPT3.5、GPT4和New Bing在模仿点评文风方面表现优异,能结合语境进行数据调整。
- 文心一言模仿能力较为一般,结构有改动,讯飞星火起初失败,修改问题后有限模仿能力。
- 代码生成综合能力测试:
- 下载数据代码生成对比 [pidx::10][pidx::11]

- GPT4生成的Python代码一次性正确运行,准确调用WindPy接口。
- GPT3.5、讯飞星火和Bard在模块导入、API调用存在错误。
- New Bing表现优异,接近GPT4,但部分调用细节有待优化。
- 动量策略代码生成对比 [pidx::12][pidx::13]

- 仅GPT4和New Bing代码正常执行并得出正确策略结果。
- 其他模型多在读取数据或计算逻辑阶段出错。
- 文心一言和Bard代码存在计算错误。
- 基金收益分析代码生成对比 [pidx::14][pidx::15]

- GPT3.5、GPT4和New Bing代码能正确计算年化收益率、波动率、最大回撤及夏普比率。
- 文心一言数据处理错误,Bard与讯飞星火计算年化收益率时出错。
- 综合比较与应用建议 [pidx::15]
- GPT4整体性能最佳,支持联网、插件,代码生成准确度高,但有交互次数限制。
- New Bing表现稳定,兼具搜索与生成能力,代码能力接近GPT4。
- GPT3.5老旧但部分任务表现尚佳。
- 文心一言与讯飞星火中文交互有优势,编程能力略显不足,适合中文场景的常规问答。
- Bard在多语言和生态整合方面具特点,但代码生成需加强。
- 风险提示 [pidx::0][pidx::16]
- 模型迭代存在不确定性,回答质量及功能会随版本更新而变。
- 代码及文本生成可能包含错误,需结合人工复核使用。
深度阅读
《不同大语言模型产品操作性能及进阶应用比较——ChatGPT应用探讨系列之三》研究报告详尽解读
---
1. 元数据与概览
报告标题: 不同大语言模型产品操作性能及进阶应用比较——ChatGPT应用探讨系列之三
发布机构: 方正证券研究所
日期: 2023年(具体日期未明确,但内文涉及2023年5月的测试数据)
分析师: 曹春晓(登记编号:S1220522030005)、刘洋(登记编号:S1220522100001)
主题: 对目前市面上几款主流人工智能大语言模型(GPT3.5、GPT4、文心一言、讯飞星火、Bard和New Bing)在操作性能、数据处理能力及代码生成应用中的对比分析。
报告核心论点:
本文通过对六款大语言模型产品的功能、操作限制、进阶数据处理能力及代码生成表现进行测试与比较,详细揭示各模型的技术特点及适用场景。目标是帮助用户根据自身需求合理选型,最大化利用当前AI语言模型工具,尤其是在金融数据处理和代码实现层面。
整体结论为:GPT4和New Bing在代码生成及复杂任务上的表现更为卓越,讯飞星火在中文语境中对话优势明显,但部分功能较弱;其他模型各有优劣。[pidx::0] [pidx::5] [pidx::15]
---
2. 逐节深度解读
2.1 几种语言模型产品的基本情况介绍
- GPT3.5和GPT4均为OpenAI基于Transformer架构的自回归语言模型,其中GPT4参数规模达到万亿级,相比GPT3.5(1750亿参数)拥有更强的语义理解和文本生成能力。两者均能生成文本、问答、写作支持及翻译。GPT4支持联网搜索和插件功能提升实时信息获取能力,然而响应速度较慢且计算资源消耗更大。
- 文心一言由百度开发,采用知识增强和强化学习方法,支持文本创作、知识问答、翻译等,针对中文环境优化。
- 讯飞星火是科大讯飞的认知智能大模型,强调跨领域知识理解和自然对话,重点在数学题解、代码编写等功能。
- Bard是谷歌的基于LaMDA模型的聊天机器人,强于从高质量信息源提取实时内容,支持多语言翻译和搜索。
- New Bing为微软基于OpenAI的ChatGPT改造的搜索引擎产品,融合了强大搜索能力和语言交互功能。
这些模型均因各自架构、训练数据和产品策略的差异,在细节能力上有明显变异。[pidx::4]
2.2 语言模型操作性能及进阶功能比较
报告通过测试表格总结了6款模型在“输入限制”、“是否支持非文本输入”、“输出形式”、“使用限制”、“联网能力”、“表格数据分析能力”、“模仿文本点评能力”以及“代码生成能力”方面的差异。
- 输入上限:GPT3.5最多4096 tokens,GPT4减至2048 tokens,中文限制方面讯飞星火最高(约5500字),Bard和New Bing也支持接近或超过两千字。
- 非文本输入能力:讯飞星火、Bard和New Bing支持音频转文字,此外均支持markdown表格输入。
- 输出形式:各模型均可输出文字及表格,部分支持图像生成(GPT4通过插件,文心一言和New Bing本身),讯飞星火支持语音朗读。Bard和New Bing允许导出文件。
- 使用限制:GPT4限制较多(3小时25条),New Bing限制每对话20条;其余无限制。
- 联网能力:GPT3.5和讯飞星火不联网,其他均支持联网,提升实时性。
- 表格数据分析:五款模型支持(讯飞星火除外),但计算精确度和数据列识别存在差异。
- 文本风格模仿能力:均支持,讯飞星火模仿能力较弱。
- 代码生成能力:GPT4和New Bing表现最佳,能生成并正常运行复杂代码(如动量策略和基金收益分析);GPT3.5、文心一言、讯飞星火和Bard在代码调用函数和语法上存在缺陷或错误,表现不稳定。
这一章对比了基础性能与进阶基于金融数据和代码的应用,为行业用户选型提供数据支撑。[pidx::5]
2.3 表格数据分析能力
针对涪陵榨菜股票数据进行两项任务:(1)字面点评;(2)计算日收益率并表格输出。
- 所有模型均能对股价走势做出文字点评,反映股票价格整体下跌趋势及日收益率波动。
- 表格数据计算能力存在差异:讯飞星火无法正确计算收益率且无法自我纠正;文心一言与Bard未正确对准收盘价列,只找到了第一列数据;GPT3.5、GPT4和New Bing可精确抓取收盘价列并计算收益,结果间略有差异。
- 模型对收盘价定义、收益率计算公式的理解基本准确,具体表现反映了其底层训练及任务理解能力的差异。
图表2-13中的问答截图辅助说明模型具体输出表现,验证了文字生成和结构化数据处理的差异。[pidx::6] [pidx::7]
2.4 模仿文本风格生成点评能力
基于给定基金中报数据的点评模板,测试模型对新数据生成同类风格点评的能力。
- GPT3.5、GPT4和New Bing模仿能力较强,能灵活替换数据,合理整合上下文,生成内容连贯、结构合理且专业。
- 文心一言模仿虽完成,但结构变化较大,模仿深度有限。
- 讯飞星火初次尝试未成功,后通过微调问法实现了数据替换,但整体逻辑和结合数据的能力较弱。
- Bard表现中等,能够基础复述相关数据及点评。
整体体现了不同模型在文本复制风格与数据结合应用中的成熟度差异,直接影响自动化报告撰写效率。[pidx::8] [pidx::9]
2.5 代码生成能力评测
报告以三个金融数据处理任务分别考察“下载数据代码”、“动量策略代码”和“基金收益分析代码”的自动生成与可执行性。
2.5.1 下载数据代码(Wind API示例)
- GPT4生成代码一次性正常运行,涵盖WindPy库正确导入、时间区间设置、数据下载和相关性计算。代码结构规范且注释清晰。
- GPT3.5、讯飞星火及Bard导入WindPy模块时出现命名错误(如“wdata as wd”、“windpy”、“import wind”等);数据读取函数用法不规范或错误。
- New Bing代码多次交互后表现良好,具有正确的接口调用规范。
此任务考察模型对金融数据库API的精准理解和调用能力。[pidx::10] [pidx::11]
2.5.2 动量策略代码
- 仅GPT4和New Bing能够生成可运行的代码,完成对指定股票日度行情数据的读取、月末数据提取、涨跌幅计算、离散分组和后续收益率统计。
- 其他模型或因数据格式读取、函数调用或分组处理存在错误,无法正常执行。
- 文心一言虽生成逻辑较为完整,但细节实现(如数据路径及指标计算)存在瑕疵。
该测试反映了一些模型在复杂金融策略实现上的局限。[pidx::12] [pidx::13]
2.5.3 基金收益分析代码
- GPT3.5、GPT4和New Bing完成了基金历史净值数据读取,并正确计算了年化收益率、波动率、最大回撤、夏普率等指标。
- 文心一言数据处理环节报错,Bard和讯飞星火代码中年化收益率计算公式错误或逻辑欠缺。
- GPT4输出的代码具备标准的参考范例价值,包括注释详细且函数设计合理。
该项代码生成是金融量化分析不可或缺的通用任务,模型表现差异为用户部署算法自动化的参考。
[pidx::14] [pidx::15]
---
3. 图表与图像深度解读
报告中图表丰富,均为模型动态回答的截图,帮助理解每个模型的输入输出表现:
- 图表1总结6款模型核心功能测试指标,清晰列出输入上限、能否非文本输入、输出类型、联网能力及权限限制等。内容逻辑紧凑,量化标准便于快速对比选择。
- 图表2-13展示“涪陵榨菜股票数据”任务中各模型的点评与表格输出,对比模型是否准确定位收盘价列、计算收益率。可见GPT3.5、GPT4、New Bing输出更为精准,说明其更强的结构化数据处理能力。
- 图表14-25为模仿基金点评风格的文字输出,呈现模型如何“仿写”包括数据、术语、逻辑在内的点评段落。GPT系列和New Bing模仿质量较高,维持严谨金融语言风格。
- 图表26-37涉及WindPy下载代码,细节中体现模型模块导入、调用接口正确性。GPT4显示的代码合乎Python规范,讯飞星火和Bard存在明显模块导入命名错误。
- 图表38-49动量策略代码相关,重点在读取feather文件、分组计算及简单策略收益分析。GPT4与New Bing代码清晰、连贯,其余多存在语法细节或函数误用问题。
- 图表50-61基于基金净值的年化计算代码,分步骤体现数据读取、收益率计算、最大回撤和夏普率实现。GPT4及New Bing的代码最完整,涵盖了采样至指标计算的完整逻辑,文心一言和讯飞星火存在逻辑不严谨或类型转换错误。
整体各图表有效支持了文本中对模型性能的归纳,可直接观察模型回答的专业性、准确性和代码执行的规范性,数据来源真实,反映了2023年中期的模型实际能力状态。[pidx::5-15]
---
4. 估值分析
本报告的核心在于技术和应用能力对比,不涉及公司或模型提供方的股价或市场估值分析,因此无估值模型、目标价或相关财务预测内容。
---
5. 风险因素评估
报告明确提示以下风险点:
- 语言模型迭代更新存在不确定性,功能完善及响应质量难以保证持续一致。
- 各模型输出结果具有随机性,不同场景及提问会导致答案差异,甚至产生文本及代码错误。
- 模型版本升级可能引发功能变动,影响用户体验与功能稳定性。
报告未详细量化风险发生概率,但明确指出用户需谨慎评估所用模型的能力边界,针对金 融领域高度敏感的分析和代码生成,需加大验证力度。[pidx::0] [pidx::15]
---
6. 批判性视角与细微差别
- 报告内容客观详实,多基于实际操作结果和代码测试,数据翔实且截图丰富,体现了较为严谨的研究态度。
- 潜在偏见: 报告未详述对测试中随机性的多轮交互验证,模型的偶然成功或失败可能被一次性结果误导。
- 算力限制对GPT4使用的影响凸显,导致对交互次数限制,可能影响实际应用频率。
- 讯飞星火的表现不稳定,尽管在中文语境对话更具优势,但专业代码和表格分析方面存在明显短板。
- 文心一言和Bard在代码准确性上偏弱,缺乏对API细节的深刻理解。
- GPT3.5部分测试表现不理想,然而报告提示随机测试中可多轮优化。
- 表格输入与解析能力仍有差距,尤其在数据列定位准确性及收益率计算的严格性方面。
- 整体未涉及用户体验(如响应时间、交互流畅性和界面友好度)方面的评价。
- 未涉及安全和隐私风险,虽为研究报道,未来实际应用时这一点极为关键。
以上细微差别为后续研究或产品改进提供方向提示。[pidx::5] [pidx::15]
---
7. 结论性综合
方正证券研究所的专项报告系统评测了6款当前主流大语言模型产品在金融数据处理及代码生成应用上的表现差异。通过实测,我们得到如下关键发现:
- GPT4表现卓越,在文本生成、表格数据分析及复杂代码编写上均优于其他产品。其最新联网和插件支持极大增强了功能的深度和广度,虽然存在交互次数限制,但表现更稳健,适合对准确度与专业深度要求较高的金融用户。
- New Bing依托OpenAI技术底层,结合微软搜索优势,展现出强大的代码生成能力和数据分析准确性,是实用性较强的选择。
- GPT3.5功能全面但代码生成准确性不足,随机测试中性能起伏较大;文心一言和Bard适合基础文本生成与风格模仿,但代码调用准确度明显不足,计算逻辑有待加强。
- 讯飞星火尽管在语音输入和中文语境交互中表现较好,代码相关的专业任务中表现相对弱势,多次出现API调用及计算错误,表现不稳定。
- 输入输出能力及联网支持存在显著差异,用户应根据实际需求和使用场景选择合适模型。
- 表格数据分析中多数模型能够完成基本的财务数据结构化处理,但还存在数据识别和计算精度上的不足,需要结合人工审核。
- 代码生成测试覆盖了金融行业常用的数据下载、策略实现及收益分析三大典型任务,测试结果客观展示了各模型底层知识迁移和应用实现的差异。
- 风险提示点明:模型更新频繁且功能易变,生成结果随机且可能带误差,提醒用户谨慎使用,特别是在金融投资等高风险领域。
综上,报告为多模型在金融领域的应用提供了详实的对比数据和实践参考。不同模型在不同任务场景中各有优势,用户应结合成本、实时性及技术需求权衡选择。GPT4和New Bing则为当下较为领先的金融量化方案生成工具。本文深度结合代码级测试与文本生成质量,体现了创新技术在传统金融研究与应用中的融合趋势。
最后,图表清晰展现了测试过程与结果,具体案例代码及文本输出展示充分佐证了论断,加强了报告的实用价值和可信度。报告不仅适用于金融研报撰写、策略开发,也为学术研究和AI工具选型提供了宝贵资料。[pidx::0] [pidx::5] [pidx::10] [pidx::15]
---
参考图片(部分)
图表1: 几种人工智能语言模型产品的部分功能测试

图表4: 基于数据分析 ChatGPT4 的问答(示例)

图表26: 基于下载数据代码 ChatGPT3.5 的问答(示例)

图表41: 基于动量策略代码 ChatGPT4 的问答(示例)

图表53: 基于基金分析代码 ChatGPT4 的问答(示例)

---
总结
此次方正证券研究所的报告以系统且细致的实证测试为基础,涵盖从基本操作、数据处理到高级代码生成的多维度对比,深入揭示了当前主流大语言模型在金融领域运用的潜力与限制,对推动金融AI技术应用及投资者决策具有重要指导意义。