SRNI-CAR: A Comprehensive Dataset for Analyzing the Chinese Automotive Market
创建于 更新于
摘要
本报告介绍了SRNI-CAR,涵盖2016-2022年中国汽车市场销售数据、在线评论及行业新闻的综合数据集。通过XGBoost模型和SnowNLP情感分析,挖掘了模型和品牌上市时间、价格及消费者评论对销售的影响,揭示了车企先发优势和新能源汽车趋势,为行业分析与政策制定提供重要数据支持 [page::0][page::3][page::6][page::7]。
速读内容
- SRNI-CAR数据集构建与特点 [page::0][page::1][page::3]

- 集成了汽车销售、用户在线评论和行业新闻三大数据来源,时间跨度2016-2022年。
- 包含1236个车系(包括518轿车、598 SUV、121 MPV),覆盖155个品牌(107传统品牌,48新能源品牌)。
- 新增变量如品牌成立及中国市场进入日期,全面反映市场动态与消费者行为。
- 汽车销售预测中的关键变量与方法 [page::3][page::4]

- 采用XGBoost模型结合SHAP解释,分析了多维度变量对销售的影响。
- 发现品牌及车型上市顺序(先发优势)、车型尺寸、官方及成交价格、用户评论文本情感是主要驱动因素。
- 价格对销售的影响非线性,折扣虽有促进,但官方价和成交价更为重要。
- 消费者偏好德国、日本及美国品牌,新能源汽车偏好纯电和混动类型。
- 消费者行为与评论情感分析 [page::5][page::6]


- 使用SnowNLP进行文本情感分析,关注车外观、内饰、空间、动力等八大属性。
- 用户驾驶经验(行驶里程经验时长)显著影响评论情绪,价格影响较官方价和成交价弱。
- 不同属性受不同因素影响,例如动力评论与评分高度相关,外观评论则与车型尺寸关系弱。
- 词云揭示各属性消费者关注点,如外观聚焦车身设计,动力看加速性能,舒适关注座椅质量。
- 数据集应用价值及贡献 [page::0][page::7]
- 数据集支持跨领域分析,提升销量预测准确性,促进营销策略优化。
- 为政策制定者提供新能源车推广效果评价依据。
- 提供学术界丰富变量支持,有助于深化汽车行业消费者行为及市场结构研究。
深度阅读
SRNI-CAR: A Comprehensive Dataset for Analyzing the Chinese Automotive Market — 详尽分析报告
---
一、元数据与概览
报告标题:《SRNI-CAR: A Comprehensive Dataset for Analyzing the Chinese Automotive Market》
作者:Ruixin Ding,Bowei Chen,James M. Wilson,Zhi Yan,Yufei Huang
发布机构:University of Glasgow(Adam Smith Business School),UTBM,Trinity College Dublin
发布日期:未知,但文中数据截止至2022年,推测2023年左右
主题:构建并介绍一个涵盖中国汽车市场多维度数据的综合数据集(SRNI-CAR),涵盖销售数据、线上评论、行业新闻等,主要用于销售预测、消费者行为分析及行业趋势研究。
核心论点与目标:
报告旨在弥补现有中国汽车工业数据的不足,推出一个全面、细致、跨数据源的汽车市场数据集SRNI-CAR。数据覆盖2016-2022年间的销售、消费者评论、行业新闻等,包含新的维度如车型上市时间、品牌创立时间等,对学术研究、市场分析、政策制定均有重要价值。报告中以销售预测和消费者行为分析两大应用示范强化数据集价值与适用场景。作者强调,通过该数据可提升销售预测精确度、丰富行业分析变量,提高政策和市场决策科学性。[page::0, 3, 6, 7]
---
二、逐节深度解读
第一部分:引言与研究背景
汽车行业为全球经济关键部分,中国作为全球最大汽车市场与新能源车(NEV)重要增长地,解读中国市场对全球汽车生态有特殊意义。市场竞争激烈,消费者需求日益多样,且环保法规趋严,促使数据分析需求大幅提升。数字营销和社交媒体兴起,用户参与加深,促使传统销售预测面临挑战。报告明确指出现有数据集多数据维度缺失,无法满足更精细化分析要求,因而提出构建一个多源整合、功能丰富的数据集以支持行业内多样数据分析需求。[page::0]
第二部分:现有汽车数据集综述
以表I总结了先前研究常用数据集变量,涵盖车辆属性、品牌特征、价格、时间因素、用户体验、经济指标等,但无任何数据集能同时包含所有关键变量。缺漏包括品牌创建时间、车型上市时间、不同新能源品牌区分、详细属性评分和评论、单车型实际交易价及折扣数据、以及难以关联的行业新闻和用户评论情绪等。数据缺陷导致预测模型性能受限,尤其是无法捕捉到时间维度和品牌动态的深层影响,强调更全变量数据集的重要性。[page::1]
第三部分:数据采集与预处理
三大主流平台(PCAuto、Dongchedi、Autohome)为数据源,涵盖销售、评论及新闻资讯三类数据。
- 补充并引入了品牌来源地分类、车型及品牌入市顺序及时间,丰富数据的时间与地域维度。
- 在质量保障方面,销售数据完备,无缺失;评论数据清理掉多缺失记录,保留少量无销售数据比例9.68%的样本用于完整性保障。
- 手动补充实际成交价和官方指导价,提升价格相关分析的准确性。
- 数据集整合同步处理,做到销售与评论时序匹配,进而支持更细粒度的分析。
- 最终生成无重复、结构严谨的清洗数据集,为后续分析奠定基础。[page::1]
第四部分:SRNI-CAR数据集描述(表II)
- 销售数据:1236个车系,含518轿车、598 SUVs、121 MPV,39496条记录,涵盖155个品牌(107传统,48新能源),产地多样(德国、日本、法国、美国、中国等),以3.6MB CSV格式存储。关键应用:销售预测、品牌及车型先发优势研究。
- 在线评论数据:217,292条具体车型评论,覆盖13,039具体车型,价格范围宽广(2.68万-1488万人民币),包括10977传统车型、2062新能源车型,127品牌,涵盖8个车辆属性视角,含官方及成交价,便于折扣与价格弹性研究。规模达480MB。关键应用:消费偏好、假评论识别、产品评价。
- 行业新闻与资讯:83590条,涵盖行业趋势、市场策略、技术发展,数据量224.1MB,准确标注便于筛选。关键应用:产业政策评估、趋势分析。
[page::2,3]
---
三、图表深度解读
图表1与图表2(Fig. 1,Fig. 2):XGBoost模型的SHAP局部解释与变量重要性
- 图1显示两个数据实例中,主要变量对销售预测的局部贡献度,以红色(正向影响)与蓝色(负向影响)箭头表示变量贡献。首个样本显示“车型上市日期”对销售影响最大且为负,而“品牌进入中国时间”虽贡献较小但为正。说明时间因素对销量影响复杂,既有先发优势又有可能的延迟竞争优势。
- 图2全面罗列模型使用的变量及其重要性排序,排名前列为:车型与品牌进入顺序(先后顺序)、车型上市时间、品牌进入中国时间及品牌创立时间,展示明显的品牌与车型“先行者”优势。价格因素影响次之,官方指导价尤为关键,但价格与销量关系非线性。消费者情绪指标(基于文本情感分析的情绪分数)较数值评分更为重要,体现文本信息的丰富性。车系大小、产地及新能源车型偏好也显著影响销量。
该分析验证了数据集中新增时间序列变量的核心价值,充分支持销售预测的多维变量模型构建。[page::3,4]


图表3(Fig. 3):消费者评论情绪预测中的变量重要度
- 展示8个车辆属性(外观、内饰、空间、功能、动力、驾驶、能耗、舒适度)下,XGBoost对情绪预测关键变量重要性。
- 驾驶里程、购车年份、购车月份、驾驶经验时长均为高影响因子,表明用户经验水平是评论情绪的重要影响。
- 价格因素(官方价、成交价)普遍比折扣更能影响情绪,折扣影响较弱。
- 车型时间变量(上市日期、品牌成立日期、进入中国时间)在所有属性中均具显著影响,暗示品牌历史及先后进入市场影响消费者满意度。
- 评分与文本情绪呈现不同侧重点,如动力相关评论中评分权重最高,表明数值评分与文本情绪存在补充而非替代关系。
- 国别、车身大小与能耗类型在不同评论属性中影响不一,例如外观属性对车型大小无明显偏好。
数据提升了对消费者多维行为的理解,为精准市场细分和差异化营销提供了指导。[page::5]


图表4(Fig. 4):基于评论文本的词云分析
- 八个车辆属性词云展示了消费者关注焦点:
- 外观:设计、车身线条、颜值是高频关键词;
- 内饰:中控台、用料、风格为重点;
- 能耗:省油、续航、城市驾驶为关切重点;
- 舒适度:座椅、隔音尤其受关注;
- 功能:电动天窗、功能丰富性;
- 空间:后备箱、腿部空间、宽敞性;
- 动力:加速、发动机性能;
- 驾驶:精准转向、操控性能。
- 这些词云揭示了不同属性层面用户体验的具体化需求,可辅助制造商及营销人员优化产品设计与关键词传播。[page::6]

---
四、估值分析
报告本身聚焦于数据集建设及应用示例,未涉及具体企业估值模型或股价目标价计算。其主要透过XGBoost机器学习模型和SHAP解释方法完成销售预测与消费者情绪分析,强调模型参数调优(网格搜索交叉验证)、分类变量独热编码及文本情感分析集成。
分析方法透明,利用先进的机器学习解释技术(SHAP)克服多重共线性及解释难点,强化预测结果可解释性。此技术路线适用于数据驱动决策而非财务估值,符合研究目标。[page::3]
---
五、风险因素评估
报告未专门列出风险章节,但文中间接揭示若干潜在风险与限制:
- 数据缺失与偏差: 尽管精心清理,评论数据中销售缺失占9.68%,且未包含进口车销量,或对某些分析场景有代表性不足风险。
- 价格关系非线性和复杂: 虽确认价格影响销售和情绪,但价格-销量关系复杂且非线性,简化假设可能部分影响预测准确。
- 情绪分析依赖文本挖掘: 采用SnowNLP中文情绪分析,存在模型本身误差及主观表达难以量化的挑战,可能影响情绪预测结果的精确度。
- 模型选择限制: 仅以XGBoost示范,未比较更多模型,未来可能发现其他模型效果更佳。
- 行业数据更新滞后: 数据截止2022年,行业快速发展中若无持续更新,长期适用性受限。
作者提出持续改进与更新计划以缓解,风险管理意识体现出对数据有效性和实用性的关注。[page::1,3,6,7]
---
六、批判性视角与细微差别
- 作者报告全面,具多角度数据整合优势,但存在对模型和方法的选择局限,仅展示一种预测模型(XGBoost)用于示范,较少涉及模型对比与适用性广度说明。
- 数据集虽已很全面,但不包含进口车销售,可能在市场份额和消费行为分析中造成盲区。
- 在情绪分析依赖SnowNLP,未深入讨论情绪计算准确性或多义词、语境转变的挑战。
- 价格变量解释力强,但非线性关系缺乏具体建模细节,未来研究可采用更复杂非线性或非参数模型探究。
- 虽多次提及“先发优势”,但未对“后发优势”进行对比说明,有可能导致对市场动态理解不够全面。
- 词云展示有助于直观理解,但未结合词频的统计显著性分析,词云对营销实操指导的定量解释力有限。
整体看,报告为新数据集建设和应用提供扎实基础,但未来应用需解决上述潜在缺陷,丰富方法并扩展数据支持,以增强对汽车市场复杂性的深度把控。[page::3,6]
---
七、结论性综合
本报告全面介绍了SRNI-CAR,一个涵盖2016-2022年中国汽车市场数据的综合、多维数据集,包含销售、消费者评价及行业新闻,特别引入了时间序列变量(品牌创立、品牌进入中国、车型上市时间)、价格细分(成交价与指导价),极大丰富了传统数据集维度。通过XGBoost机器学习模型及SHAP解释方法,研究示范了该数据集在销量预测与消费者行为分析中的巨大价值:
- 关键变量发现:先发优势明显,车型及品牌历史时间相关变量对销量影响最大;价格依旧重要,但非线性关系复杂;消费者情绪(文本情感)较评分体现更真实的市场偏好;新能源车特别是纯电与混合动力车型备受青睐。
- 消费者行为洞察:用户购车经验(里程和时长)、购车年份等影响评论情绪,说明用户期望及满意度随时间演进。不同车辆属性下情绪影响因素差异显著,表明市场细分的重要性。词云分析进一步细化消费者关注点,为产品开发与精准营销提供灵感。
- 数据集商业及政策价值:该数据集支持厂商优化产品与市场策略,帮助政府评估产业政策效果,促进新能源汽车推广和行业健康发展。
图表严格数据解释部分佐证了文本论述的核心观点,展示了丰富的变量影响及消费者细致行为特征,强调了数据科学工具(机器学习、情感分析、可解释性模型)在现代汽车市场分析中的不可或缺性。
总体而言,本研究不仅为中国汽车市场研究提供了宝贵资源,也为全球汽车产业和其他复杂市场数据分析树立了范例。后续需不断完善数据更新、模型扩展,加强进口车数据整合和情绪分析模型精度提升,实现更精准全面的市场洞察。[page::0-7]
---
总结
SRNI-CAR数据集从销售、评价到行业新闻多层面整合数据资源,新增时间及价格等关键变量,揭示了品牌及车型历史顺序、新能源车政策、消费者多维视角对中国汽车市场的深刻影响。通过先进机器学习模型及SHAP解释,充分发掘了销售驱动因素和用户行为偏好,辅助企业与政府制定科学决策。该报告既展示了数据集设计的创新与全面,也通过丰富图表和实例证明了其实用价值。未来数据持续更新和多模型方法可进一步提升行业分析的准确性和适用范围。
---