`

Forecasting NYC Yellow Taxi Ridership Decline: A Time Series Analysis of Daily Passenger Counts (2017-2019)

创建于 更新于

摘要

本报告基于2017-2019年纽约市黄出租车的每日乘客量数据,采用ARIMA等多种时间序列模型进行预测,发现乘客数呈线性下降趋势,日均减少约200人。经过趋势和多周期成分剔除,AR(1)模型表现最佳,测试集RMSE为34880,显著优于复杂模型和简易预测方法。研究为政策制定者及交通运营商提供了数据支持与预测工具 [page::0][page::1][page::2][page::3][page::4][page::5]

速读内容


纽约黄出租车乘客量基本情况及趋势分析 [page::0][page::1][page::4]


  • 2017年至2019年黄出租车乘客数呈线性下降趋势,约每天下降200人,平均每日乘客约438,000人次。

- 月度和周度数据揭示明显季节性波动:春季客流较多,冬季较少;工作周中周二至周六需求增加,周一和周日较低。
  • 节假日如圣诞节和独立日周客流量显著减少,3月中旬春季开始为客流高峰期。


时间序列特征及数据处理 [page::1][page::4][page::5][page::6]



  • 数据存在强周期性和多重季节循环,包括周周期、半年周期、年周期、45天周期和月周期。

- 采用线性趋势去除及序列残差周期剔除方法,先后剔除上述多周期成分,显著提升序列的平稳性(ADF检验p值由0.01降至0.001)。
  • 最终残差序列近似白噪声,为AR模型拟合奠定基础。


模型选择与性能对比 [page::5][page::7][page::8][page::9][page::10]


| Model | Adjustment | Train RMSE | Test RMSE |
|------------------|------------|-------------|-------------|
| ARIMA(9,0,9) | +9000 | 26458.46 | 39954.88 |
| ARIMA(6,0,4) | +59000 | 23082.23 | 37890.48 |
| ARIMA(1,0,0) | 0 | 20177.38 | 34880.39 |

  • 复杂ARMA模型存在过拟合问题,且需人为调整基线以降低训练RMSE。

- AR(1)模型既简单又稳健,无需基线调整,训练及测试RMSE最低。
  • 简单模型如均值预测、线性回归及带周期调整的线性回归均远不及AR(1)模型效果。

- 循环成分去除对提升模型效果显著,未剔除循环的AR(1)模型RMSE明显较高(36742.08)。

研究局限与未来改进方向 [page::3]

  • AR(1)模型难以应对乘客数突变,建议清洗异常值和平滑数据。

- 驾驶乘客量受多变量影响,如日期、天气、政策等,未来可考虑多变量时间序列模型以提高预测精度。

深度阅读

金融研究报告详尽分析报告


报告标题与概览


报告标题: Forecasting NYC Yellow Taxi Ridership Decline: A Time Series Analysis of Daily Passenger Counts (2017-2019)
作者: Gaurav Singh
发布机构与联系方式: 加州大学洛杉矶分校(UCLA),电子邮件 grvsingh@g.ucla.edu
发布时间: 2022年11月28日(发布时间通过参考文献[1]推断)
研究主题: 本报告围绕纽约市(New York City)黄色出租车在2017至2019年间的日均乘客数量变化进行时间序列分析,特别关注其客流量的下降趋势并预测未来变化。

核心论点与目标:
报告通过分析从纽约市出租车及豪华车管理委员会(NYC Taxi and Limousine Commission,简称TLC)获取的详尽数据,揭示了黄色出租车乘客量在研究期间的显著下降趋势,并找出强烈的季节性周期。通过对多种时间序列模型的比较,发现简单的一阶自回归模型(AR(1))结合趋势和周期调节,能最准确地预测未来的乘客量。目的是为政策制定者、出租车运营商及城市规划者提供数据支持,助其理解并缓解黄色出租车业务的衰退趋势。[page::0,1]

---

1. 报告结构及逐章深度解读



1.1 引言 (Introduction)


本节概述了纽约黄色出租车作为城市交通标志的重要地位及其运营规模的历史变化,强调由于约13,500辆出租车的“Medallion”牌照车辆减少至2019年不足9,000辆,凸显出行业的转型和衰退。报告指出,网约车服务(如Uber、Lyft)和2013年引入的绿色出租车为居民提供更多选择,构成黄色出租车的显著竞争压力。此外,黄色出租车的固定价格体系和高成本运营阻碍其市场响应能力。研究旨在分析2017-2019年乘客数据的时间序列规律,建立预测模型,并为疫情前的出租车业务提供基线数据。[page::0,1]

1.2 数据集描述 (Dataset)


采用NYC TLC公开数据,具体覆盖2017年1月1日至2019年12月31日的所有出租车行程,按日聚合乘客数形成时间序列。数据共1095天,其中最后61天作为模型测试集未参与训练或分析。说明排除2020年后的数据,避免COVID-19疫情导致数据失真及出租车数量极端缩减对模型准确性的负面影响。[page::1]

1.3 探索性数据分析 (Exploratory Data Analysis, EDA)

  • 季节性与周期性特征:

图3显示数据噪声大但存在显著重复周期且总体呈线性递减趋势。线性回归拟合的斜率为-200.13,截距约为547,356,表明2017年初日均乘客约为550,000人次,至末期平均约438,000人次,每天大约减少200人(见表1)。
  • 年、月、周变化规律:

- 年度总量线性下降,确认了长期下滑趋势(图1a)。
- 月度数据(图1b)显示春季(3-5月)乘客最多,冬季乘客最少,与天气寒冷、降雪影响出行习惯相关。
- 周周期中,周一和周日乘客量较低,周二至周六呈线性增长,周三至周四集中度较高(图1c)。
  • 重要日期影响:

- 春初(3月中旬)是乘车量高峰期;圣诞节、独立日假期则为乘客量谷底(表2)。
  • 自相关函数(ACF)与偏自相关函数(PACF)分析:

- ACF显示震荡且逐渐衰减,PACF切断点在2阶滞后,暗示AR(1)模型适用性(图4和图5)。[page::1,4,5]

1.4 建模前数据准备 (Data Preparation before Modelling)

  • 为满足时间序列建模的平稳性假设,进行数据趋势和周期剔除。

- Augmented Dickey-Fuller检验表明序列弱平稳(p=0.01),去除线性趋势后得到残差(图6),随后通过功率谱分析识别出6个主导周期,分别为:
- 周期7天(周周期)
- 182天(半年周期)
- 365天(年周期)
- 45天、一月周期及半周周期。
  • 按周期功率大小依次去除周到年周期五个主要周期后,残差基本成白噪声,平稳性增强(ADF p=0.001,图8-10)。

- 通过移除周期,残差的ACF和PACF形态更明显,进一步支持AR(1)模型选择(图11、12)。
  • 周期剔除方法:对每个周期里的对应日期计算均值并减去,依次从短周期向长周期剔除更合理,反之可能产生不可预期的新周期。[page::1,6]


1.5 模型选择与比较 (Modelling Approaches)

  • 根据ACF和PACF结果,选用ARMA模型。ARIMA模型中d=0因序列已平稳。

- 通过格点搜索(p, q均取1~10),计算AIC及BIC:
- AIC最低点在ARMA(9,9),但存在过拟合风险。
- 复合指标(AIC和BIC调和均值)按复杂度惩罚权衡,推荐ARMA(6,4)作为更优折中方案(图13)。
  • 拟合结果和调节后的参数调整:

- ARMA(9,9)预测残差形态波动大且尖峰明显,训练残差RMSE约27849,加常数调整后RMSE降至26458,测试RMSE仍较高39955(图14-17)。
- ARMA(6,4)相对平滑,训练RMSE高但整体拟合形状良好,加常数调整后训练RMSE下降至23082,测试RMSE为37890,有轻微改善(图18-21)。
- ARMA(1,0)即AR(1)模型表现最佳,残差预测更平滑,无需常数调整,训练和测试RMSE均最低,分别约为20177和34880,且随机系数为0.519,表明有适度的自相关(图22-24,表2)。[page::2,5,7,8,9,10]

---

2. 图表分析与解读



2.1 图1 (图4页) — 年度、月度、周度乘客数聚合柱状图

  • 年度图(a)显示乘客数持续下降,从约1.8亿降至约1.3亿。

- 月度图(b)体现明显季节效应,春季3-5月乘客量高,冬季12月最低。
  • 周度图(c)周一和周日最低,中间工作日逐渐递增,反映工作日出行需求较大。

此图集支持乘客数量存在季节性和周期性的核心论点,对趋势假设的合理性提供视觉依据。[page::4]

2.2 表2 (图4页) — 乘客数量最高和最低的日期排名

  • 乘客数最少集中于假日(12月24-26日,7月4日),亦反映节假日出行减少。

- 乘客数最多的日期多数集中春季(3月-5月),即乘客活跃期。
该表与季节性讨论相辅相成,增强了出行量随节假日及季节变化的观察结论。[page::4]

2.3 图3及表1 (图4-5页) — 原始数据与线性趋势拟合

  • 图3显示数据波动显著且含有明显趋势。蓝色拟合线说明日均乘客数逐年线性下降。

- 表1展现线性回归细节,截距约54.7万,趋势系数-200,表明每日乘客数量稳定减少200人。
该图和表为后续残差处理及建模奠定基础,明确趋势存在及其量级。[page::4]

2.4 图4与图5 (图5页) — 原始数据自相关函数ACF及偏自相关函数PACF

  • ACF呈现震荡且逐渐减弱趋势,PACF在滞后2截断,典型AR(1)特征。

这些特性直接指导模型选择,强调AR过程适用性。[page::5]

2.5 图6至图12 (图5-7页) — 残差数据及周期分析

  • 图6:线性趋势去除后的残差仍含周期波动。

- 图7:频谱密度显示多重周期,标出主要周期(周、月、半年、年等)。
  • 图8:五大周期去除后的均值曲线,周周期呈现周中工作日峰值,契合周度分布。

- 图9-10:去周期的残差频谱与残差图,明显降低周期性,表现接近白噪声,ADF检验显示高度平稳。
  • 图11-12:最终残差的ACF及PACF,ACF呈合理衰减形态,PACF仍截断于2阶,进一步验证AR(1)模型假设。

以上图表完整呈现了预处理过程及其对数据平稳性的改善效果,展示技术细节和实操步骤。[page::5,6,7]

2.6 图13 (图7页) — AIC及综合指标热力图

  • 图13(a)显示随着模型阶数增加,AIC最低为ARMA(9,9),但差异微小且波动偏低。

- 图13(b)综合考虑复杂度后,ARMA(6,4)成为优选,平衡拟合和过拟合风险。
该图提供严格的模型选择量化依据,防止因过拟合导致模型泛化能力下降。[page::7]

2.7 图14-24 (图7-10页) — 不同模型预测结果对比

  • 图14-17分别对应ARMA(9,9)的训练残差拟合、调整常数后的拟合、训练集预测和测试集预测。预测形态震荡剧烈,测试误差偏高。

- 图18-21展示ARMA(6,4)对应图,预测平滑度提升,训练误差改善,测试误差亦有所下降。
  • 图22-24展示ARMA(1,0)(AR(1))模型,预测残差变化平缓,训练及测试预测皆准确,误差最低。

- 表2总结3种ARIMA模型的训练和测试RMSE,AR(1)测试RMSE为34880显著优于其他模型。
  • 表3对比简单模型(均值法、线性回归法、前值策略等)显示均明显劣于AR(1),且未剔除周期的AR(1)测试RMSE提高至36742,印证周期剔除的重要性。

这些数据与图表系统地证实了更简单模型在此时间序列数据上的适用性,和策略性数据预处理对精度提升的关键作用。[page::7-10]

---

3. 估值分析


本报告为时间序列预测研究,未涉及传统金融估值方法,如DCF、P/E倍数等。模型选择及评价依赖统计指标(RMSE,AIC、BIC)以衡量拟合优度与泛化能力,而非财务价值估算。故此部分无估值分析内容。

---

4. 风险因素评估


报告虽未专门章节展开风险评估,但隐含风险及限制可归纳于以下几点:
  • 模型限制:

ARIMA类模型对历史数据依赖较重,难以捕捉历史未出现的极端波动或突发事件(如政策变化、节假日特殊影响)。
  • 数据缺失或异常:

原始数据因季节性波动强烈而噪声大,且存在可能的异常值,未必全部被剔除,影响预测准确度。
  • 外部因素影响:

模型未包含气候、法规变动、旅游政策等多维因素,未来这些变量变动将显著影响出租车乘客流。
  • 周期剔除方法固有局限:

先剔除长周期或短周期顺序对残差周期性识别影响,方法存在一定经验性质,可能产生未预期的新周期。
  • 样本时间限制:

数据只覆盖疫情前,未反映2020年疫情后运输形势突变,模型外推时需谨慎。
总体而言,报告明确未来工作可结合多变量时间序列模型,拓展模型解释力,减轻上述风险影响。[page::2,3]

---

5. 批判性视角与细微差别


  • 方法论简洁性与潜在矛盾:

报告强调简单AR(1)模型优于复杂ARMA(9,9)和(6,4)模型,表面看似矛盾但实为过拟合问题。却未深入讨论为何乘客量下降趋势,在原始数据巨量变化面前如此单一模型足以捕捉全部复杂现象,可能忽视非线性或突发变动。
  • 周期剔除顺序问题:

提及周期剔除先后顺序会对结果产生较大影响,表明该过程经验性质强,可能存在潜在模型偏误,未明晰其对最终预测带来的定量影响。
  • 缺乏多变量建模尝试:

虽表述未来可引入多变量模型,实际未提供初步尝试或数据融合方向说明,显得研究局限于单变量分析。
  • 异常处理不足:

未来改进中提及数据平滑与异常剔除的必要性,但分析中并未明确异常点的识别与处理流程。
  • 数据与模型假设和实际应用之间切换注意:

AR(1)模型参数为0.519,预测不连续且自回归力度不强,显示模型预测依赖较低,自相关结构可能偏弱,需关注其实用性的限制。

总之,报告以清晰严谨的数据分析和合理模型选择为优势,但对建模假设边界和实际复杂性的讨论略显不足,未来版本应加强模型稳健性和多因子影响的深入探讨。[page::2,3]

---

6. 结论性综合



本研究基于2017至2019年纽约市黄色出租车每日乘客数构建时间序列模型,揭示了以下关键发现:
  • 黄色出租车客流量整体呈现每日约200人递减的线性下降趋势,且具有明显的季节性周期性变化,包括周周期、月周期及年周期。

- 通过主成分频谱分析,有效识别并剔除了主导的五个周期,显著提升了数据平稳性,为后续时间序列建模创造条件。
  • 在多种时间序列模型中,简单的AR(1)模型在剔除趋势与周期后的残差上表现最佳,训练与测试的RMSE分别为20177和34880,相对于平均日乘客约438,000人,误差在合理范围内。

- 复杂高阶模型如ARMA(9,9)尽管初期AIC较低,但存在过拟合风险,预测波动大、精度反而下降。
  • 周期剔除步骤对模型准确性具有关键性影响,未剔除周期的模型性能明显下降。

- 与简单静态预测模型或线性回归相比,AR(1)模型能更好捕捉乘客数动态变化,预测精度更高。
  • 建议未来研究引入多变量时间序列模型,将天气、政策变化、节假日、旅游流量等因素纳入,进一步增强模型的逻辑解释力和预测能力。


该研究不仅提供了纽约黄色出租车乘客量变化的详实数据剖析,也从技术角度为传统出租车行业的未来走势预测提供了模型和方法论样板,具有重要的政策参考和实践指导价值。[page::0-10]

---

附录:关键图表展示



Figure 1: Aggregated Passenger Counts (a) Yearly (b) Monthly (c) Weekday
Figure 2: Top-10 Dates with (a) Least passengers (b) Most passengers
Figure 3: Raw Train Data + Linear trend
Figure 4: ACF plot for raw data
Figure 5: PACF plot for raw data
Figure 6: Residuals after linear detrending
Figure 7: Frequency densities for detrended residuals
Figure 8: Cycle mean residuals (weekly, monthly, etc.)
Figure 9: Frequency densities for cycle removed residuals
Figure 10: Final Residuals
Figure 11: Final Residuals ACF
Figure 12: Final Residuals PACF
Figure 13: AIC and Harmonic Mean Heatmaps
![Figure 14-24: 各模型训练及测试预测结果可在第7-10页图示中查看]

---

总结


整体而言,该报告系统、完整地解析了纽约黄色出租车的乘客数量变化趋势与时序特征,运用统计学和时间序列分析工具科学选择模型,并验证不同模型间的预测优劣,稳健地得出了基于AR(1)模型为最佳的结论。此结论为城市交通管理和出租车行业调整提供了量化依据,且研究设计严谨,数据处理细致,展示了扎实的时间序列分析能力。尽管存在对模型假设的简化及未来多变量建模需求等不足,但其对传统出租车行业衰退态势的预测有明显的实用价值和理论贡献。[page::0-10]

报告