坚守还是离开?初期城市移民流失预测问题分析


(xmnz) #1

「论文访谈间」是由 PaperWeekly 和中国中文信息学会社会媒体处理专委会(SMP)联合发起的论文报道栏目,旨在让国内优质论文得到更多关注和认可。

作为一个缺少顶层设计的特殊群体,移民与返回性移民是经济全球化浪潮下不可回避的社会现象,同时也引起了一系列关于多元性社会认同、城市空间演化和人力资源增长或流失等社会问题。关注并探讨移民融入与返回的过程及潜在原因,为研究经济社会的发展带来价值。

目前,学术界有关移民融入和流失的问题受到广泛关注,但绝大多数工作依赖于问卷调查获得研究数据,很少有基于细粒度的数据对这类问题进行研究。

针对已有研究的局限性,**浙江大学的杨洋课题组结合了多种类型的数据就上海移民的早期流失问题进行了研究。**他们使用了丰富且大规模的数据集,包含由 5400 万用户之间通话产生的 6.98 亿条通话记录(信息已加密处理),以及包含1.8万处房地产的房价数据等,这使得定量分析移民的行为模式成为可能。

他们的研究发现,选择早期离开的移民(留存移民,下同)比选择继续留下来的移民(流失移民,下同),倾向于有更单一的社交关系、更小的活动范围,以及活跃于房价更高的区域。此外,当使用相同的特征进行流失移民预测时,使用最初几天数据训练的分类器就能达到全量数据训练的分类器的预测效果。

他们的研究成果 To Stay or to Leave: Churn Prediction for Urban Migrants in the Initial Period 发表在 2018 年的世界万维网会议(WWW’2018)上。

![](data:image/svg+xml;utf8,)

论文链接:PaperWeekly

那么,他们使用的数据集包含了怎样的信息,以及他们使用什么样的标准来区分不同类型人群呢?

第一大类的数据是通话元数据,时间跨度从 2016 年 9 月 1 日到 2016 年 9 月 30 日,包含由 5400 万用户之间通话产生的 6.98 亿条通话元数据。对于其中的 300 万用户,同时可以获得他们的一些个人身份信息,包括性别、年龄、出生地等。每条通话记录包含呼入者 id,呼出者 id,通话开始时间和结束时间。此外,对于每一通电话,数据集也包含对应基站的 GPS 位置,这可以被近似认为是用户通话时所在的位置。所有个人信息均被匿名处理。

第二大类数据是房价数据,已有经济研究表明个人的移居选择与不同区域的房价息息相关。这一部分的数据收集了来自安居客的 1.8 万处房地产的价格信息。结合 GPS 位置信息,用户的住所、工作地点和其他活动区域的房价可以被计算出来。

![](data:image/svg+xml;utf8,)

数据集中的用户基于出生地信息和通话历史数据被分为了三个群体:本地居民,留下移民,流失移民。出生在上海的用户被称作本地居民。出生地不在上海且前四天没有通话记录的用户被定义为新移民。如下图所示,新移民又被进一步划分为了流失移民(最后一周没有通话记录的新移民)和留存移民(三周都有通话记录的新移民)。

![](data:image/svg+xml;utf8,)

基于以上定义,数据集共包含 180 万名本地居民,3.4 万名留存移民和 1500 名流失移民。基于这一划分,可以计算出约有 4% 的新移民在最初移居的几周里选择离开上海,这一比例可供政策制定者用作参考,以及作为已有问卷的研究结果的补充。

在以上数据集和群体划分的基础上,论文提出了四种类型的特征,包括社交网络特征(ego network properties),通话行为特征(call behavior),地理模式特征(geographical patterns)以及房价信息特征(housing price information),并基于这些特征发现了一些有趣的统计结果。

例如,流失移民倾向于保持一个更加紧密的圈子(较高的集聚系数),有更单一的社交关系(较低的省份多样性和通话多样性),以及倾向于活跃于平均房价更高的区域。这些发现说明了积极地拓宽社交圈子以及选取合理租金的住所对于移民的融入十分重要。

![](data:image/svg+xml;utf8,)

在对各类特征的动态演变进行观察和分析以后,论文构建了两个二分类问题来区分不同类型的群体,第一个分类任务希望能区分新移民和本地居民,第二个分类任务的目标是分辨出流失移民和留存移民。考虑到样本的不均匀性,这两个任务都十分具有挑战性。下面介绍有关这两个任务的设定、结果和分析:

首先是新移民(35K) vs. 本地居民(1.80M)

形式化地,给定一个用户 v 在 14 天内(2016 年 9 月 5 日-2016 年 9 月 19 日)的移动通话网络 \left{ G_t \right} 和地理位置序列 L_{v}^{t} ,这一任务的目标是去预测用户 v 是一位新移民还是一位本地居民。

![](data:image/svg+xml;utf8,)

上表展示了这一任务基于随机森林的分类结果。作者采用的方法达到了 0.36 的 F1 值,显著超过了随机猜测的结果(0.02)。此外,团队进一步比较了不同类型特征的有效性,社交网络特征表现最好,其次是地理位置信息。

其次是,流失移民(1.5K) vs. 留存移民(34K)

这一任务的目标是预测一个新移民是否会在第三周离开上海。团队基于之前任务相同的设定使用随机森林分类器进行模型的学习。根据下表的结果,社交网络特征再一次达到了最好的预测效果。

另外,房价特征达到了仅次于社交网络特征的性能(F1),高于地理位置特征的性能,这说明了解一些额外的元信息,例如活跃区域的房价,比仅仅知道用户的活跃区域能更好地预测移民的早期离开。

![](data:image/svg+xml;utf8,)

在以上的实验中,团队使用了完整 14 天的数据来提取特征,进行了流失移民的预测。那么使用更少天数的数据进行流失移民的预测会达到怎样的效果呢?假如利用很短时间的数据就能觉察新移民的离开意愿,那么政策制定者可以针对性地帮助这类群体。

下图(c)展示了对流失移民的分类效果伴随时间窗口长度 k 的变化。可以看出,伴随时间窗口长度 k 减少,分类效果相应降低,但仍显著高于随机预测。

![](data:image/svg+xml;utf8,)

为了进一步探究性能随时间窗口的变化是由于分类器性能的提高还是特征质量的改善,团度设置了一组十分新颖的实验。具体来说,团队基于前 k 天的数据训练了一个分类器,并使用前 t 天的数据提取特征来预测这一新移民是否会离开城市,最后组合不同的 k 和 t 来观察它们对预测性能的影响(上图 d)。

有趣的是,当使用相同的特征时,仅使用前 5 天数据训练的分类器能与使用前 14 天数据训练的分类器达到一样的预测性能,这表明预测性能的提升主要来自特征本身。

总结来说,这一工作结合了大规模通话数据和房价数据,研究了早期城市移民的融入过程和流失过程。在当下和未来,使用和这一工作类似的数据驱动方法有很大潜力来帮助理解和改善外来移民的融入状况,例如,对在适应新环境上遇到困难的移民提供及时有用的支持。期待未来有更多的研究者使用不同的方法对移民融入这一问题进行研究,并最终能帮助和造福亿万追梦的移民们。

关于作者

![](data:image/svg+xml;utf8,)

**杨洋,浙江大学计算机学院副教授。**2016年获清华大学计算机科学与技术专业博士学位,被授予中国电子学会优秀博士学位论文、清华大学优秀博士毕业论文、北京市优秀博士毕业生等荣誉。博士期间访问美国康奈尔大学、比利时鲁汶大学。主要研究社交网络挖掘、网络表示学习、网络异常检测等,在KDD、WWW、AAAI、TOIS等国际顶级学术会议及期刊上发表论文20余篇,曾担任KDD、WWW、AAAI、CIKM、WSDM、ICWSM、ASONAM等国际学术会议程序委员会委员。

![](data:image/svg+xml;utf8,)

**刘宗涛,浙江大学计算机科学与技术专业硕士研究生。**2016年获得浙江大学计算机科学与技术专业学士学位。目前研究方向为社交网络数据挖掘和时序数据建模。已在AAAI和WWW会议发表论文3篇。

![](data:image/svg+xml;utf8,)

**谭宸浩,美国科罗拉多大学助理教授。**2016年获康奈尔大学计算机系博士学位,2010年获清华大学计算机系学士学位和经济学二学位。曾在华盛顿大学任博士后。主要研究自然语言处理和计算社会学。论文主要发表在ACL和WWW相关会议。研究得到媒体广泛关注,包括纽约时报,华盛顿邮报。曾担任ACL, EMNLP, NAACL, WWW, KDD, ICWSM等国际学术会议程序委员会委员。曾获得Facebook fellowship,NSF CRII等奖项。

![](data:image/svg+xml;utf8,)

**吴飞,浙江大学求是特聘教授,博士生导师。**于1996年、1999年和2002年分别于兰州大学、澳门大学和浙江大学取得学士、硕士和博士学位。主要研究领域为人工智能、跨媒体计算、多媒体分析与检索和统计学习。浙江大学计算机学院副院长、浙江大学人工智能研究所所长。国家杰出青年基金获得者(2016年)、教育部新世纪优秀人才支持计划入选者(2011年度)。

![](data:image/svg+xml;utf8,)

**庄越挺,浙江大学计算机学院教授,博士生导师。**1998年获得浙江大学计算机应用博士学位。主要从事跨媒体、人工智能、计算机动画、数字图书馆等领域研究,取得了突出的创新成果,在国际权威期刊以及顶级学术会议发表论文100余篇。国家杰出青年科学基金获得者(2005年)、“百千万人才工程”国家级人选者(2006年)、教育部长江学者特聘教授(2008年)、浙江省特级专家(2014年)、973首席科学家(2011年)、享受国家政府特殊津贴(2000年)、浙江省有突出贡献中青年专家(2013年)、浙江省“151人才工程”第一层次培养人员(2000年)、教育部“网络多媒体智能信息处理技术”创新团队带头人。国务院学位委员会第七届学科评议组成员。中国人工智能学会(CAAI)会士(2018)、常务理事。浙江省计算机学会理事长。中国计算机学会(CCF)2018中国计算机大会(CNCC 2018)程序委员会主席。

主办单位

![](data:image/svg+xml;utf8,)

![](data:image/svg+xml;utf8,)

#投 稿 通 道#

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢? 答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

📬 投稿方式:

• 方法一:在PaperWeekly知乎专栏页面点击“投稿”,即可递交文章

• 方法二:发送邮件至:hr@paperweekly.site ,所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击**「交流群」**,小助手将把你带入 PaperWeekly 的交流群里。

加入社区:http://paperweek.ly

微信公众号:PaperWeekly

新浪微博:@PaperWeekly