量化百科

量化研究每周精选-20170923

由ypyu创建,最终由ypyu 被浏览 7 用户

导语:本周精选了5篇机器学习相关文章,其中涉及使用技巧、业界动态讨论、股市及房价预测、面试问题等机器学习知识,其中最后一篇文章列举了机器学习职位面试的40个常见问题及回答,具有启发意义,值得仔细阅读并思考。BigQuant拥有海量的数据和主流开源AI框架,赋能每一位爱好机器学习/深度学习和量化交易的人。

$目录$

  1. 《机器学习技巧讨论:简单可靠的特征是解决问题的关键》
  2. 《【吴恩达Quora最新问答】任何人都能成为机器学习专家》
  3. 《应用机器学习进行股市预测》
  4. 《如何利用机器学习预测房价?》
  5. 《面试机器学习/数据科学领域创业公司的40个问题》

  • <h4 id=one>《机器学习技巧讨论:简单可靠的特征是解决问题的关键》</h4>

    原文:链接

    关键词:机器学习、基础模型、简单特征

    本文为Github上开源项目random-forests参与者总结的机器学习技巧。文章短小,可供快速浏览。作者首先提出解决机器学习问题的顺序为:明确可衡量的目标,收集并清理数据,从简单特征和基准模型开始,进行端对端试验以验证目标和方法的可用性,分析模型错误并改正避免,改进特征,进一步尝试使用更复杂的模型。作者强调,模型要以简单和稳定为首要目标,不用过分对层数或者神经元数量过分关注。另外,对于改善结果精确度,作者认为应专注于数据与特征,而不是调试程序。先选用合理特征与基础模型(50%的完成度),继而调整(20%的完成度),最后才能得到令人赞叹的结果(10%的完成度)。

  • <h4 id=two> 《【吴恩达Quora最新问答】任何人都能成为机器学习专家 》 </h4>

    原文:链接

    关键词:机器学习、深度学习、AI

    本文为吴恩达教授在Quora做的最新session概要,重点回答了如何学习机器学习/深度学习,以及如何从事机器学习方向工作的问题。吴教授认为目前行业中确实存在一些小的泡沫,希望它们越早破灭越好,但深度学习和其他AI工具,都在明确地引导行业转型。深度学习的影响力将超越科技界。对于想要涉足这一领域的人来说:只要学习,人人都可以成为机器学习的专家并有很好的职业发展。复现他人工作并积极分享讨论是非常好的方法。吴教授还表示,AI作为基本技术不应受到管制,任何国家的强硬监管都会阻碍该国的AI发展。对于我们的下一代,也应积极鼓励他们学习编程,编码能力将成为可以预见的未来最深层次的人机交流的基础。

  • <h4 id=three> 《应用机器学习进行股市预测》 </h4>

    原文:《Stock Market Prediction - YouTube》

    关键词:支持向量机、分类、核函数

    本文为YouTube上的关于应用机器学习进行股市预测的视频,作者为Siraj Ravel。本视频主要讲述,相比较于手工收集大量资料再做出投资策略,机器学习非常适用于处理历史数据并预测股价未来走势。作者选用微软从2017年开始至今的10年价格数据主要包括时间与收盘价,和纽约报纸每天关于微软的新闻头条标题。作者首先利用NLTK库中SentimentIntensityAnalysis对新闻头条进行情绪分类:negative、neutral、positive 和 compound四类并对应赋值。接下来分别选用Random Forest、 MLP Classifier 和Linear Regression三种算法,基于价格数据和情绪数据进行训练,其中前8年数据作为训练数据,后2年数据作为测试数据。最终结果显示:MLP Classifer对于价格走势的预测能力最强。最后,作者总结到:只要选择合适的数据与合适的机器学习算法,股票价格走势的预测可行。

  • <h4 id=four> 《如何利用机器学习预测房价?》 </h4>

    原文:《Predicting Portland Home Prices》

    关键词:自然语言处理、图像学习、梯度提升

    作者利用网络爬取技术,自然语言处理技术、图像深度学习模型以及梯度提升技术来预测所在城市房价。作者主要收集了三个来源的数据:1. Zillow元数据:包含预期的描述性文字,平方英尺、街区、建造年份等,按照p值对每个特征进行排序;2. 地产商描述文字:使用自然语言处理技术,为每一个描述创建一个字矢量矩阵,用NLTK情绪包来计算情绪评分。3. 图片:每个房屋门前的图片采用VGG16深度神经网络对图像进行处理,提取特征(8300 x 25000的图像特征矩阵)。图片模型预测房屋价格效果良好,预测价格与实际价格基本一致。最后将Zillow元数据、地产商描述字矩阵和图像特征矩阵组合并到一个矩阵中,然后通过使用梯度提升算法来预测房价。模型最终预测结果良好,预测误差在7.1万元左右。

  • <h4 id=five> 《面试机器学习/数据科学领域创业公司的40个问题》 </h4>

    原文:《40 Interview Questions asked at Startups in Machine Learning / Data Science》

    关键词:机器学习、数据科学、面试

    本文致力于为正在机器学习和数据科学领域寻找工作的人准备一份面试问题列表。如果你能对本文问题对答如流,理解深刻并有实际操作经验,那么得到一份工作轻而易举。本文中的40个问题立足于工作实践,要求面试者对机器学习和相关统计概念有坚实的基础,问题类型涵盖:数据降维处理,PCA,数据缺失,模型准确度改进,朴素贝叶斯,算法挑选,回归与聚类,线性回归,连续与分类变量,随机森林模型,SVM,交叉验证,模型评估等等。同时,这个问题列表也希望能启发你对不同问题的兴趣并不断探索。

<br/>


量化研究每周精选》每周一期,为大家提精选研报、前沿研究、热门文章等优质内容。 查看所有 量化研究每周精选。欢迎投稿 (i@bigquant.com)。

标签

机器学习深度学习量化交易