金融科技(Fintech)和数据挖掘研究(一):数据挖掘技术框架简介-海通证券-20190221
由qxiao创建,最终由qxiao 被浏览 166 用户
摘要
数据挖掘对于投资决策的支持作用越发明显。随着国内资本市场的发展,证券市场中的可交易标的类型和数量都飞速增长,与市场有关的数据也快速增加。同时,随着市场监管越来越严,机构投资者的比重不断上升,市场有效性也逐步提升。如何快速准确地处理海量数据,并从中得到有价值的信息,是在这样的环境中继续获取超额收益的重要方法。
数据挖掘涵盖从数据采集到分析结果评价共7个步骤。
即,数据采集、数据清洗、数据特征提取、数据结构化、数据存储、数据分析、分析结果评价。
每一个步骤都需要大量的技术进行支撑,由此构成了完整的数据挖掘技术框架。
网络爬虫数据的使用需要审慎。
爬虫是获取数据的有效方式,然而对网站而言,通常并不欢迎用户利用爬虫获取数据,且绝大部分网站的创立目标是提供浏览服务,而不是数据提供商。因此,在保障服务运营的前提下,网站往往不会确保历史所有信息都可从客户所访问的网页当中获取。网络爬虫更适合作为一种数据抽样工具,而非可获取某领域全部数据的自动化工具。
自定义词典可以更好地提升现有自然语言分析库的性能。
自然语言处理往往都是通过神经网络等模型,分析先验的自然语言数据得到。投资所需要分析的文本信息一般是金融媒体新闻、公司公告、研究员报告等行文比较规范的书面语文本,其语法结构较为标准,易于处理。因此,只要准备好尽可能多的投资相关术语、公司名称、标的名称等专有名词字典,便可以很好地帮助自然语言处理系统分析文本,获取所需要的信息。
知识图谱可以帮助投资者从全新的视角认知市场。
它是一种直观显示各个实体关联信息的有效数据结构。通过对市场上“实体”和“关系”的定义与分析,帮助投资者从另一视角审视不同上市公司、交易标的之间的相关性,确认公司所处的产业链位臵,提升对于市场的认知能力。
正文
/wiki/static/upload/a7/a7cacb6c-c1cc-414b-99c5-0d88ddaecaf9.pdf
\