\
机器学习的研究领域包括有监督学习(Supervised Learning),无监督学习(Unsupervised Learning),半监督学习(Semi-supervised Learning)和强化学习(Reinforcement Learning)等诸多内容。针对有监督学习和半监督学习,都需要一定数量的标注数据,也就是说在训练模型的时候,全部或者部分数据需要带上相应的标签才能进行模型的训练。但是在实际的业务场景或者生产环境中,工作人员获得样本的成本其实是不低的,甚至在某些时候是相对较高的,那么如何通过较少成本来获得较大价值的标注数据,进一步地提升
更新时间:2024-05-20 06:19
本文14323字,阅读约28分钟
导语:本文旨在用精炼的语言阐述实操层面的机器学习量化应用方法,包括给出实践中一些常见、实际问题的处理方案,并结合了量化应用实例。读完后大家可以在本平台进行实践检验。
1.人工智能量化投资概述
2.人工智能技术简介
3.机器学习在量化投资中应用的具体方法解析
AI相对于传统量化投资的优势 传统的量化投资策略是通过建立各种数学模型,在各种金融数据中试图找出市场的规律并加以利用,力所能及的模式或许可以接近某一个局部的最优,而真正的全局“最优解”或许在我们的经验认知之外。如同不需要借助人类经验的Alpha Zero,不仅
更新时间:2024-05-20 02:09
更新时间:2023-10-09 08:21
请问如何搭建简单的resnet
就给我展示最小单元好了
更新时间:2023-10-09 08:20
在深度学习中,经常有“end-to-end(端到端)”学习的提法,与之相对应的传统机器学习是“Divide and Conquer(分而治之)”。这些都是什么意思呢?
“end-to-end”(端到端)说的是,输入的是原始数据(始端),然后输出的直接就是最终目标(末端),中间过程不可知,也难以知。比如说,基于深度学习的图像识别系统,输入端是图片的像素数据,而输出端直接就是或猫或狗的判定。这个端到端就是:像素判定。
再比如,“end-to-end”的自动驾驶系统,输入的是前置摄像头的视频信号(其实也就是像素),而输出的直接就是控制车辆行驶指令(
更新时间:2023-06-14 03:02
新年新气象!进入2018年,专栏还未更新过。我一直在忙着1月底的一个投稿,希望这次能全力以赴中个顶会!不然真的压力好大,不好找工作呀!现在文章基本写完,于是空出时间来,对去年开始就一直在整理的Github上的迁移学习仓库作了一些整理与归纳,希望可以更清晰更条理,对大家更有帮助。
【Github仓库地址:jindongwang/transferlearning】
*题外话:首先我要感谢对此Github项目进行支持的每个同学和研
更新时间:2023-06-14 03:02
最近没有在写文章,在看文章找研究点。利用课余时间,列出了一些迁移学习领域代表性学者以及他们的最具代表性的工作, 以供大家分享。以这篇文章作为《小王爱迁移》系列的第零篇,也是说得通的。
*一般这些工作都是由他们一作,或者是由自己的学生做出来的。当然,这里所列的文章比起这些大牛发过的文章会少得多,仅仅是他们最知名的工作。本文开源在了Github,会一直有更新,欢迎补充
更新时间:2023-06-14 03:02
本次介绍一篇刚发表在ICCV-17上的迁移学习文章。这个论文是第一篇使用**张量(tensor)**进行domain adaptation的文章。虽然方法本身并不复杂,但是可以作为今后工作的一些参考,还是比较有意义的。作者也慷慨地放出了方法的代码(见本文最后),我们也可以进行实践提升了。
现有的那些domain adaptation方法都只是针对向量(vector)的。而这种表示所带来的问题就是,当把这些数据应用于高维度表示(如卷积)时,数据首先要经过向量化(vectorization)。此时,无法精准完备地保留一些统计属性。所以作者要提出,**不经
更新时间:2023-06-14 03:02
*深度迁移学习一直以来是迁移学习研究最火的一个方向。近些年来,越来越多的研究者倾向于在深度网络中学习域不变的分类器/特征表示(domain-invariant classifier/representation),以此来提高迁移学习方法对于不同分布数据的泛化能力。本文为大家介绍来自UC Berkeley的博士生Eric Tzeng发表在ICCV 2015上的文章《Simultaneous Deep Transfer Across Domains and Tasks》。Eric Tzeng的主要研究方向就是视觉领域的迁移学习,他有多篇文章发表在计算机视觉的顶级会议上。并且,这篇文章的共同一作Ju
更新时间:2023-06-14 03:02
*一直以来都想讲一下GFK方法,但是一直不敢轻易尝试,因为这个方法涉及到了许多方面的知识,以我的能力怕说不好。GFK作为子空间变换方面最为经典的迁移学习方法,从2012年发表在CVPR上以后就一直被许多人引用,也是很多新方法着重对比的对象。其实GFK这个形式不是原创的,它建立在2011年发表在ICCV上的另一篇开创性质的文章(SGF)。我们今天的文章就以GFK方法为主体,简要谈谈这种流形学习方法在迁移学习上的应用。【作者的[官网](https://link.zhihu.com/?target=http%3A//www-scf.usc.edu/%7Eboqinggo/domainadaptati
更新时间:2023-06-14 03:02
更新:这个论文最近刚被ICML 2018接收。和arXiv上的版本应该有出入,我们拿到以后再进行更新。
最近有一篇叫做《Learning To Transfer》的文章火了。其实早在上一同我就看了这个文章当时大为震惊,深深感到迁移学习领域又要有一个大研究方向了,以后可以跟着大牛做了。文章来自香港科技大学杨强老师团队,所以文章的档次和质量自然是不用多说了。这两天在忙着写文章,刚吃过饭,把上一周我做的笔记分享出来。
我们在进行迁移学习时,往往不知道应该选择怎么样的算法。通常都通过人为地不断尝试来确定要用的方法。这个过程无疑是浪费时间,而且充满了不确定性
更新时间:2023-06-14 03:02
从这篇文章开始我将以《小王爱迁移》为名写一系列的介绍分析性的文章,与大家共享迁移学习中的代表性方法、理论与自己的感想。由于我的水平有限,请各位多多提意见,我们一起进步。今天第一篇必须以我最喜爱的杨强老师的代表性方法TCA为主题!(我的第一篇文章也是基于TCA做的)
【我整理重写好的加速版TCA代码(matlab):jindongwang/transferlearning】
更新时间:2023-06-14 03:02
这是《小王爱迁移》系列的第二篇,为大家介绍一个非常不错的工作,叫做联合分布适配。和第一篇的TCA一脉相承,但是更简洁更美丽,效果更好。
联合分布适配方法(joint distribution adaptation,JDA)解决的也是迁移学习中一类很大的问题:domain adaptation。关于domain adaptation的介绍可以看我之前的[介绍](https://link.zhihu.com/?target=https%3A//github.com/jindongwang/transferlearning/tree/master/paper/domain
更新时间:2023-06-14 03:02
要理解负迁移,首先要理解什么是迁移学习。迁移学习指的是,利用数据和领域之间存在的相似性关系,把之前学习到的知识,应用于新的未知领域。迁移学习的核心问题是,找到两个领域的相似性。找到了这个相似性,就可以合理地利用,从而很好地完成迁移学习人物。比如,之前会骑自行车,要学习骑摩托车,这种相似性指的就是自行车和摩托车之间的相似性以及骑车体验的相似性。这种相似性在我们人类看来是可以接受的。(迁移学习的更多介绍可以参照我之前的这个回答以及我的Github)所以,如果这个相似性找的不合理,也就是说,两个领域之间不存在,或者基本不相似,那么,就会大大损害迁移学习的效果。还是
更新时间:2023-06-14 03:02
本次介绍一篇被计算机视觉顶会CVPR 2018接收的文章:《Importance Weighted Adversarial Nets for Partial Domain Adaptation》。文章作者团队来自澳大利亚卧龙岗大(University of Wollongong)。
我们目前接触过的绝大部分迁移学习问题情景都是:源域和目标域的特征空间与类别空间一致,只是数据的分布不一致,如何进行迁移。也就是说,源域和目标域要是几类,都是几类。但是这种情况显然具有很大的限制性:在真实应用中,我们往往不知道目标域的类别,更不用说它是否和源域的类别完全一样。这就极大地限制了它的应用。
更新时间:2023-06-14 03:02
文章居然超长了,接上篇
Fully convolutional networks
Each layer of data in a convnet is a three-dimensional array of size h × w × d, where h and w are spatial dimensions, and d is the feature or channel dimension. The first layer is the image, with pixel size h × w, and d color channels. Locations in hi
更新时间:2023-06-14 03:02
最近一段时间在文本聚类的工作,一路也遇到了不少坑,自己也写一篇文章记录了一下自己的过程.
1:什么是文本聚类
先说说聚类的概念,聚类又称群分析,是数据挖掘的一种重要的思想,聚类(Cluster)分析是由若干模式(Pattern)组成的,通常,模式是一个度量(Measurement)的向量,或者是多维空间中的一个点。聚类分析以相似性为基础,在一个聚类中的模式之间比不在同一聚类中的模式之间具有更多的相似性。(以上来自百度百科).
再说到文本聚类,文本聚类其实也就是在文本方向上的应用,首先我们要把一个个文档的自然语言转换成数学信息,这样形成高维空间点之后再去计算点与点之间的距离,然后将这些距离
更新时间:2023-06-14 03:02
\
更新时间:2023-06-14 03:02
内容整理自网络,原文地址:http://t.cn/R3e0Ohf
首先,为什么要调整模型?
像卷积神经网络( CNN )这样的深度学习模型具有大量的参数;一般称之为超参数,因为它们不是固定值,需要迭代优化。通常可以通过网格搜索的方法来查找这些超参数的最佳值,但需要大量硬件和时间开销。那么,一个真正的数据科学家是否满足于只是猜测这些超参数呢?答案当然是否定的。
改进模型的最佳方法之一是,基于专业团队的设计和体系结构上来进行改进,但这些专业的知识往往需要对某一领域具有深入的了解,且通常需要有强大的硬件支持。一般这些专业的团队都喜欢把他们的训练好的模型(pre-trained mo
更新时间:2021-09-09 02:24
lintcode上面有十几道类似于Kaggle的小项目,用于深度学习的入手练习再好不过了,现在就让我们上手这道猫狗分类器的问题吧!
(全程用Keras框架,简单上手!)
题目描述:
给出一张猫或狗的图片,识别出这是猫还是狗。
这种识别具有很重要的意义,比如:
Web服务为了进行保护,会防止一些计算机进行恶意访问或信息爬取,进而设立一些验证问题,这些验证问题对于人来说很容易做,但是对于计算机这很困难。这样的方法称为CAPTCHA(完全
更新时间:2021-09-09 02:22
机器学习里面究竟有多少经典的算法呢?本文简要介绍一下机器学习中的常用算法。这部分介绍的重点是这些方法内涵的思想,数学与实践细节不会在这讨论。
在大部分机器学习课程中,回归算法都是介绍的第一个算法。原因有两个:一.回归算法比较简单,介绍它可以让人平滑地从统计学迁移到机器学习中。二.回归算法是后面若干强大算法的基石,如果不理解回归算法,无法学习那些强大的算法。回归算法有两个重要的子类:即 线性回归 和 逻辑回归 。
线性回归就是我们前面说过的房价求解问题。如何拟合出一条直线最佳匹配我所有的数据?一般使用“最小二乘法”来求解。“最小二乘法”的思想是
更新时间:2021-08-18 06:37
《Attention Is All You Need》是一篇Google提出的将Attention思想发挥到极致的论文。这篇论文中提出一个全新的模型,叫 Transformer,抛弃了以往深度学习任务里面使用到的 CNN 和 RNN ,来做机器翻译的任务。Bert就是基于Transformer构建的,这个模型广泛应用于NLP领域,例如机器翻译,问答系统,文本摘要和语音识别等等方向。本文根据论文[《Attention Is All You Need》](https://arxiv.org/abs/1
更新时间:2021-04-23 08:06