您的当前位置:首页正文

易图秒懂の深度学习诞生 发展篇

来源:花图问答

前言

前面提到Hinton和微软语言识别小组的合作,让他意识到深度学习的重要应用意义,这个合作是他的学生通过实习带来的。 而另外, 深度学习的爆发性效应, 也是他的两个学生Alex和IIya带来的。 他们参加了 ImageNet Large Scale Visual Recognition Competition (ILSVRC) 2012图像识别竞赛, 大获全胜, 并且远超过第二名。 他们提出AlexNet网络, 这个网络是基于他们师兄Lecun的LeNet 5层模型, 加上他们老板Hinton基于梯度消失问题研究的RELU激活函数, 和Dropout正则化修正过拟合的方法。 当然, 他们自己为了加速运算,还用了GPU来做实验, 结果效果意外的好。 一下子引起全球轰动。

一图抵千言

Lecun继承了Fukushima的Neognitron卷积模型, 并且设计出了5层, 并应用到手写体的识别上面。 但是效果一直难以超过他同事研究的SVM。虽然他和Bengio一起公事了很多图像方面的工作,但他并没有意识到梯度消失的影响。

但是Hinton发明的一系列深度学习的技巧集成到LeNet之后, 并且利用了GPU加速就带来了意想不到的效果。 从此开启了深度学习的刷新模式。 以后在每年的ILSVRC,这个基于李飞飞的ImageNet数据集的图像识别任务一直刷新到超越人!当然从此GPU也成了深度学习的标配。 让Nvidia的股价飙升!

2012至2014, 深度网络变得更加强大。Google设计出模块化工作, 做成基于Inception模块的网中网结构, 再后来ResNet研发的残差模块的深栈结构刷新了人们对深度学习的认知。  最近Google又提出Multimodel来统一语音的LSTM,图像的CNN的应用。

至此,语音识别的LSTM,图像识别的CNN,还有自然语言处理的NNLM模型都发力了。 深度学习在非结构化数据方面大放异彩!

小结

前面我已经对结构化数据,尤其表数据学习的机器学习方向进行人物图谱关联。 本篇概述了深度学习在非结构化数据学习(图像,音频,视频, 文本)方面的大放异彩!

相关话题: