国外 日博提款提不出_日博在线直播_日博水位一直涨什么意思公司

谷歌掀起翻译新浪潮,看专人翻译小尾巴的生存之道

谷歌于2015年10月30日发布了网络机器翻译系统(GNMT),谷歌称,凭借先进的技术,该系统将机器翻译的质量进行了最大的提升。GNMT上线2个多月来,经过了世界各地网友100多种不同语言的测试,大家发现GNMT的确并不只是一个噱头,在翻译速度和精度上确实都有了极大的提升,给用户带来了更好的服务,其中英语和法语、英语和西班牙与的互译质量已经超过了90%,中英的互译准确率也在80%左右。

然而,在实际的运用中,CNMT仍谈不上绝对可靠,经常会出一些人工译员不会犯的低级错误,如经常混淆一些专有名词,或在处理大篇幅文章时忽略其上下文的联系。虽然如此,GNMT仍然让不少从事翻译行业的人敏锐的意识到这一新技术投入应用将对人工翻译带来的震撼与冲击。

人面对技术,何去何从?

虽然科技行业正在竭尽全力推翻阻碍全球之间相互交流的“巴别塔”。但日博提款提不出_日博在线直播_日博水位一直涨什么意思的瓶颈也很明显。较短时间内技术不可能完全取代人工翻译,高难度翻译工作,如各类学术文献、文艺作品的笔译,严肃政商会议使用的同声传译或连续传译等,仍对人工翻译的灵活主观能动性、创造性有着绝对依赖,这方面是日博提款提不出_日博在线直播_日博水位一直涨什么意思的短板。在这种场景下,人工翻译的高度灵活性,准确性和人类特有的理解能力就显的十分的重要,日博提款提不出_日博在线直播_日博水位一直涨什么意思在学习人类的表情、收集人类情绪、结合当时场景等方面还是无法超越人类的,目前的发展还仍然处于婴儿阶段。

另一方面,传统的专人翻译,一定要结合新的形式和场景才能更好的发展下去。这对于拥有语言能力的专人译员来说有着很大的挑战,如何改变工作形式更好的适应目前的环境是翻译从业者需要关注的问题。

而在碎片化的运用场景上、高灵活度、高附加值的专人翻译服务就展现出了与人工智翻译能差异。通过人工翻译结合互联网、将零散的译员资源进行聚合。通过“人”的属性解决日博提款提不出_日博在线直播_日博水位一直涨什么意思无法解决的语言问题正是小尾巴专人翻译存在的意义。那么,小尾巴是如何用“专人“抵抗日博提款提不出_日博在线直播_日博水位一直涨什么意思的入侵的呢?

的属性无可替代——小尾巴的生存之道

小尾巴翻译采用专人在线一对一的方式解决用户的语言问题。目前支持11种语言的在线即时互译,选择好需要互译的语言后最多30秒就能为你接通译员,可通过语音、文字、图片等形式与译员进行互动。

图片1.png?

小尾巴与日博提款提不出_日博在线直播_日博水位一直涨什么意思的本质区别是“人”,人的价值是机器无法替代的,平台背后一个个真实存在的译员们是小尾巴最大的财富。虽然GNMT的准确率已经达到了惊人的80%,但对于很多用户来说就是这剩余的20%不准确就会给自己带来十分不适的体验。在诸如就医、报案等突发紧急事件时使用机器翻译所带来的细微差异就很可能造成非常严重的后果。在复杂的使用场景下,日博提款提不出_日博在线直播_日博水位一直涨什么意思常常无法进行很好的场景判断。例如在国外就医时,使用者通常处于高度慌张的情绪,承受着病痛的痛苦。传统的键入文字的形式可能根本很难做到,而由于用户处于痛苦、紧张、恐慌的情绪中,说出的语句也可能存在语法不通或发音不标准等问题,造成翻译结果的误差。这会给患者的就医带来极大的影响。在这种特殊的情况下,诸如GNMT的日博提款提不出_日博在线直播_日博水位一直涨什么意思翻译技术绝不可能达到80%的准确度。

xiao wei ba yu ren gong zhi neng de ben zhi qu bie shi" ren", ren de jia zhi shi ji qi wu fa ti dai de, ping tai bei hou yi ge ge zhen shi cun zai de yi yuan men shi xiao wei ba zui da de cai fu. sui ran GNMT de zhun que lv yi jing da dao le jing ren de 80, dan dui yu hen duo yong hu lai shuo jiu shi zhe sheng yu de 20 bu zhun que jiu hui gei zi ji dai lai shi fen bu shi de ti yan. zai zhu ru jiu yi bao an deng tu fa jin ji shi jian shi shi yong ji qi fan yi suo dai lai de xi wei cha yi jiu hen ke neng zao cheng fei chang yan zhong de hou guo. zai fu za de shi yong chang jing xia, ren gong zhi neng chang chang wu fa jin xing hen hao de chang jing pan duan. li ru zai guo wai jiu yi shi, shi yong zhe tong chang chu yu gao du huang zhang de qing xu, cheng shou zhe bing tong de tong ku. chuan tong de jian ru wen zi de xing shi ke neng gen ben hen nan zuo dao, er you yu yong hu chu yu tong ku jin zhang kong huang de qing xu zhong, shuo chu de yu ju ye ke neng cun zai yu fa bu tong huo fa yin bu biao zhun deng wen ti, zao cheng fan yi jie guo de wu cha. zhe hui gei huan zhe de jiu yi dai lai ji da de ying xiang. zai zhe zhong te shu de qing kuang xia, zhu ru GNMT de ren gong zhi neng fan yi ji shu jue bu ke neng da dao 80 de zhun que du.

而小尾巴的专人翻译,因为平台背后匹配的是一个个真实存在的人,人在各种场景下表现出的不同情绪、情感层面的不同表意需求,只有人类才能够很好的理解。小尾巴通过技术手段匹配最切合用户使用场景与用户身份的译员为之服务。译员可以非常流利的在用户和医生之间进行沟通。译员与用户进行人类之间的真实交流,在探讨中解决实际问题。

而这些属于人类复杂的场景和情感是日博提款提不出_日博在线直播_日博水位一直涨什么意思很难理解的,这也是日博提款提不出_日博在线直播_日博水位一直涨什么意思发展将近60年来一直无法逾越的天堑和致命的缺陷所在。

多元化的使用场景和交互形式

通常的机器翻译工具,是使用文字键入或语音的形式进行翻译,如果在国外遇到了路标、菜单等需要输入文字的使用场景下机器翻译就经常无能为力了,若遇到了如俄语、韩语等语言,大部分人都不知如何输入词汇。而现在的图像识别技术完全不能保证准确的识别图片中的文字。

图片2.png?

这种情景下用户可以使用小尾巴对对象进行拍照,将图片发送给译员,译员可以使用文字或语音的形式与用户进行互动。

在不同的使用场景中,小尾巴“人”的属性也都有无可替代的价值。目前小尾巴的译员遍布全球,通过精准的匹配算法,会匹配到最符合用户习惯、使用场景和文化背景的译员。很多译员就生活在用户使用时的所在地,对当地的文化风俗、当地特色等都十分了解,可根据用户的需求给出十分靠谱的建议。

从更高的层面来看,使用专人语言服务不仅仅是为了解决当时的语言问题,更是为了了解到异国的文化、商业等信息与知识,结识更多不同语言背景的朋友,学习多元的思考方式。日博提款提不出_日博在线直播_日博水位一直涨什么意思它并不能给你这样一个过程,它只能给出一个生硬的结果。

小尾巴的所蕴藏的商业价值

目前小尾巴以终端应用的形式出现,但笔者认为小尾巴所蕴含的价值并非止步于此。小尾巴可以进一步细化译员的分类,不同专业、技能、文化背景的译员在平台聚合会创造更大的可能,通过拓展更多的业务,巨大的商业价值得小尾巴进一步开发。

另外小尾巴很可能通过扩展核心功能,嵌入如Airbnb、uber等软件,连接更多的人。或与硬件配合在海关、银行、会议现场等场景下使用。

结语

自从人类文明产生,阻碍人类的巴别塔就一直存在,科技的进步说着不通语言的人们沟通越来越便捷。但要让全人类真正的沟通无阻,各文明相互包容开放,其本质还是要依靠“人”!这,也许就是小尾巴专人翻译存在的意义。

声明:本文仅为传递更多网络信息,不代表站长之家观点和意见,仅供参考了解,更不能作为投资使用依据。

广告

当前文章:http://www.earrobas.com/gls0n7k/9775-16133-81012.html

发布时间:01:42:10


{相关文章}

【钛坦白】第四范式陈雨强:日博提款提不出_日博在线直播_日博水位一直涨什么意思在工业界应用的必经之路

在钛媒体Pro专业用户和付费用户专享的“钛坦白”在线课堂第33期,我们再次请来三位钛客分享对机器学习的思考 。本期钛客之一、第四范式联合创始人、首席研究科学家陈雨强博士,曾在 NIPS、AAAI、ACL、SIGKDD 等顶级会议上发表论文,并获得创意日博提款提不出_日博在线直播_日博水位一直涨什么意思玩具_星玄未来日博提款提不出_日博在线直播_日博水位一直涨什么意思平台了 APWeb 2010 Best Paper Award,在KDD Cup 2011名列前三。在百度凤巢任职期间,陈雨强博士主持了世界首个商用深度学习系统;在今日头条期间,陈雨强博士主持了全新的信息流推荐与广告系统的设计实现。

本文根据陈雨强博士的分享整理。作为专业用户,您现在已可以看到全文。非专业用户若希望看到全文,或进入钛坦白九个专业群交流,并查看更丰富的专业数据和信息,可点击:http://www.tmtpost.com/pro 注册。

以下根据陈雨强博士在钛坦白的分享实录整理:

大家晚上好,我是陈雨强,现在在第四范式负责日博提款提不出_日博在线直播_日博水位一直涨什么意思算法的研究和开发相关的工作。今天我要跟大家分享的题目是《日博提款提不出_日博在线直播_日博水位一直涨什么意思在工业界应用的必经之路》,分享一下我之前在工业界的经历,希望和大家有一些思想上的碰撞。

日博提款提不出_日博在线直播_日博水位一直涨什么意思正进入更多产品、企业、行业

最近日博提款提不出_日博在线直播_日博水位一直涨什么意思在工业界越来越火,过去五年之间日博提款提不出_日博在线直播_日博水位一直涨什么意思的应用是以指数级在上升,不管在公司内部还是行业之间,日博提款提不出_日博在线直播_日博水位一直涨什么意思变成一个炙手可热的名词。从公开资料上可以看到,谷歌在2012的时候,其实跟Facebook一样都只有很少量的一些应用使用了日博提款提不出_日博在线直播_日博水位一直涨什么意思技术,比如说在他们最当家的那些搜索或者是Feed流上使用的这些技术,但是到2016年Q2的时候,谷歌已经有超过2000家的应用使用了日博提款提不出_日博在线直播_日博水位一直涨什么意思技术,而在Facebook里已经有超过17个大的团队,25%以上的工程师正在使用日博提款提不出_日博在线直播_日博水位一直涨什么意思。也就是说,在互联网的这些巨头里面,日博提款提不出_日博在线直播_日博水位一直涨什么意思的影响力正在从少数几个产品迅速的扩展到各种各样的产品线上

还有一个比较有意思的现象,就是日博提款提不出_日博在线直播_日博水位一直涨什么意思在工业界的影响会越来越大,热词正从“移动+”“互联网+”到“AI+”转变。之前处于跑马圈地的时代,所以说有“移动+”和“互联网+”作为渠道,能让传统的实体行业焕发新的一春,但是等到流量的红利已经到达了一定的边界的时候,我们急需一些新的方式能让增长保持持续。

AI是下一个增长的点,所以传统的“互联网+”的公司纷纷转向“AI+”,比如说滴滴、美团,小米,他们拥有很多的数据,他们现在也在纷纷建立研究院,研究这些数据怎么样能产生更大的价值。比如美图,它背后有大量的照片,所以他们也可以成为非常优秀的日博提款提不出_日博在线直播_日博水位一直涨什么意思公司。除此之外,还有一些天生就是日博提款提不出_日博在线直播_日博水位一直涨什么意思与行业结合的公司,比如说日博提款提不出_日博在线直播_日博水位一直涨什么意思加上新闻就ai日博提款提不出_日博在线直播_日博水位一直涨什么意思美国_星玄未来日博提款提不出_日博在线直播_日博水位一直涨什么意思平台是头条,日博提款提不出_日博在线直播_日博水位一直涨什么意思加上机器人就是大江这样的公司。

给大家分享之前我介绍一下自己的经历。AI大潮从2001年开始呈指数级的上升,非常有幸我赶上了这波的大潮,当时在学校里,我主要做的是迁移学习方面的研究,在NIPS和AAAI等顶会上有比较多的论文发表,然后到了工业界之后,我发现其实看到的问题和现在有很大的不同。

我毕业之后首先去的是百度,在百度主要负责的是搜索广告系统——凤巢系统,这个阶段是解决一个公司的一个问题,就是怎么提高广告点击率,当时做的事情偏纯技术,我主要做的是如何将上千亿特征的机器学习系统变成一个深度学习的系统,这也是当时我们所知道的世界上第一个把深度学习应用到商业变现上的一个成功的系统。

之后我去了今日头条,在头条和百度遇到的问题其实并不太一样,百度凤从0到1学习日博提款提不出_日博在线直播_日博水位一直涨什么意思有感_星玄未来日博提款提不出_日博在线直播_日博水位一直涨什么意思平台巢里面遇到的问题主要是搜索广告,在头条里我会遇到很多的问题,比如说主信息流推荐、小频道推荐、视频推荐、信息流广告,还有评论排序等等非常非常多的应用和业务,这样的应用和业务对我来说最大的感受是,我发现了日博提款提不出_日博在线直播_日博水位一直涨什么意思需要更紧密地和产品、应用相结合。我在头条除了做了一个大规模的机器学习系统,能让它有个性化的推荐效果之外,还有一个很重要的事情,就是设计了一套机制,能够让机器学习系统发挥最大的效能。打个比方来说,机器学习系统是一个汽车的引擎,而我们设计的就是一个传动系统,有了一个比较好的传动系统,才能把机器学习的能力发挥到极至。

离开了头条之后,我到了第四范式,在第四范式我面临的行业更加多种多样。不止是新闻行业了,可能是金融、电信、互联网,包括各种各样的问题,有获客、风控、营销、推荐、排序等很多很多的问题。所以在这个地方,我遇到的新问题是,怎么样能把我在过去拥有的日博提款提不出_日博在线直播_日博水位一直涨什么意思的知识应用到各行各业。

从解决一个公司的一个问题,到解决一个公司的很多问题,到解决各行各业的各种问题,这个经历给了我比较多的思考,比方说如何做一个日博提款提不出_日博在线直播_日博水位一直涨什么意思系统,如何让一个日博提款提不出_日博在线直播_日博水位一直涨什么意思系统更加广泛的在一个公司内部被使用,如何让一个人医疗日博提款提不出_日博在线直播_日博水位一直涨什么意思的现实意义_星玄未来日博提款提不出_日博在线直播_日博水位一直涨什么意思平台工智能系统有更好的机制,以及如何让日博提款提不出_日博在线直播_日博水位一直涨什么意思系统进入到更多的行业之内。

日博提款提不出_日博在线直播_日博水位一直涨什么意思成功的五个条件

为什么日博提款提不出_日博在线直播_日博水位一直涨什么意思在最近一段时间非常火,而不是更早的比方说十年前,二十年前非常火呢,为什么AlphaGo能打败李世石,在2016年而不是更早呢,我们直观地认为,因为算法的创新,因为出现了深度学习,因为出现了DQN这样新的算法,但是这只是一部分原因。国内外很多专家总结出了人工智马云关于日博提款提不出_日博在线直播_日博水位一直涨什么意思的英语采访_星玄未来日博提款提不出_日博在线直播_日博水位一直涨什么意思平台能成功的五大条件,我这里跟大家分享一下:

  • 边界清晰。就是说对于比如说下围棋这样的问题来说,我们需要做的是一个1919的棋盘上,黑白两方轮流下子,最后看谁围的空多,谁就赢这样的一个问题。如果我们把棋盘的大小变成2020,或者我们改变了黑白两种子的颜色,有黑白红三种颜色,或者说我们改变了围棋的规则的话,这都会导致AlphaGo失效。
  • 充足的外部反馈。外部的反馈其实包括两点因素,第一点我们需要有外部告诉他是输还是赢,不断的有外部的棋手跟他进行对战,或者是自我的博奕,能有输赢,外部的反馈才会让他不断的进步。第二点这个系统本身也需要不断的自我更新,适应外部的反馈。
  • 计算资源。虽然说最近的算法有了非常大的进步,但是计算资源也是产生智能非常关键的一点。最近业界在分布式计算的成功,让我们相对于几十年前有了一个技术上巨大的飞跃。举个非常有趣的例子,当时AlphaGo描述他的棋力的时候,都使用的是他使用的硬件资源来描述他的棋力,比方说用单机版的AlphaGo和更高智能所谓多机并行的AlphaGo,从这个地方可以看出,计算资源对于日博提款提不出_日博在线直播_日博水位一直涨什么意思的高低起着至关重要的作用。
  • 顶尖的数据科学家和顶尖的人才。强化学习、深度学习最近被重新提出,需要非常多的科学家的大量的工作,这些算法才能真正的被推行。现在在围棋、语音和图像上面这些技术都获得了非常广泛的长足的进步,那在其他的领域,仍然需要非常多的科学家做很多的研究,能让这些技术能真正的进入各行各业。
  • 大数据。这个其实是AlphaGo成功的关键。当时KGS流行,在KGS上有数十万盘高手对弈的棋谱,如果没有这些数据,AlphaGo绝对不可能在这么短时间之内击败人类。

这些要素总结起来有三点:一方面我们需要有很好的技术,包括计算资源和大数据,一方面是业务边界要清晰,要有反馈,另外一方面我们需要有人,我们需要有很好的科学家,需要有很好的场景,能让我们使用上这个日博提款提不出_日博在线直播_日博水位一直涨什么意思。

如何获得一个好的机器学习系统?

首先说说什么是好的机器学习系统。好的机器学习系统一定是可扩展的机器学习系统。可扩展的机器学习系统并不等于可扩展的系统,这里面最大的区别是什么呢?最大的区别就是,可扩展的机器学习系统一方面数据的处理的吞吐随着集群和机器数量的增加而增加,这是传统的可扩展系统;而另一方面可扩展机器学习系统指的是智能的水平和体验的壁垒,随着业务和数据的增加而增加,这个可能是机器学习最不可替代的价值所在。

比如,过去要建立竞争壁垒主要是通过业务的创新,行业的跑马圈地,通过新的渠道来提升效率。这种方式之中,对于产品本身来说是相对很容易被抄袭的,而资本的投入、运营的强度和渠道是否完整是整个公司成功的关键。但是随着数据和AI的普及现在有了一个新的方式,就是通过时间和数据创造壁垒

比如现在的搜索引擎,即使有人有了百度全部的代码,也很难做出一个超过百度的体验水平的搜索引擎,因为百度拥有最近十年全中国上十亿人所有的搜索数据。如果没有了这些数据的话,即使有同样的算法,也没有办法得到同样的体验水平。从这个角度上来说,将来的竞争壁垒,将不仅仅只是在我们的业务上,更会在我们的数据上,有了更多的数据我们就可以通过日博提款提不出_日博在线直播_日博水位一直涨什么意思产生更高的壁垒,然后拉开更大的差距。

那怎样获得一个高智能水平的可扩展的机器学习系统呢?1960年代到1990年代,Vapnik 和 Chervonenkis提出了“VC维”理论,形式化地描述了机器学习算法对复杂函数拟合的能力。“VC维”类似人脑内的神经元,有越多的神经元代表这个人越聪明。但有越高的智商不一定会有越高的成就,还有一个很关键的因素就是你需要有很多的经历,只有那些智商比较高同时又很多经历的人才能悟出很多的道理,在机器学习“VC维”也是讲的这么一个道理。

如下图,过去的数据不是很大,所以随着我们的迭代的增加,我们的训练损失函数在不断的下降,我们测试损失函数先会下降然后会上升,这个地方我们需要控制VC维,让模型不要共拟合。这好比你是一个比较聪明的孩子,很小的时候不能让你过度地思考,因为你的精力比较少,所以非常容易误入歧途。其实比较好的做法是上方右侧这幅图,也就是我们使用VC维比较低的模型,让训练的损失和测试的损失函数同时的下降,这是我们认为比较好的一个模型。

当然这只是故事的一半,随着时代的不断的发展,我们会发现数据会越来越多,如果我们把横轴替换成数据这个维度,如下方这幅图,在数据比较小的时候,低VC维的模型比高VC维的模型效果好,因为高VC维的模型会over-fitting,但是随着数据越来越多,高VC维的效果会不断提升,而低VC维系统会达到一个上阶,这就是所谓的under-fitting的问题。当然这只是故事的一半,随着时代的不断的发展,我们会发现数据会越来越多,如果我们把横轴替换成数据这个维度,数据从小到大这么一个过程,我们会发现,下方这幅图就是有两条曲线。其中第一条曲线是说,过去的曲线是这条over-fitting的曲线,在数据比较小的时候,我们低VC维的模型比高VC维的模型效果好,因为高VC维的模型会over-fitting,但是随着数据越来越多的时候,高VC维的效果会不断提升,而低VC维系统会达到一个上阶,这就是所谓的under-fitting的问题。

在将来大数据的时代,under-fitting可能是需要更关注的一个问题,因为under-fitting会限制你使用大数据,以及限制数据的价值的体现。所以说在大数据的时代里面,我们强调可扩展的概念,智能水平、模型的效果应该随着数据的增加而不断的增加,而不是随着数据的增加达到一个瓶颈,我们要设计的系统应该是高VC维的系统。

从模型角度、特征角度提高VC维

我们知道机器学习等于数据+特征+模型,如果说我已经有了很多的数据,提升VC维的途径就只有两条——从特征的角度和从模型的角度。

我们把特征分成两类,一类叫做宏观特征,描述的统计类特征,比如说整体的点击率,或者整体统计系统这样的特征;另一类特征是微观特征,最典型的微观特征可能是ID类的特征,每个人都会有这样的特征,每个物品也会有一个ID,然后人和物品的组合也会有这样的ID类特征;相应的模型也会分成两类,一类是简单的模型,比方说线性模型,另一类是复杂模型,比如说深度学习模型。

这里我们引入机器学习的四个象限的概念:

第一象限是简单模型加上宏观特征,这是我们传统的专家系统和统计模型所在的范畴,大家可能比较熟悉的一些传统的机器学习数据集比如说UCI就是典型的这个象限内的。这大概是七八十年代的数据集,每个数据集里面有一千个左右的训练数据,特征维度也不高,分的类数也并不多,在这样的一个数据集里面,统计模型会比较盛行,他主要解决的问题是怎么样找出特征之间的关系,以及各自的关联度。

第二象限是简单模型加上复杂特征,这里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千亿的特征,取得了非常大的成功,给谷歌带来了很多的收益,现在占据了谷歌70%以上的收入。同时谷歌的展示广告也使用了同样的技术,并且占据剩下20%的收入。这样的模型现在不仅是在谷歌,在整个互联网广告中都是被使用的最广泛的一个技术。

第三象限是使用复杂的模型、宏观的特征,这里最典型的代表是雅虎news和bing这样的系统,bing的广告在2013年提出他们的BPR模型,来去刻画每个特征的知信度,雅虎也是第三象限最忠实的支持者之一,大家所熟悉的COEC就来自于这样的模型,雅虎还设计了很多增强学习的机制,比如说多臂老虎机,这也是这个里面最成功的应用之一。

第四象限是复杂模型和微观特征,现在还是一个非常热门的研究领域,里面最难的一个问题是如何在这么大规模的特征情况下,使用非线性模型。计算量是一个很大的一个难点,比方说如果我有上千亿的特征,我的节点有上千个,我可能需要上万亿甚至更多的参数,才能保存下来这个模型,这个可能不管是从内存上还是计算上都是不可接受的,所以这是一个非常热门的研究领域,非常多的研究机构正在这个方面进行尝试。

我们现在讲一下如何沿着第三象限就是复杂模型和宏观特征这条路来优化模型。这条路主要是由学术界主导,这样的模型主要来自于 ICML、NIPS、ICLR这样的会议,非线性有三把宝剑分别是Kernel、Boosting、Neural Network。Boosting最成功的是现在熟知的GBDT,Kernel比较成功的是SVM里面流行的那个RBF Kernel,Neural network比较流行的现在最成功的深度学习。现在科学家为了实验的方便,对工程的实现能力要求并不是特别的高,大部分的模型是单机科学家在做,要解决的实际问题是数据分布式和降低分布式通信带来overhead这样的问题。

  • 从模型角度提高VC维

工业界怎么根据特定应用来优化模型呢?主要的思路是:先观察问题,得到一些思考和假设,然后我们把思考和假设通过建模的方式加入新的结构和参数,重新拟合我们的数据,最后得到一个新的模型和新的验证。

以时序动态的协同过滤为例,我们这里引用的是Koren、Yehuda发表的论文Collaborative filtering with temporal dynamics,这是这个领域被引用最多的一篇经典论文。在这篇论文里面,我们首先有一个低秩的假设,我们认为一个矩阵是被分解成两个更低维的矩阵相乘的结果。就比方说图上的这个44的矩阵就被分解为了两个,一个42的矩阵,一个24的矩阵,这两个低维的矩阵一个是user的隐变量,一个是Item的隐变量。

靠下位置作者给出的图,是作者发现的打分的问题,比如MDB电影的打分会随着时间的推移而不断地上升,所以他设计了一系列的线性模型来拟合这样的趋势。他会设计一个User打分的时间,第一次打分的时间的偏置乘一个斜率是他打分的偏置,同时他会对每一个电影设计这样的打分的偏置,考虑到每个Item随着时间的影响受到的打分的波动。

在第三个公式里面你可以看到,时间的波动不会是一个纯的线性的关系,所以作者用非线性的方式进行分段的拟合,但是不管怎么说,这样一个模式是比较清晰的,也就是说我们首先观察数据,从数据中得到一些假设,然后根据假设日博提款提不出_日博在线直播_日博水位一直涨什么意思论文三年级_星玄未来日博提款提不出_日博在线直播_日博水位一直涨什么意思平台设计一个模型,这个模型会有几个未知的参数,我们通过机器学习的方式拟合这样的参数,最后得到一个模型,在新的数据上进行验证,看它的效果如何。

  • 从特征角度提高VC维

这方面工作主要是工业界主导的,比较有意思的成果主要发表在ADD、ADKDD或者WWW这样一些学术会议上,这些模型相对来说比较简单粗暴,基本上都是LR。

沿着特征这条路优化的特点就是模型一定要做成分布式的,这个在工程上的挑战是非常非常大的。在这条路上比较成功的典型公司,比如谷歌使用了上千亿的特征,百度也使用了上千亿的特征,这些公司都是是从最细的角度来描述这些数据。

上千亿的特征是个什么概念呢?如果我们每个特征只用一个Float来表示也需要上T的内存,这是单机非常非常难以存储下来的。这个地方还只是讲到了模型存储的空间,如果考虑到数据存储的空间和其他的一些额外开销的话,我们必须要设计一个模型分布式的系统,而不是一个单机的系统。针对这样的难点,学术界里面比如KDD、WWW等顶会上都有很多的文章在研究如何高效的并行,如何保证快速收敛,有很多的异步的模式被提出来,比如说ASP、BSP同步异步算法。

我们用到的模型主要都是逻辑回归模型,所以说线性模型的理论其实是非常成熟的,模型本身的一些改进和优化并没有像上面那个第三象限里面那么多,所以说它的更新、改进主要会集中在所谓的特征提取或者特征工程这样的领域。

我先解释一下为什么会有这么多特征。我们对所有观察到的微观变量进行建模,以搜索广告为例,每一个user的ID,每一个query,每一个广告,都会有一个独立的特征,同时为了个性化,user+广告ID,user+query,query+广告ID,我们有上亿的user,上亿的广告,上亿的query,这样的组合会产生爆炸性的特征量,所以我们可以产生非常非常多的特征,这些特征是我们需要去建模的基础的变量。

这样的一个思路会比较奇怪,为什么我们把所有ID类特征作为基础的建模变量,那是不是说如果我们把用户作为一个变量的话,只要来了一个新的用户我们就不能对这个用户进行广告点击率的预估呢?并不是这个样子的。这里面就涉及到另外一个概念就是特征的层次化,即使我们没有见过这个新用户,我们会有这个用户的设备信息,地域信息,还可能有性别等特征,这些特征也能帮助我们去判断这个用户的点击率。

还以时序动态协同过滤为例,我们看看如何沿着特征这条路来解决这个问题。首先一点是我们不再对这样的问题有低秩假设,如下图左上角这个矩阵,还是原来ABCD四个人,WXYZ四个物品,我们把这样一个矩阵直接拉平,变成一个往后one hot encoding的方式,这样我们把所有的组合特征就变成了一个二维的矩阵,变成了一个一维组合特征的方式来表示。这样的方式来说,就不需要再有更多的低值假设,那b_ui这样一项其实就可以通过我们的数据进行拟合。

第二点,可以通过不同维度的时间组合来建模时间维度的非线性跳变。作者也在论文写到,他发现有些电影的打分并不是线性的,有时会出现一些不可解释不可描述的跳变,这些跳变其实很难通过某种固定的方式进行建模。所以他提出了下面好几种建模的方式,比如说把时间进行分统,跟每个物品Item进行组合,跟每个用户进行组合,包括分统了以后进行分段组合,这种方式都是不再对具体的时序特点进行建模,而是把他变成一个参数统一的由数据进行拟合。这个地方你也可以看出来,当我们的研究人员不能给出比较好的模型假设的时候,我们又不知道如何去应对突变的时候,我们可以更多的去依赖于数据,用潜在的参数建模可能性,然后通过数据学到这些参数应该对应的权重,然后进行建模。

宽与深的大战

其实并没有哪个模型在所有的情况下都更好,换句话说,机器学习并没有免费的午餐也不会存在万能的模型

没有免费午餐定理是由两位数学家在95年提出来的,他们证明了,任何的算法不会严格优于另一个算法,也就是说,如果我们能在某种损失函数下发现A优化算法好于B优化算法的话,我们一定能找出其他的一个损失函数使得B优化算法好于A优化算法。更直观的描述是说,我们总能找出一个损失函数,让所有的算法都并不比随机猜更好。

这个告诉了我们什么呢?所有的机器学习模型都是偏置,这个偏置代表你对数据的假设,偏置本身并不会有哪个更好,所以说你既可以使用更多的模型假设使用更少的数据,也可以使用更少的模型假设使用更多的数据,这都是能使得最终的模型效果变好的方式。总结起来,对于我们工业界来说,机器学习并没有免费的午餐,一定要做出对于业务合适的选择。

追求高VC维有两条路,一个是走宽和离散的路,比如说谷歌那条路,另一条是走深的那条路,比方说雅虎news或者是bingads的路,这就是宽与深的大战。因为宽与深在工业界都有非常成功的案例,所以坚信宽的人和坚信深的人在很长一段时间内,都是互相不能理解的。

坚信深度学习复杂模型的人认为,宽度模型实在太简单了,20年前模型已经被研究非常透彻了,没有什么更多的创新。坚持宽度模型的人来说,攻击深度学习的点也非常的简单,深度学习从来就没有真正的把所有的数据都用好过,从来没有真正发挥过所有数据的全部价值,没有真正做到过真正的个性化,因为确实深度模型在推理上做得很好,但是在个性化,在记忆方面其实相比于宽度模型会差很多。

非常有幸的是我之前在两边都做过比较多的实际的探索和研究,其实宽和深都有各自的好处的。宽度模型和深度模型有非常强的融合的趋势。换句话说,宽度模型和深度模型并没有谁比谁更好,这就是所谓的没有免费的午餐定理。不同的业务应该使用不同的模型,不同的模型也会有不同的特点。

宽度模型是有比较准确的记忆能力的,而深度模型是有很强的推理能力的;宽度模型的泛化是靠层次化的特征进行泛化,深度模型是靠模型本身的叠加进行泛化;宽度模型有很强的可解释性,比如说一个线性的模型,我可以非常容易的知道每个特征的权重是多少,以及一每个特征是如何去影响最终的结果,而对于一个深度模型来说,我们是非常难理解原始的输入和最终的输出是怎么样一个对应的关系。

宽度的模型对平台工程要求是更高的,因为我们除了需要对数据进行并行,还需要对模型进行并行,而深度的模型对平台工程的要求相对更低一点,他的模型基本上都是单机可加载的。

还有对于选型很关键的一点,宽度模型这条路上,特征工程的创新是提升效果的关键,业务的知识是很容易加入建模的,所以说在宽度模型这条路上,业务专家是非常容易产生价值的,并且非常容易的可以参与到整个模型的优化之中的。而相比来说,深度模型的创新主要来自于模型本身的结构的创新,这样的创新基本上都来自于学术界和研究的专家,每种业务知识的加入可能都意味着是一种新的模型,所以说这两种模型的选型代表着不同的人来优化你的系统。

宽度和深度的大战在我看来,各自有各自的优缺点,可以取长补短,对他们进行一些融合。现在宽和深的融合也就是所谓的第四象限已经逐渐成为了一个研究的热点,谷歌在去年4月份发表了一篇论文,介绍他们最新的工作Deep & Wide Model,这样的模型分成deep的部分和wide的两部分,它对细的特征有很好的记忆,也有很好的推理能力,我们认为将来的方向都应该朝这条路上走。

最近还有不少工作在探索这个研究的新方向。张伟楠2016年也发表论文,探索如何通过使用FM的方式,对离散的一个宽度特征进行分解。首先进行分解,然后再使用深度学习进行建模,获得了比较好的效果。随后在WSDM上他发了另外一篇文章,讲述如何加入内积和外积的方式,更好的刻划特征与特征之间的关系,最近第四范式也有了一些新的进展。在去年7月份的时候,第四范式发表了一个DSN算法,这个算法底层是上千亿上大小的宽度网络,上层是全连接的网络,这样一个DSN的难点在于如何解决可计算性。

刚才我分享的是日博提款提不出_日博在线直播_日博水位一直涨什么意思在工业界的应用,我现在在第四范式做的事情是希望把这些经验能够固化到我们的产品中来,能让所有的人都能使用上日博提款提不出_日博在线直播_日博水位一直涨什么意思,所有的人都能享受到这样的经验带来的一些便利和好处。

在过去AI其实是没有人能使用得,但最近AI开始被一些大的、小的公司使用,但是我们认为,将来随着数据越来越多,将来随着场景越来越多,AI这样的技术应该是被更多的人使用,我们是希望能达到Al for everyone的一个状态。大家可能非常熟悉一个比赛叫Kaggel,这个比赛是比较知名的针对机器学习专家的建模比赛,在Kaggle上会源源不断的涌现出非常好的建模专家。我们最近做了一件非常有意思的事情,举办了世界上第一个非机器学习专业人士的机器学习建模大赛,我们称这个比赛为Exciting。

这个比赛里面,所有有过机器学习背景的,有过建模背景的人都不允许参加,而能参加的人可能是做市场、销售、研发工程师的。最终我们发现,通过使用第四范式的平台,我们让70%以上的非机器学习专业人士最终实现了AUC0.8以上的效果,这个是非常高的工业界可以应用的水平。

最近我们又开启了一个新的项目叫做范式大学,我们希望让更多没有日博提款提不出_日博在线直播_日博水位一直涨什么意思背景的人能够参与到日博提款提不出_日博在线直播_日博水位一直涨什么意思的研究和日博提款提不出_日博在线直播_日博水位一直涨什么意思的开发之中来。这样的项目会越来越多,我们相信第四范式也会离Al for everyone目标越来越近。

钛坦白群友互动:

1.Dr.陈,在你目前这么宽的行业视野内,除了个性化推荐外,机器学习在互联网公司的自动化测试、智能运维、智能巡检等方向,是否有应用的可能性呢?还有,刚才你提到了获客,机器学习在这个方向的应用是个什么场景?

陈雨强:关于机器学习能不能在其他的领域进行应用,我觉得主要还是五个条件是否能满足。是否有足够的数据,问题定义的是否足够清晰,有清晰的边界,日博提款提不出_日博在线直播_日博水位一直涨什么意思的人才,计算资源,外部反馈。

获客这个角度来说,其实机器学习会有非常广泛的应用,其实这不是最近才出来的概念,获客在DSP出现的时候就已经是非常广泛使用的技术了。就是在DSP报价的时候,对于一个新来的流量,他会通过机器学习的方式去预估这个流量给这个网站,这个商家带来的价值是高还是低,或者说CTR点击率是高还是低,通过这个方式来进行报价。

2. 自动化巡检的话,我的感觉是需要用到大量的图片信息来判断业务的状态,那这大量的图片如果分辨率很高,是不是就很难做计算了?

陈雨强:如果分辨率高但是有标注的话,其实也是可解的。

3. 请问一下,您之前合作过的行业领域和应用场景主要有哪些? 能举些稍微具体一点的例子吗?

陈雨强:之前具体合作的行业有金融行业的,比如信用卡分期的营销,比如欺诈的检测,风险控制,然后我们还做了很多关于推荐、搜索相关的方案。

(本文独家首发钛媒体,根据第四范式联合创始人、首席研究科学家陈雨强博士在钛坦白上的分享整理)

……………………………………

钛坦白第33期,AI已来之机器学习2,三晚上的分享已经结束了

干货会陆续发布:http://www.tmtpost.com/tag/1508094

钛坦白第34期:二手“大”市场

孔夫子旧书网创始人、回收宝合伙人、转转公司3C事业部总经理,将带来精彩分享~

地点:钛坦白|文娱社交(微信群)

报名听课、交流:

钛坦白目前有医疗健康、日博提款提不出_日博在线直播_日博水位一直涨什么意思、文娱社交、VR/AR、区块链、支付创新、体育、云计算、SaaS等九个专业群。

1、钛媒体Pro专业版用户,可以点击链接http://www.tmtpost.com/pro,登录账号,在线免费、任意选择自己要进入的群,按提示操作;

2、非钛媒体Pro专业版用户,可以添加微信号taitanbai0,在通过好友后,发99元红包给小钛,你将有权利从九个群中任选一个群进入,长期听课、交流。请告诉小钛你要进入哪一个群,然后等待小钛拉你入群~

推荐钛客、赞助、合作:

请与钛坦白负责人佳音联系,邮箱jiayinge@tmtpost.com

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App