加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 站长资讯 > 动态 > 正文

比较值得投资的7种数据科学技能

发布时间:2021-01-30 16:09:45 所属栏目:动态 来源:互联网
导读:系统经验 分享在实际过程中的一些经验。 自动调参 当用户在具体做一个模型调优的时候,如果模型的参数设置不对的话,很影响模型的准确率。模型的参数也并不相同,像LR、线性回归4个参数,多的像XGBoost暴露出17个参数,虽然不是每个参数都参与调参,但是总是

系统经验

分享在实际过程中的一些经验。

自动调参

当用户在具体做一个模型调优的时候,如果模型的参数设置不对的话,很影响模型的准确率。模型的参数也并不相同,像LR、线性回归4个参数,多的像XGBoost暴露出17个参数,虽然不是每个参数都参与调参,但是总是会遇到一些排列组合。如果人工调参,参数组少则几十,多则上百种组合。比如XGBoost,使用人力来调参基本不可想象。
 

系统舍弃了v1中的通过Europa调度Spark集群任务,以及自己维护的定时任务,接入爱奇艺的大数据平台Babel和定时任务调度服务平台Gear。接入这两个平台以后一来实现了和数据中台的打通,二来实现了离线服务。

在算法的框架上,由于把执行引擎分离出来了,所以可以很轻松的加入更多的框架,在第二版里面除了SparkML里面常见的一些算法以外,还扩展了常用的像XGBoost和图类的算法。

3.0的主要目标是完善功能版图,主要实现了在线预测的服务。针对用户提出的一些提高效率的需求,也提供了自动调参、增加参数服务器扩展了模型数据量的支持。另外由于用户有需求通过别的平台接入机器学习平台,所以也提供了API服务。
 

第二版里最显著的特征,是在用户层增加了可视化前端,可以通过拖拉拽的方式让用户组建自己的机器学习流程。用户通过自由拼搭算法组件,解决了通用化后百花齐放的流程需求。

另外一个重点是把调度服务独立出来。其中,实验调度子系统对任务状态进行监控,负责任务的调度,通过对任务心跳汇总,随时能了解任务集群全局的状态,当任务执行节点出现异常中断时,能第一时间重试或重新分发到其他节点,极大保证了服务的稳定性。

任务执行引擎是任务运行的核心。任务执行引擎接收实验调度服务推送来的任务,根据任务配置的内容从模型池获取模型资源、从数据管理子系统读写数据、执行脚本。由于任务执行引擎不绑定任何具体的算法框架,实现算法执行能轻松跨越不同算法框架和平台。

通过消息日志监控,自动收集调度各个算法和平台产生的日志信息和终端信息,并通过配置关键字的方式提取有用的信息和数据,在前端聚合展示,或实现某些功能的即时图表功能。

算法模型池也作为独立服务进行管理,专门负责离线和实时预测获取模型和同步模型
 

发展历程

简单介绍一下爱奇艺机器学习平台的发展历程。

截止目前主要是经历了三个大版本,第一版也是基于业务造烟囱的阶段。这一版由于围绕具体业务搭建服务,所以整个架构里面算法部分很少,但是在这一版本我们通过Spark ML调度算法的核心系统,实现了算法的异步分布式调度。上线后对算法接入的效率提升非常明显。

在第一版积累的技术经验基础上,我们发现当前通用机器学习平台的需求,于是迭代了第二版,实现面向通用需求的机器学习平台。
 

合成媒体正在提升我们的创造力,并将娱乐技术提升到一个全新的水平,提供更完善、更具有情感的定制体验。

尽管由于滥用、虚假新闻和深度换脸等信息,合成媒体的声誉不佳,但我相信,在合乎道德和双方同意的情况下使用合成媒体,该技术本身无害,无需惧怕。基于机器学习的内容创造者和消费者均需履行责任并辩证思考。合成媒体不该是敌人,作为工具,我们能用它创作出更多不一样的东西。

(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读