加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

如何用Python将数据批量的插入到数据库

发布时间:2021-02-16 15:33:07 所属栏目:外闻 来源:互联网
导读:为了让开发者使用EasyDL更便捷高效地开发效果出色的模型,EasyDL在框架设计中内置了多个组件与多种能力。如EasyDL智能搜索服务的整体架构图(图7)所示,其底层基础组件是分布式智能搜索,具备多机多卡搜索、训练容错、支持多种搜索优化算法等特性。基于分布式
为了让开发者使用EasyDL更便捷高效地开发效果出色的模型,EasyDL在框架设计中内置了多个组件与多种能力。如EasyDL智能搜索服务的整体架构图(图7)所示,其底层基础组件是分布式智能搜索,具备多机多卡搜索、训练容错、支持多种搜索优化算法等特性。基于分布式智能搜索提供的核心能力,产品构建了自动数据增强搜索、超参搜索、NAS搜索等服务,尽可能让用户可以在无需关心技术细节的情况下,简便使用EasyDL提供的多项搜索服务,获得模型效果的优化。



EasyDL平台通过交互式的界面,为用户提供简单易上手的操作体验。同样,使用EasyDL的数据增强服务操作非常简便。

目前,由于训练环境的资源消耗不同,EasyDL经典版与专业版提供两种数据增强策略。

在经典版中,已经上线了手动配置数字增强策略。如图5,用户可以在训练模型页面选择“手动配置”,实现数据增强算子的使用。

在专业版中,由于提供训练环境的多种选择,目前已支持自动搜索策略。如图6,在新建任务页面的“数据增强策略”中选择“自动搜索”,再设置需要搜索的算子范围,即可立刻实现自动数据增强。

 

然而实际将能力落地到平台中并不容易,工程师们在复现论文开源代码的过程中发现了一些问题:

1)开源代码采用了Ray的Population Based Training实现,但这个接口并不能保证并行的Trials一定能实现同步的exploit, 尤其在资源受限的情况下,很大概率会出现进化程度较高的Trial和进化程度较低的Trial之间的exploit,这样的错误进化是不可接受的。

2)开源代码仅实现了单机多卡版本的搜索能力,想扩展到多机多卡能力,需要基于Ray做二次开发。

3)开源代码仅实现了图像分类的自动数据增强搜索,并未提供物体检测等其他任务的数据增强搜索能力。

4)开源代码现有增强算子实现方式比较低效。

综合以上考虑,最终百度工程师从零开始构建了基于PBA的自动数据增强搜索服务

这一自研自动数据增强搜索服务有以下几个特点:

  • 实现了标准的PBT算法,支持种群Trials的同步exploit、explore,保证公平进化。
  • 支持分布式拓展,可不受限的灵活调节并发种群数,支持。
  • 搜索服务与任务解耦,已支持飞桨深度学习平台的图像分类、物体检测任务,并且可扩展到其他的视觉任务与文本任务。
  • 数据增强算子基于C++高效实现。

自研的能力效果如何呢?在公开数据集上,百度工程师基于自研的自动数据增强搜索服务与现有的Benchmark进行了对齐,其中表一的ImageNet Benchmark在PaddleClas[8]框架上训练,表二的Coco Benchmark在PaddleDetection [9]框架上训练。

结果显示,EasyDL自动数据增强服务能达到与AutoAugment同样高的精度,并有大幅的速度优势。目前,用于数据增强搜索的分类、检测算子已经与AutoAugment对齐,后续将会持续不断扩充更多更高效的算子,进一步提升模型效果。


(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读