如何用Python将数据批量的插入到数据库

发布时间：2021-02-16 15:33:07 所属栏目：外闻来源：互联网

导读：为了让开发者使用EasyDL更便捷高效地开发效果出色的模型，EasyDL在框架设计中内置了多个组件与多种能力。如EasyDL智能搜索服务的整体架构图(图7)所示，其底层基础组件是分布式智能搜索，具备多机多卡搜索、训练容错、支持多种搜索优化算法等特性。基于分布式

为了让开发者使用EasyDL更便捷高效地开发效果出色的模型，EasyDL在框架设计中内置了多个组件与多种能力。如EasyDL智能搜索服务的整体架构图(图7)所示，其底层基础组件是分布式智能搜索，具备多机多卡搜索、训练容错、支持多种搜索优化算法等特性。基于分布式智能搜索提供的核心能力，产品构建了自动数据增强搜索、超参搜索、NAS搜索等服务，尽可能让用户可以在无需关心技术细节的情况下，简便使用EasyDL提供的多项搜索服务，获得模型效果的优化。

EasyDL平台通过交互式的界面，为用户提供简单易上手的操作体验。同样，使用EasyDL的数据增强服务操作非常简便。

目前，由于训练环境的资源消耗不同，EasyDL经典版与专业版提供两种数据增强策略。

在经典版中，已经上线了手动配置数字增强策略。如图5，用户可以在训练模型页面选择“手动配置”，实现数据增强算子的使用。

在专业版中，由于提供训练环境的多种选择，目前已支持自动搜索策略。如图6，在新建任务页面的“数据增强策略”中选择“自动搜索”，再设置需要搜索的算子范围，即可立刻实现自动数据增强。

然而实际将能力落地到平台中并不容易，工程师们在复现论文开源代码的过程中发现了一些问题：

1）开源代码采用了Ray的Population Based Training实现，但这个接口并不能保证并行的Trials一定能实现同步的exploit，尤其在资源受限的情况下，很大概率会出现进化程度较高的Trial和进化程度较低的Trial之间的exploit，这样的错误进化是不可接受的。

2）开源代码仅实现了单机多卡版本的搜索能力，想扩展到多机多卡能力，需要基于Ray做二次开发。

3）开源代码仅实现了图像分类的自动数据增强搜索，并未提供物体检测等其他任务的数据增强搜索能力。

4）开源代码现有增强算子实现方式比较低效。

综合以上考虑，最终百度工程师从零开始构建了基于PBA的自动数据增强搜索服务。

这一自研自动数据增强搜索服务有以下几个特点:

实现了标准的PBT算法，支持种群Trials的同步exploit、explore，保证公平进化。
支持分布式拓展，可不受限的灵活调节并发种群数，支持。
搜索服务与任务解耦，已支持飞桨深度学习平台的图像分类、物体检测任务，并且可扩展到其他的视觉任务与文本任务。
数据增强算子基于C++高效实现。

自研的能力效果如何呢？在公开数据集上，百度工程师基于自研的自动数据增强搜索服务与现有的Benchmark进行了对齐，其中表一的ImageNet Benchmark在PaddleClas[8]框架上训练，表二的Coco Benchmark在PaddleDetection [9]框架上训练。

结果显示，EasyDL自动数据增强服务能达到与AutoAugment同样高的精度，并有大幅的速度优势。目前，用于数据增强搜索的分类、检测算子已经与AutoAugment对齐，后续将会持续不断扩充更多更高效的算子，进一步提升模型效果。

（编辑：济源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

谷歌会于日本和印度允	日本决定停止使用软盘
无人机物流发展简介	系外行星有二氧化碳证