数据科学思维：打造健康数据驱动组织的 6 条原则

发布时间：2019-06-11 22:29:03 所属栏目：模式来源：数据分析

导读：副标题#e# 要点大多数组织都难以解锁数据科学以优化其操作流程，让数据科学家、分析师和业务团队采用一致的语言：不同的团队和数据科学流程常常是形成摩擦的根源。健康的数据科学组织框架是一系列方法论、技术和资源的组合，它们将帮助你的组织 (从业务理

在大数据时代，越来越多的数据的积累和分析，往往是非结构化的，它们来自于应用程序、Web 环境和各种各样的设备。在第三步中，组织需要更有机地考虑支持其数据科学解决方案的端到端数据流和体系结构，并问问自己以下问题：

他们真的需要这么多数据吗? 他们如何确保它的完整性和可靠性? 他们应该如何存储、处理和操作这些数据，以回答我的问题? 最重要的是，他们如何将这个数据科学解决方案整合到他们自己的业务和运营中，以便随着时间的推移仍能成功地使用它?

数据体系结构是规划数据收集的过程，包括对所要收集的信息的定义、用于结构化数据的标准和规范以及用于提取、存储和处理此类数据的工具。

对于任何执行数据分析的项目来说，这个阶段都是基础，因为它保证了将来所要研究的信息的可用性和完整性。为此，你需要了解数据将如何存储、处理和使用，以及项目需要哪些分析。就这一点，可以说项目的技术愿景和战略愿景是交叉的，因为这个计划任务的目的是保持数据提取和操作过程与业务目标保持一致。

在定义了业务目标(原则 1)并将它们转换为有形的度量标准(原则 2)之后，现在必须要做的是选择正确的工具，以使组织能够实际构建端到端数据科学解决方案。考虑诸如数据量、数据种类以及数据生成和处理的速度等因素，对公司确定应该使用哪种类型的技术会很有帮助。在现有的各类工具中，必须考虑：

数据收集工具，如Azure Stream Analytics 和Azure Data Factory，这些工具将帮助我们提取和组织原始数据。存储工具，如Azure Cosmos DB和Azure Storage：这些工具以结构化或非结构化的形式存储数据，并且可以以集成的方式聚集来自于多个平台的信息数据处理和分析工具，如Azure Time Series Insights和Azure Machine Learning Service Data Prep，有了这些，我们可以使用存储和处理的数据创建可视化逻辑，使分析、研究和报告成为可能，从而支持运营和战略决策的制定。模型操作化工具，如 Azure Machine Learning service 和Machine Learning Server：在公司拥有一组运行良好的模型之后，它们可以将这些模型操作化，供其他应用程序使用。根据业务需求来看，可以实时预测，也可以批量预测。为部署模型，公司需要使用一个开放的 API 接口来暴露它们。各类的应用程式可以通过该接口轻松使用这个模型，例如：在线网站/电子表格/仪表板/企业重要流程线(LoB)应用程序/后端应用程序

这些工具可以根据业务的需要予以调整，但在理想情况下应该提供它们之间集成的可能性，从而使数据可以在任意选择的平台上使用，而不需要手工处理。这种端到端架构(如图 5)还将为公司提供一些关键的优势和价值，例如：

加速部署和降低风险：集成的端到端体系结构可以极大地降低组装端到端解决方案所需的成本和精力，从而进一步减少部署用例的时间模块化：使公司能够从端到端体系结构的任何部分开始切入，并确保已经集成了关键组件，且可以良好地配合灵活性：可以在任何地方运行，包括多云或混合云环境端到端分析和机器学习：支持从边缘到云的端到端分析，能够将机器学习模型回推到边缘进行实时决策端到端数据安全性和依从性：预集成了跨基础设施的安全性和可管理性，包括访问、授权和身份验证支持开源创新：基于开源项目和确保开放标准的充满活力的社区创新模型

之于我们职业劳务公司，我们的解决方案架构由以下组件组成(如图 6)：

数据科学家使用 Azure 机器学习和 HDInsight 集群来训练模型。Azure HDInsight 是一种面向企业的管理、全频谱、开源的分析服务。HDInsight 是一种云服务，它使海量数据的处理变得简单、快速和划算。模型被装箱并放入Azure 容器注册表。Azure 容器注册表使你可以为所有类型的容器部署构建、存储和管理镜像。对于这个特定的客户参与，我们使用Azure CLI创建了一个 Azure 容器注册表实例。然后，使用 Docker 命令将容器镜像推入注册表，最后从注册表中拉出并运行镜像。Azure CLI 是一个命令行工具，为管理 Azure 资源提供了很好的体验。CLI 旨在简化脚本编写、查询数据、支持耗时操作等等。

该模型通过离线安装程序部署到 Azure 栈上的 Kubernetes 集群。Azure Kubernetes Service (AKS) 简化了 Kubernetes 的管理，它通过 Azure CLI 等工具简化了集群的供应，并通过自动化的升级和扩展简化了集群的维护。此外，创建 GPU 集群的能力使 AKS 能够用于高性能服务和机器学习模型的自动扩展。

最终用户提供的数据是根据模型评分的。将预测模型应用于一组数据的过程称为对数据进行评分。一旦建立了模型，就可以将模型规格说明保存在一个文件中，该文件包含重构模型所需的所有信息。然后你可以使用该模型文件在其他数据集中生成预测分数。

从评分中获得的洞见和异常将被存储起来供以后上传。Azure Blob storage 用于存储所有项目数据。Azure 机器学习服务与 Blob 存储集成在一起，以便用户不必在计算平台和 Blob 存储之间手动移动数据。从该工作负载所需的性能来看，Blob 存储也是非常划算的。

在全局应用程序中，全局相关和兼容性的洞见可供使用。Azure App Service是一种托管 Web 应用程序、REST API 和移动后端的服务。App Service 不仅为你的应用程序添加了 Microsoft Azure 的强大功能，比如安全性、负载平衡、自动缩放和自动化管理，还为你提供了 DevOps 能力，例如 Azure DevOps、GitHub、Docker Hub以及其他来源的持续部署，包管理、准生产环境、自定义域和 SSL 证书。

最后，利用边缘评分数据对模型进行改进。

原则 4：构建数据科学技巧工具箱

在为我们的职业劳务公司开发基于推荐的人员分配方案时，我们立刻意识到他们的时间有限，并且没有无限的计算资源。组织如何组织他们的工作以保持最高的生产力呢?

我们与客户的数据科学团队紧密合作，帮助他们开发了一组不同的技巧，以优化他们的工作，缩短生产时间，例如：

首先，不要在你拥有的整个数据集进行培训，而应在一个小得多的子集上：一旦数据科学团队清楚地了解了他们需要实现的功能、损失函数、度量标准和超参数值之后，再进行扩展。

重用以前项目中获得的知识：许多数据科学问题都是彼此想通的。从其他数据科学家过去解决过的类似问题中重用超参数或特征提取器的最佳值，这将为组织节省大量时间。

设置自动报警，通知数据科学团队某个特定的实验已经结束：假使实验时有些东西出错了，这么做将节省数据科学团队的时间。

使用Jupyter 笔记本进行快速原型设计：数据科学家可以在对结果满意之后再将代码重写为 Python 包 / 类。

将实验代码保存在版本控制系统中，比如GitHub。

使用云中的预配置环境进行数据科学开发：这些是虚拟机镜像(如Windows 虚拟机和Azure 数据科学虚拟机)，使用一些常用的工具进行预安装、配置和测试，这些工具通常在数据分析和机器学习培训会用得到。

（编辑：济源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/9

首页

尾页

数据科学思维 ：打造健康数据驱动组织的 6 条原则

数据科学思维：打造健康数据驱动组织的 6 条原则