AI芯片初创企业探索落地路径
5) 缺乏标准化和统一性 团队经常无法将一项工作与利用率指标关联起来。没有标准的可视化工具来查看特定时间点的工作分配、利用率和容量。这使得识别效率低下的工作变得十分困难,而且难以确定浪费的工作量。机器学习已经达到了成熟的阶段,为了成长,必须对人工智能基础架构进行战略化发展。 (6) 无法控制优化策略 有些团队能识别低效率并计划好优化的基础架构策略,却缺乏执行这些策略上的工具。IT / DevOps团队需要控制人工智能工作负载,以优化资源管理。如果没有办法确定工作的优先级、配置计算模板以及监视工作负载的分配和利用率,就无法做出重大改进。 减少“计算债务”的策略 这一问题没有明确的解决方法,但是有一些方法可以提高资源管理的效率。 (1) 投资最先进的具有GPU加速技术的人工智能基础设施 GPU加速技术已经取得了一些成就。硬件和软件深度学习加速解决方案已经出现,可提供前所未有的计算性能。研究最新的GPU加速解决方案,采用真正的现代人工智能基础架构。 (2) 采用混合的云基础架构 结合公共云、私有云和本地资源可在运行人工智能工作负载方面更加敏捷和灵活。由于人工智能工作负载之间的负载类型差异很大,因此公司搭建了混合云基础架构后,能够更灵活地分配资源和自定义大小。可以使用公共云降低资本支出,并提供高计算需求期间所需的可伸缩性。 如果一些公司有着严格的安全性要求,则必须添加私有云,随着时间的推移可降低运营支出。混合云可实现必要的控制和灵活性,以改善资源预算。 (3) 利用估算工具估算GPU / CPU内存消耗
根据Microsoft Research对Microsoft的4960个失败的深度学习任务的研究,8.8%的失败是由GPU内存耗尽导致的,这是所有深度学习故障中最主要的问题。当前已经开发出许多估算工具用以预估GPU内存消耗以减少这些故障。此外,如果能够收集利用率数据,则可以使用此历史数据更好地预测每个季度的GPU / CPU和内存需求。 Python的发布计划将从18 个月缩减到 12 个月。 在 3.9 版本发布之前,Python原本的发布计划是间隔18个月一版的,而现在,它进入了为期12个月的发布时间表[PEP 602]。从前新版本每18个月才亮相一次,现在一年一换。这也意味着Python:
所以从本质上讲,本文主要关注12个月周期内较小的增量变化,而不是每18个月发生的较大变化。与此同时,预计开发速度将保持不变。 二、新功能 1. 类型提示
早在2008年,Python 3就引入了函数注释——类型提示的前身。它虽然不是特别强大,但是一个重要开端。 (编辑:济源站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |