如何改变建筑业

发布时间：2021-02-06 14:20:40 所属栏目：动态来源：互联网

导读：是什么导致了计算债务? 机器学习和深度学习是计算密集型的学习，管理起来很复杂，降低这种计算负担会更难。人工智能基础设施团队面临的最大挑战之一是知道如何提高利用率，并以最大化消耗的方式管理资源，提高机器学习项目的投资回报率。导致计算债务的主要

是什么导致了“计算债务”?

机器学习和深度学习是计算密集型的学习，管理起来很复杂，降低这种计算负担会更难。人工智能基础设施团队面临的最大挑战之一是知道如何提高利用率，并以最大化消耗的方式管理资源，提高机器学习项目的投资回报率。导致“计算债务”的主要原因包括：

(1) 基础设施团队缺乏人工智能项目可见性

机器学习项目的基础设施成本每年以两倍的速度增长，但是IT团队却缺乏正确管理、优化和预算机器学习资源的工具。大多数IT/DevOps领导者无法在给定时间了解GPU/CPU和内存的利用率、分配和容量。这导致无法控制消耗，无法提高效率。

(2) “计算债务”增长

随着人工智能计算需求变得越来越复杂，计算分配和实际利用率之间的差距也越来越大。通常来说，公司可能只消耗了全部资源的30%。这导致将近70%的计算资源闲置，浪费了公司几千甚至数百万美元。

(3) 无法识别效率低下的工作

基础架构团队无法轻松识别未充分利用GPU/CPU的工作负载。如果没有收集有关历史工作负载的数据，就无法分析和识别运行效率低下的工作负载。缺乏可见性导致难以提高利用率，也难以控制工作负载的优先级。

(4) 生产力中断

未充分利用的GPU被打断为其他工作让路，增加了数据科学家的等待时间。这导致在等待GPU上浪费了很多时间和资源。同时还包括资源处于闲置状态的问题，这些资源本来可以用于做其他工作的。

麻省理工学院的研究科学家兼《深度学习的计算极限》一书的作者尼尔·汤普森(Neil Thompson)在《连线》杂志上发表的文章中提到，Google、Facebook等众多组织已经建立了影响力广又能节约成本的模型，但由于计算成本高而导致这些模型无法盈利。

汤普森表示在最近的一些演讲和论文中表示，从事大型和前沿人工智能项目的研究人员开始抱怨，因为成本太高，他们无法测试多个算法设计，或者重新进行实验。

商业机构需要极大地完善计算效率的方法，以促进创新并提高人工智能工作的投资回报率。但是，高昂的计算成本以及人们对高效计算的关注并不应该就此背黑锅。

实际上，GPU加速基础架构和其他云供应商已经取得了重大的进步，极大提高了训练复杂人工智能网络的能力，这种速度是前所未有的。

2020年5月，DeepCube发布了基于软件的推理加速器，大大提高了所有现有硬件上的深度学习性能。换句话说，人们正在开发计算解决方案以满足机器学习和深度学习日益增长的需求。人工智能创新潜在的阻碍就是对现有计算利用不足，以及“计算债务”的成本不断增加。

什么是“计算债务”?

人工智能的领头羊或许会惊讶地发现，阻碍机器学习投资回报的主要因素之一是GPU，CPU和内存资源利用不足。

公司在计算上投资了数百万美元，这些计算有可能极大地加速人工智能工作的负载量并提高性能，但最终只利用其中的一小部分，有时只利用了20%的资源。计算分配和实际利用率之间的差距令人震惊，可能需要公司付出比想象中更高的成本。

计算、分配和利用率之间的差距可称为“计算债务”。指的是分配和能力之间的“浪费”。下图直观地对比了绿色所代表的平均利用率和黄色所代表的(当时的)分配。

当工作负载正在运行时，通常仅利用GPU的一部分，而另一部分则被其他潜在的工作负载所阻挡。灰色区域表示容量即GPU，CPU或内存可用的现有计算量，是所有闲置且未充分利用的计算区域。

（编辑：济源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

云产业瓶颈	全球展开超级月饼争
国家工业互联网大数据	月球嫦娥石发现记抓住