加入收藏 | 设为首页 | 会员中心 | 我要投稿 济源站长网 (https://www.0391zz.cn/)- 数据工具、数据仓库、行业智能、CDN、运营!
当前位置: 首页 > 站长资讯 > 动态 > 正文

配置文件中的数据库连接串加密了

发布时间:2021-02-16 14:55:08 所属栏目:动态 来源:互联网
导读:在线课程不会传授领域知识 解决任何问题之前,你都需要有一定的领域知识。恰当的领域知识将帮助你更好地理解数据集的特性,并帮助你构建分析数据集的方法,从而从数据集中得出结论。大多数年轻人忽视了这一点。 领域知识是最容易被忽视的技能,但对初学者来

在线课程不会传授领域知识

解决任何问题之前,你都需要有一定的领域知识。恰当的领域知识将帮助你更好地理解数据集的特性,并帮助你构建分析数据集的方法,从而从数据集中得出结论。大多数年轻人忽视了这一点。

领域知识是最容易被忽视的技能,但对初学者来说却是至关重要的。人们应该意识到,他们有必要花时间了解该领域和他们想解决的问题。领域知识是解决问题的基础。

了解数据集

在忙着寻找丢失的值或开始清理数据之前,请正确查看数据集并尝试理解它。可以使用pandas库中的describe()方法来提取关于数据的更多信息,比如平均值、标准差、四分位数。从数据集中取任何特定的例子,并使用特性来理解它。

不要急于创建机器学习模型

许多初学者在预处理数据之前直接应用ML算法。所有人都可以写两到三行代码来训练算法并预测结果,而数据科学家则会先花费80%的时间准备和管理数据,寻找离群值和相关性,以及填充缺失的值并了解哪个特性影响最大。

例如,如果你想解决一个分类问题,那么就要检查类的不平衡。通俗来说,如果类不包含相同数量的示例,那么数据集就是不平衡。再如,在一个二进制分类任务中,类A占数据总数的99%,类B占数据总数的1%。数据不平衡可能导致所谓的过度拟合。

花时间准备和管理数据及进行预处理是非常有必要的。

 

我们生活在充满数据的世界里,人类每天制造超过2.5兆字节的数据,仅过去两年产生的数据就占全世界数据的90%,基于此,数据相关的领域也应运而生。这样的大趋势,引发了许多人对于学习数据科学的热情。

但攻克这一领域并不容易,你可能会遇到千奇百怪的问题。即使有许多知名大学的优秀教授开设了令人惊叹的课程,你仍然会犯错误。刚开始的时候,我对很多事情一无所知,也走过不少弯路。现在,我整理了一些人们在开始在线学习数据科学之前就必须要了解的要点。

 

寻找新的Excel

随着技术、数据和数据科学工具的爆炸式增长,新的用户类型出现了:超级用户(Power-users)。超级用户了解技术、数据并会编写代码。他们需要表达和解决问题的自由,且非常乐于舍弃电子表格而使用新技术。

那么,要怎样给予他们这样的灵活性呢?

Jupyter Notebook使用户可以利用Python并创建可共享的、基于Web的交互式文档,文档中可以包含实时代码,可视化效果和文本,至于数据则可以继续使用企业数据源和数据库。

以Excel输入

人们已经习惯使用Excel了并且生成的数据很可能会继续存在于电子表格中。然而随着需要分析的数据体量增大,用户会立马感受到Excel末日的迫近。数据操作要花很长时间,数据透视永远在转,这还是在Excel不崩溃的前提下。

使用流行的pandas库可以快速地将数据从电子表格加载到pandas DataFrames或SQL数据库中。这两种解决方法都可以让数据分析和探索变得快速和轻松。

其他可以考虑的库

下面再介绍一些可用的、流行的针对于Excel的Python库。上述提到的库将能够满足大多数情况下的使用需求,但如果你正在寻找Excel特有的功能(如格式化,过滤器等),可能需要尝试探索以下库:

  • openpyxl:可以读写Excel 2010文件,可以在Excel中编写新的工作表,编辑现有的工作表,并使用鼠标完成几乎所有可以完成的操作,它支持Excel几乎所有的扩展。
  • xlrd:用于读取Excel文件中的数据和格式信息的库。
  • xlsxwriter:可能最全的Excel Python库。格式化、条件格式、图表、合并单元格、过滤器、注释、与pandas的集成,这些还只是它提供的部分功能。如果希望通过Python脚本使用Excel的全部功能,可以从这个库开始!

(编辑:济源站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读