介绍

首先,数据科学是一个不断发展的领域,你必须不断更新自己,以便保持相关性。新的算法将会出现,最先进的矢量化模型将会出现。突然间,曾经被忽视的旧算法将崛起。这也是在这个充满挑战的领域里的乐趣所在。如果我是初学者,我会向自己推荐以下结构。 我在一个混乱的体系结构中学习了所有这些主题,这使得我的学习曲线更加陡峭。有了这个结构,你就可以节省几周的学习时间。

将要涵盖的主题

  1. 程序设计 ==============

当涉及到数据科学使用什么编程语言时。Python和R编程是主要的候选者。我喜欢[Python编程语言](/javaReave/10-Fy-Python教程和Suff-FooGoGeLeGealStand CurSeraFixNeer-96B9AD20B4E6),因为我已经熟悉java和C++。如果你可能是一个使用java/C++的软件工程师,那么就很容易找到Python。但是如果你像一个熟悉MATLAB的机电工程师/生物学家。你更容易拿起R。 最重要的是选择任何一种语言(Python/R),然后开始做一些项目,这些项目将为您提供实用的知识,这是最简单、最快的学习方法。

  1. 基本统计 ===================

数学和数据科学齐头并进。为了更好地理解手头的数据,需要对统计和概率有基本的了解。还可以根据您的发现,决定哪种算法适合您。 现在不要惊慌,一开始,你不必知道所有在幕后工作的复杂数学方程。您可以开始学习一些基础统计学主题,如概率、条件概率、均值、中位数、模式(中心趋势)、范围和标准差。数据倾斜意味着什么?不同的分布函数(高斯分布、二项式分布、伯努利分布)。

  1. 数据检索 =================

现在,在你有了坚实的基础之后。数据科学的基本部分是检索要分析的数据****Kaggle为您提供多个数据集,您可以直接下载并开始分析数据。 在现实世界中,我们必须自己获取数据。我们要么从不同的网站上筛选数据,要么有一些网站(twitter)提供自己的API,您可以在那里下载可以定制的数据。 使用python,您还可以利用开放源代码库来提取数据。(谷歌play Scraster,可用于获取您想要的特定/应用列表的评论)。 进入Jupyter笔记本的一小段。它是一个基于web的交互式计算平台。我认为这是数据科学家拥有的最佳工具。因为,您可以逐个单元与数据单元交互。您只需单击一个按钮/(Shift+Enter),即可可视化数据、得出结论。

  1. 数据可视化 =====================

一张图片抵得上千言万语,按照这个类比,以视觉形式(如图形图表地图)表示您拥有的数据是理解您拥有的数据的最佳方式。此过程可以帮助您清除不需要的数据(噪声)。取决于你在哪里使用它。这可以帮助您进行特征选择、数据清理和数据提取。 您可以学习的一些可视化技术包括: *分布图 *线形图 *条形图 *散点图

  1. 数据预处理 =====================

通常,当您刚进入该领域时,您会听到: “一个人永远不会有足够的数据” 从某种意义上说,这是真的。但数据集的质量远比您拥有的数量重要。 一个好的数据科学家将能够通过在建议增加所需数据之前提高数据质量来提高ML模型的效率。 以提高数据集的质量。您必须了解不同的数据清理/数据预处理技术。你必须明白: *为什么要输入空数据。 *如果处理的是扭曲的数据,会发生什么情况。 *为什么需要删除NLP中的停止词。

数据预处理中的常用技术:

数字数据集: 将数值聚类为数据的各自平均值、中值、标准差,输入零值,删除零值。 文本数据集: 删除URL、停止词(the、of、a、are)、标点符号、表情符号。

  1. 机器学习 ===================

现在,在你发现了之前阶段变量之间的异常和相关性之后。您已经完成了历史分析部分,然后将根据过去的趋势预测未来。这就是机器学习发挥作用的地方。 机器学习本身将有更深层次的子主题。包括特征提取、特征选择、算法本身(有监督与无监督)、模型超参数的优化以及涉及的集成技术。在下一篇文章中,我将深入探讨ML生命周期。 首先,您将必须经历有监督的ML模型和无监督的ML模型,这些模型只需几行代码即可轻松呈现。 另一个练习是理解模型背后的逻辑。然后尝试使用基本的python元素来创建您自己的代码,以重新创建您所学的模型。 监督ML模型:线性回归、随机森林分类器、朴素贝叶斯算法、支持向量机等。 无监督ML模型:K-均值聚类算法、层次聚类、主成分分析等。

  1. ML中的壁龛 ===============

理解了ML模型。现在,您可以深入研究ML的不同子类型。这就是它变得有趣的地方。当您有不同的用例时,到目前为止所学的算法或预处理步骤可能有用,或者可能变得完全无关。这完全取决于用例。 例如,将数值数据聚类为其均值、和、最小值、最大值可以更好地理解数据。 如果对基于文本的数据集使用相同的方法。这可能行不通。因为只要一个词,上下文就会改变。 通常,NLP(自然语言处理)图像分类是数字数据表示以外的主要领域。 对于NLP,您可以学习文本值的矢量化手套、快速文本和Elmo矢量化。将基于文本的值矢量化为数字数据将有助于加快计算速度并减少存储空间。 图像分类介绍**CNN、RNN、Open CV

  1. 云架构 =====================

随着ML的兴起,AWS和Google Cloud已经提出了他们自己的架构,这些架构使培训模型并将其部署到生产中变得更容易,而无需太多麻烦。谷歌云的自动ML和AWSSage制造商对deplo有着最先进的方法