Pandas是用Python进行数据分析的最佳工具,[与Microsoft Excel等工具相比,Pandas有许多优势](/a-Python-Pandas-introduction-to-Excel-users-1696d65604f6),但对于那些没有编码经验或对Pandas不熟悉的人来说,从Excel到Python的转换是一个挑战。幸运的是,情况不再如此。几周前,我遇到了一个Python库,它可以帮助我们像使用Excel一样使用Pandas。在本文中,我将向您展示如何使用Python库来创建透视表、连接表、过滤数据等操作,该库允许我们使用类似于Excel的界面使用Pandas数据框架,并自动为我们生成Pandas代码。从Excel到Python的转变从未如此简单!

数据集与安装

数据集

在本指南中,我们将使用的数据是[Google Drive]上提供的“StudentsPerformance”CSV文件(https://drive.google.com/drive/folders/1d3N4hs0dDEdEsUqI9J_MHaF5CdYIlSLM?usp-sharing),这是我自己创造的。这是随机数据,包含不同学科的学生获得的分数,在Mito的帮助下,我们将轻松地从Excel电子表格转移到Python的数据框架。确保CSV文件和Python脚本位于同一目录中。 安装

为了方便地创建数据透视表、可视化,并执行Excel或Pandas中的操作,我们只需要安装mitosheet库(确保您有Python 3.6或更高版本以及JupyterLab)要安装mitosheet,首先打开新的终端或命令提示符,然后运行以下命令(如果可能,请在新的虚拟环境中安装):python-mpip安装程序Python-M Mitoinstaller安装这就是我们开始与美图合作所需要的一切!有关安装的更多详细信息,请查看官方文档. 使用mitosheet创建数据框

要使用Python创建数据帧,我们需要导入pandas并使用。读取_csv()方法,但对于Mito,我们只需要“导入mitosheet”并通过键入“mitosheet”来启动它。工作表()。**导入表格有丝分裂。表()上面的代码将创建一个工作表。如果调用工作表时工作表未呈现。sheet(),重新启动JupyterLab。之后,我们可以通过点击左下角的“+”按钮导入数据集。然后,选择“StudentsPerformance”。csv`文件,如下所示。图像作者导入CSV后,将使用相同的文件名创建一个数据帧。除此之外,Mito还会自动在下面的单元格中生成代码。**从**表**导入***;注册\“UUID分析('UUID-b580825e-1ba5-47fc-851a-612cf52b9543')进口学生表现。csv**导入**熊猫**作为**pd学生表现\\u csv pd。阅读\_csv(r'StudentsPerformance.csv')这就是使用mitosheet导入数据所需的一切。现在让我们自动化一些常用的方法。你可以继续阅读或观看我的视频教程。 添加新列并重命名列

添加新列是我们在Excel/Pandas中的常见任务。使用Excel时,我们只需右键单击即可创建一个新列,而使用Pandas时,我们必须使用。insert()方法。有了水户,我们可以两全其美。要添加新列,只需单击“添加列”按钮。然后双击列名以设置所需的名称。让我们创建一个新的列,命名为“average”完成后,检查下面的单元格。Mito自动生成添加和重命名列的代码。 求和

Mito可以帮助我们计算行值,就像我们使用Microsoft Excel一样。我们只需要找到要引入公式的单元格,然后按“-”键,选择要求和的列,并在它们之间写入“+”运算符。为了更好地展示这一点,让我们计算一下数学、阅读和写作考试的平均分数。在我们上一步创建的“average”列中找到一个单元格,写出下面gif中显示的公式,按enter键,然后voilá如果你想知道水户做了什么,下面是一段由水户自动生成的代码。 过滤数据帧

我们可以根据一个或多个条件过滤数据。 基于1个条件

假设我们只想显示与“女性”性别相关的数据。有了水户,我们只需要选择“性别”栏,然后点击漏斗图标,选择我们想要过滤的内容。在这种情况下,我们进入“过滤器”部分,点击“添加过滤器”,并将“完全”设置为“女性” 基于2个或多个条件创作的图像

现在让我们假设我们想要显示与属于“B组”的“女性”性别相关的数据。在这里,我们只需要重复我们选择“女性”性别所遵循的步骤,但现在是“B组”。选择“组”列,点击漏斗图标,进入“过滤器”部分,点击“添加过滤器”,并将“完全”设置为“B组”下面的代码对应于前面的过滤器。 创建透视表

我们可以在Python中创建一个透视表,就像在Excel中使用mitosheet一样。首先,单击“透视”按钮,然后选择要包含在行、列和值中的元素。在我们的示例中,我们将创建一个数据透视表,在“种族/民族”列(组列)中显示所有组的数学和阅读分数的平均值。要执行此操作,请按照下面的gif中所示的步骤操作。如果你想知道幕后的代码,这里有一个片段。 创建条形图

就像Excel一样,Mito通过在Python中单击几下,帮助我们创建基本的可视化。让我们为之前创建的透视表创建一个条形图。为此,单击“图形”按钮,然后确保数据源是我们创建的新数据透视表“df2”,并且图表类型设置为“bar”在X轴中,我们应该包括“种族/民族”列(组列),在Y轴中,包括“匹配分数平均值”列。就这样!我们可以在几分钟内完成这一切。如果你对Pandas有很多经验,可能你可以像Mito一样快速得到结果,但是如果你是Pandas或Python新手,这个库很有用

合并2个表

使用Mito可以轻松地合并两个表。在本例中,我们将看到如何进行内部联接。为此,我们需要两个共有一列的表,所以请从我的[Github]下载“StudentsPerformance\u id”和“LanguageScore”CSV文件(https://github.com/ifrankandrade/data_preprocessing.git)。要导入第二个表,请按照本文第一节“创建数据框架”中所示的步骤进行操作在Mito中导入两个表后,单击“合并”按钮将它们合并。确保两个表中的“Merge Key”选项都设置为“id”(这是我们需要进行内部联接的公共列)我不知道。[……]https://img.rvm2.com/17/f6/ed722a7077f2fb030733.webp)在这之后,你会看到一个名为“df3”的新数据帧这是加入“StudentsPerformance\u id\u csv”和“LanguageScore\u csv”数据框后的结果。