第1章生成数据表
常见的生成数据表的方法有两种,第一种是导入外部数据,第二种是直接写入数据。Excel中的 “文件”菜单中提供了获取外部数据的功能,支持数据库和文本文件和页面的多种数据源导入。Python支持从多种类型的数据导入。在开始使用Python进行数据导入前需要先导入pandas库,为了方便起见,我们也同时导入numpy库。
importnumpy as np
importpandasas pd
python自动化办公书籍推荐:【精】价值3800元Python自动办公实战教程,做职场高手
1.导入数据表
下面分别是从ExceI和csv格式文件中导入数据并创建数据表的方法。代码是最简模式,里面有很多可选参数设置,例如列名称、索引列、数据格式等。感兴趣的朋友可以参考pandas的官方文档。
2.创建数据表
另一种方法是通过直接写入数据来生成数据表,Excel中直接在单元格中输入数据就可以,Python中通过下面的代码来实现。生成数据表的函数是pandas库中的DateFrame函数,数据表-共有6行数据 ,每行有6个字段。在数据中我们特意设置了一些NA值和有问题的字段 ,例如包含空格等。后面将在数据清洗步骤进行处理。后面我们将统一以DataFrame的简称df来命名数据表。
这是刚刚创建的数据表,我们没有设置索引列,price字段中包含有NA值,city字段中还包含了一些脏数据。
第2章数据表检查
本章主要介绍对数据表进行检查。Python中处理的数据量通常会比较大,比如纽约的出租车数据和Citibike的骑行数据,其数据量都在千万级,我们无法一目了然地了解数据表的整体情况,必须要通过一些方法来获得数据表的关键信息。数据表检查的另一一个目的是 了解数据的概况,例如整个数据表的大小、所占空间、数据格式、是否有空值和重复项和具体的数据内容,为后面的清洗和预处理做好准备。
1.数据维度(行列)Excel中可以通过CTRL +向下的光标键,和CTRL +向右的光标键来查看行号和列号。Python中 使用shape函数来查看数据表的维度,也就是行数和列数,函数返回的结果(6.6)表示数据表有6行,6列。下面是具体的代码。
#查看数据表的维度
df.shape
(6,6)
2.数据表信息
使用info函数查看数据表的整体信息,这里返回的信息比较多包括数据维度、列名称、数据格式和所占空间等信息。
更多的python办公自动化教程请浏览:python教程
158学习网首页 » python办公自动化教程 网盘,python自动化办公书籍推荐
(1)、因部分资料含有敏感关键词,百度网盘无法分享链接,请联系客服进行发送;
(2)、所有资料在您未收到之前,都可以联系微信/QQ:406499404,无条件退款
(3)仅支持原渠道退回,微信支付,支付宝退回至您当初选择的付款方式
(4)不用担心不给资料,如果没有及时回复也不用担心,看到了都会发给您的,请放心!
(5)因部份资源来源互联网,本站不担保其完整性,请知悉!