学习Python过程中,注重这8个小细节,让你在大数据领域事半功倍(2)
获取 Pandas 数据表对象的 shape 属性,你将获得一个元组,元组的第一个元素是数据表的行数,第二个元素是数据表的列数。想想 Python 里这两个元素的下标吧,前面一个是 0,后面一个是 1,对不对?所以对于 axis 参数,0 就是前面的行数,1 就是后面的列数,怎么样,好记吧? 06、 用 Concat、Merge 和 Join 来合并数据表 如果你熟悉 SQL,这几个概念对你来说就是小菜一碟。不过不管怎样,这几个函数从本质上来说不过就是合并多个数据表的不同方式而已。当然,要时刻记着什么情况下该用哪个函数也不是一件容易的事,所以,让我们一起再回顾一下吧。 concat() 可以把一个或多个数据表按行(或列)的方向简单堆叠起来(看你传入的 axis 参数是 0 还是 1 咯)。 merge() 将会以用户指定的某个名字相同的列为主键进行对齐,把两个或多个数据表融合到一起。 join()和 merge() 很相似,只不过 join() 是按数据表的索引进行对齐,而不是按某一个相同的列。当某个表缺少某个索引的时候,对应的值为空(NaN)。 有需要的话,你还可以查阅Pandas 官方文档 ,了解更详细的语法规则和应用实例,熟悉一些你可能会碰到的特殊情况。 07、 Apply 函数 你可以把 apply() 当作是一个 map() 函数,只不过这个函数是专为 Pandas 的数据表和 series 对象打造的。对初学者来说,你可以把 series 对象想象成类似 NumPy 里的数组对象。它是一个一维带索引的数据表结构。 apply() 函数作用是,将一个函数应用到某个数据表中你指定的一行或一列中的每一个元素上。是不是很方便?特别是当你需要对某一列的所有元素都进行格式化或修改的时候,你就不用再一遍遍地循环啦! 这里就举几个简单的例子,让大家熟悉一下基本的语法规则: 08、 数据透视表(Pivot Tables) 最后也最重要的是数据透视表。如果你对微软的 Excel 有一定了解的话,你大概也用过(或听过)Excel 里的“数据透视表”功能。Pandas 里内建的 pivot_table() 函数的功能也差不多,它能帮你对一个数据表进行格式化,并输出一个像 Excel 工作表一样的表格。实际使用中,透视表将根据一个或多个键对数据进行分组统计,将函数传入参数 aggfunc 中,数据将会按你指定的函数进行统计,并将结果分配到表格中。 下面是几个 pivot_table() 的应用例子: 总结 以上就是我在自学过程中经常遇到的几个问题,及其理解方法。就我个人来说,把这些概念写下来,并用尽可能简单的语句描述它们,再分享给大家的整个过程,也让我更加深入的理解和掌握这些技术。 最后,我希望,或许以后你和数据科学中这些难以捉摸的方法、函数以及概念斗智斗勇的时候,今天看到的一些知识能派上点用场。 相关阅读: 五个技术技巧助力优化大数据分析 大数据Hadoop入门需要填的坑 大数据与数据挖掘的相对绝对关系 (编辑:ASP站长网) |