data:image/s3,"s3://crabby-images/fc533/fc533af01f74edf4243d0c0f698d0ac67c7d0541" alt="Python+Office:轻松实现Python办公自动化"
3.8 数据的合并
数据合并就是将不同数据源或数据表中的数据整合到一起,本节将介绍横向合并merge()函数和纵向合并concat()函数,使用的数据文件为“2020年第二学期学生考试成绩.xls”。
3.8.1 merge()函数:横向合并
Pandas库中的数据可以通过一些方式进行合并。
● merge()函数根据一个或多个键将不同数据集中的行连接起来。
● concat()函数可以沿着某条轴线,将多个对象堆叠到一起。
在介绍数据合并之前,创建一个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/39102/39102c9c5edb3a07c5d6b0e9c45e8d8b7242e10f" alt="img"
运行上述代码,创建的数据集如下所示。
data:image/s3,"s3://crabby-images/8fe19/8fe198734ef73aa29b692be03fff4f8039aed099" alt="img"
再创建一个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/135be/135bec0eb07a2983551d8dbbbc8d92d81aa0e90a" alt="img"
运行上述代码,创建的数据集如下所示。
data:image/s3,"s3://crabby-images/e93f8/e93f848e26a9dfc6b232bd8d246a310e43d67909" alt="img"
使用merge()函数横向合并两个数据集,代码如下:
data:image/s3,"s3://crabby-images/e208d/e208df9e2cb93f0295920a7d4753a1dbafa51038" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/f82eb/f82eb4ba9f07e069ad645720f1726b43104ba328" alt="img"
如果没有指明使用哪个列连接,则横向连接会重叠列的列名。可以通过参数on指定合并所依据的关键字段。例如,指定课程,代码如下:
data:image/s3,"s3://crabby-images/46e16/46e169c009e8c0bb5820bb229652b46b08d918af" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/1d1cd/1d1cd564c5521075728427a8e1e1c32d617a3ff7" alt="img"
由于演示的需要,下面再创建一个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/cb9f9/cb9f95635d21d1b27741bab87421c258b0dbe58d" alt="img"
如果两个数据集中的关键字段名称不同时,则需要使用left_on和right_on,代码如下:
data:image/s3,"s3://crabby-images/e9d74/e9d740c25893ad7f821b2da235a60eb512849f4d" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/7982c/7982caa774e35f865be3f436eca109110e9c3669" alt="img"
在默认情况下,横向连接merge()函数使用的是“内连接(inner)”,即输出的是两个数据集的交集。其他方式还有“left”、“right”及“outer”,这个与数据库中的表连接基本类似。内连接代码如下:
data:image/s3,"s3://crabby-images/9dbcd/9dbcd237061e70dbe35aba135628b418a288bf04" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/5ac2b/5ac2b29b53b4d1d05239cb895b028b27ea0deece" alt="img"
左连接是左边的数据集不加限制,右边的数据集仅会显示与左边相关的数据,代码如下:
data:image/s3,"s3://crabby-images/57a84/57a84cb95b91939ebe8f85cddf6883e34775190c" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/7c9f0/7c9f08e466b83d6bc3bce38b4ecc3311c6c4b25c" alt="img"
右连接是右边的数据集不加限制,左边的数据集仅会显示与右边相关的数据,代码如下:
data:image/s3,"s3://crabby-images/351f6/351f6829bcde2306f968471a47fcdb68dce5fa8b" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/2b62e/2b62e229b39874131d881dce035a1bb6a227df63" alt="img"
外连接输出的是两个数据集的并集,组合了左连接和右连接的效果,代码如下:
data:image/s3,"s3://crabby-images/9e96e/9e96e6e62667a2241ca9dde2d4923cea601f2bf0" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/4b9e5/4b9e5e5a0e5a159c4643b2b9da9f9a45dbe5cbea" alt="img"
3.8.2 concat()函数:纵向合并
在介绍纵向连接之前,创建两个关于4名学生学习成绩的数据集,代码如下:
data:image/s3,"s3://crabby-images/d3af9/d3af9b1c8abf294d9dc7186bae3efdb323bbfa9d" alt="img"
使用concat()函数可以实现数据集的纵向合并,代码如下:
data:image/s3,"s3://crabby-images/22890/22890f143238cccfcf1278e9d7a07043ab049f23" alt="img"
代码输出结果如下所示。
data:image/s3,"s3://crabby-images/e8e72/e8e7249438cc7ddfb208379455a72e19455cc7eb" alt="img"