pandas中series求交集

本文介绍了数据探索过程中求交集的方法及使用Python的set和intersection函数实现的具体步骤。此外还提供了一个去除重复项的有效方法——利用pandas库的drop_duplicates函数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在进行数据探索的时候会遇到求交集的情况,比如说:优惠卷预测的时候,有多张表,表1有用户id,表2也有用户id,但是不能确定表1的用户有多少出现在表2当中。

un_id1,un_id2 为两个 Series 对象:

un_id1 = set(un_id1)
un_id2 = set(un_id2)
tmp = un_id1.intersection(un_id2)
len(tmp)

即可求出交集的个数。。

 

 

后来又找到一个去重函数:drop_duplicates

转载于:https://www.cnblogs.com/hbwxcw/p/7149711.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值