首页 » Python » 秦路天善智能python学习笔记-pandas的去重

秦路天善智能python学习笔记-pandas的去重

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
import pandas as pd
import numpy as np
position = pd.read_csv("position_gbk_NaN.csv",encoding="gbk",engine="python",sep=",")
print(position.groupby('city').count())
position.loc[position.city=='深圳','city'] = np.NaN
print(position.groupby('city').count())  # 这里就没有深圳了

position1 = position.fillna(1)
print(position1.groupby('city').count())  # 这里就会出现1的数据了,和之前的深圳一样

position1 = position.dropna()
print(position1.groupby('city').count())  # 这里就把空值数据删掉了 axis=1的话,就是删除有空值的列了。默认是行


s = pd.Series([1,2,2,3,4,5])
print(s.duplicated())  # 在前面的标false,后面的是true
print(~s.duplicated())
print(s[s.duplicated()])  # 这里找出来的是重复值
print(s[~s.duplicated()])  # 这里找出来的是非重复值

print(s.duplicated(keep='last')) # 在前面的标true,后面的是false

print(s.drop_duplicates())  # 直接删除重复项,也可以用keep

原文链接:秦路天善智能python学习笔记-pandas的去重,转载请注明来源!

0