首页 » Python » pandas数据分析4:空值缺失值的查找和统计

pandas数据分析4:空值缺失值的查找和统计

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
import pymysql
import sqlalchemy
from sqlalchemy import create_engine
import pandas as pd
import numpy as np
print(pymysql.version_info)
print(sqlalchemy.__version__)

pd.set_option('display.max_rows', None)      # 显示完整的行
# 建立数据库连接
# 创建连接参数
db_info = {
    'user':'',
    'password':'',
    'host':'',
    'database':''
}

# 连接数据库的方法create_engine,这里就用了字典的格式化输出的方式
conn = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s/%(database)s?charset=gbk' % db_info,encoding='utf-8')


# 写sql获取需要的数据
sql_1 = 'select * from sheet2jisuan limit 10'
sql_2 = 'select * from sheet2jisuan limit 20'
data1 = pd.read_sql(sql_1,conn)
print(data1)
data2 = pd.read_sql(sql_2,conn)
print(data2)

# 检查缺失值
# 直接显示各个列的空值情况,非空不代表不为空白。所以最好再判断下是否等于''
print(data1.isnull().sum())
kongzhi = (data1 == '')
print(kongzhi)
print(kongzhi.sum())
# 两个结果加起来后就是最终的结果
print(data1.isnull().sum()+kongzhi.sum())

# 填充空值
# 先找出结果里百度推广来源是空值的数据
baidu_kong = data1.loc[(data1['百度推广渠道'] == '') | (data1['百度推广渠道'].isnull()),:]
# 找出四条结果
print(baidu_kong[['编号','开始访问时间','百度推广渠道','渠道','账号']])

原文链接:pandas数据分析4:空值缺失值的查找和统计,转载请注明来源!

0