首页 » Python » pandas数据分析2:对表格进行拼接和去重操作

pandas数据分析2:对表格进行拼接和去重操作

 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
import pymysql
import sqlalchemy
from sqlalchemy import create_engine
import pandas as pd
import numpy as np
print(pymysql.version_info)
print(sqlalchemy.__version__)

# 建立数据库连接
# 创建连接参数
db_info = {
    'user':'',
    'password':'',
    'host':'',
    'database':''
}
# 字典的格式化输出
dict1 = {'姓名':'张三'}
print('今天去和%(姓名)s出去玩啦' % dict1)  # 今天去和张三出去玩啦

# 连接数据库的方法create_engine,这里就用了字典的格式化输出的方式
conn = create_engine('mysql+pymysql://%(user)s:%(password)s@%(host)s/%(database)s?charset=gbk' % db_info,encoding='utf-8')


# 写sql获取需要的数据
sql_1 = 'select * from sheet2jisuan limit 10'
sql_2 = 'select * from sheet2jisuan limit 20'
data1 = pd.read_sql(sql_1,conn)
print(data1)
data2 = pd.read_sql(sql_2,conn)
print(data2)


# 表格拼接,axis=0按照竖向方向拼接,sort是否给列重新排序 ignore_index 是否忽略原本行索引
db1 = pd.concat([data1,data2],axis=0,sort=False,ignore_index=True)
print(db1)

# 按照整条记录去重 drop_duplicates()
# inplace=True 就是是否直接赋值,默认是否,需要单独赋值
db1_dup = db1.drop_duplicates()
print(db1_dup)

# 按照某些列的记录去重 drop_duplicates(["列名1","列名2","列名3","列名4"])
# inplace=True 就是是否直接赋值,默认是否,需要单独赋值
db1_dup2 = db1.drop_duplicates(['年','月','日','时','渠道'])
print(db1_dup2)

原文链接:pandas数据分析2:对表格进行拼接和去重操作,转载请注明来源!

0