python中postgreSQL方法copy_from

系統 2019-09-27 17:57:10 2560 0

原文鏈接： https://blog.csdn.net/skye1208/article/details/90264431

1.查詢數據庫中數據表是否存在，不存在則創建

            
              import psycopg2

conn = psycopg2.connect(host=***, port=***, database=***, user=***, password=***)
cur = conn.cursor()
try:
     cur.execute("select to_regclass(" + "\'" +  table_name + "\'" + ") is not null")
     rows = cur.fetchall()
except Exception as e:
     rows = []
     conn.close()
if rows:
     data = rows
     flag = data[0][0]
     print(flag)

flag的值即為查詢出來的表是否存在的狀態，存在則為True，不存在則為False
利用python在數據庫創建表的例子網上很多，在此就不進行贅述了。

executemany()方法批量輸入數據到數據庫
data是需要插入的數據，為list類型，3列，數據條數有70多萬條

            
              import psycopg2
    
conn = psycopg2.connect(host=***, port=***, database=***, user=***, password=***)
cur = conn.cursor()
sql =  "insert into " + table_name + " values(%s, %s, %s)"
cur.executemany(sql, data)
conn.commit()
conn.close()

該方法下，70多萬條數據插入到數據庫需要3.88分鐘

datafame的to_sql()插入數據到數據庫

            
              from sqlalchemy import create_engine

result = pd.DataFrame(data)
engine = create_engine('postgresql://user:password@host:port/database')
pd.io.sql.to_sql(result, table_name, engine, index = False, if_exists='append')

該方法下，70多萬條數據插入到數據庫需要4.42分鐘

強大的copy_from()，是postgresSQ的內置函數

            
              import psycopg2
from sqlalchemy import create_engine
import pandas as pd
import StringIO
from io import BytesIO

data1 = pd.DataFrame(data)
# dataframe類型轉換為IO緩沖區中的str類型
output = BytesIO()
data1.to_csv(output, sep='\t', index=False, header=False)
output1 = output.getvalue()
   
conn = psycopg2.connect(host=***, user=***, password=***, database=***)
cur = conn.cursor()
cur.copy_from(StringIO.StringIO(output1), table_name1, null='',columns=columns)
conn.commit()
cur.close()
conn.close()
print('done')

這兒需要特別記錄下，copy_from是默認將\N作為NULL值得，但是to_csv會將None值變為“”字符串，因此需要在copy_from中說明null=''，即空字符串就是代表的NULL，找了好久才找到快速解決null值得問題，是中文網站上找到的，確實英文提問英文回答的，應該是兩個老外一問一答

在實際使用中又遇到一個問題，查詢數據庫時，如果字段為int類型，存在空值，python查詢出數據后，int類型空值會變成NaN，to_csv時，int類型字段會被修改為float類型的，我的解決方法是在查詢sql時將int型字段轉換為字符串類型的。

用copy_from()方法，70多萬條數據插入到數據庫僅僅需要0.06分鐘,相比于前兩種方法執行效率高太多啦
嘗試了多張數據表循環批量插入，之前用executemany()需要15個小時才能插入完成的數據，用copy_from()只需要90分鐘左右。相比來說已經很優秀了！

原文地址：https://blog.csdn.net/skye1208/article/details/90264431

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論