黄色网页视频 I 影音先锋日日狠狠久久 I 秋霞午夜毛片 I 秋霞一二三区 I 国产成人片无码视频 I 国产精品自在自线 I av免费观看网站 I 日本精品久久久久中文字幕5 I 91看视频 I 看全色黄大色黄女片18 I 精品不卡一区 I 亚洲最新精品 I 欧美激情在线 I 人妻少妇精品久久 I 国产99视频精品免费专区 I 欧美影院 I 欧美精品在欧美一区二区少妇 I av大片网站 I 国产精品黄色片 I 888久久 I 狠狠干最新 I 看看黄色一级片 I 黄色精品久久 I 三级av在线 I 69色综合 I 国产日韩欧美91 I 亚洲精品偷拍 I 激情小说亚洲图片 I 久久国产视频精品 I 国产综合精品一区二区三区 I 色婷婷国产 I 最新成人av在线 I 国产私拍精品 I 日韩成人影音 I 日日夜夜天天综合

> Hive

hive 優化

系統 2019-08-12 09:26:44 3064 0

Hive是將符合SQL語法的字符串解析生成可以在Hadoop上執行的MapReduce的工具。

使用Hive盡量按照分布式計算的一些特點來設計sql，和傳統關系型數據庫有區別，

所以需要去掉原有關系型數據庫下開發的一些固有思維。

基本原則：

1：盡量盡早地過濾數據，減少每個階段的數據量,對于分區表要加分區，同時只選擇需要使用到的字段

select ... from A

join B

on A.key = B.key

where A.userid>10

?????and B.userid<10

?????? ?and A.dt='20120417'

?????? ?and B.dt='20120417';

應該改寫為：

select .... from (select .... from A

??????????????????where dt='201200417'

??????????????????????????? ??????? and userid>10

??????????????????????????? ? ) a

join ( select .... from B

???????where dt='201200417'

???????????????????? and userid < 10???

?????) b

on a.key = b.key;

2：盡量原子化操作，盡量避免一個SQL包含復雜邏輯

可以使用中間表來完成復雜的邏輯

drop table if exists tmp_table_1;

create table if not exists tmp_table_1 as

select ......;

drop table if exists tmp_table_2;

create table if not exists tmp_table_2 as

select ......;

drop table if exists result_table;

create table if not exists result_table as

select ......;

drop table if exists tmp_table_1;

drop table if exists tmp_table_2;

3：單個SQL所起的JOB個數盡量控制在5個以下

4：慎重使用mapjoin,一般行數小于2000行，大小小于1M(擴容后可以適當放大)的表才能使用,小表要注意放在join的左邊（目前TCL里面很多都小表放在join的右邊）。

否則會引起磁盤和內存的大量消耗

5：寫SQL要先了解數據本身的特點，如果有join ,group操作的話，要注意是否會有數據傾斜

如果出現數據傾斜，應當做如下處理：

set hive.exec.reducers.max=200;

set mapred.reduce.tasks= 200;---增大Reduce個數

set hive.groupby.mapaggr.checkinterval=100000 ;--這個是group的鍵對應的記錄條數超過這個值則會進行分拆,值根據具體數據量設置

set hive.groupby.skewindata=true; --如果是group by過程出現傾斜應該設置為true

set hive.skewjoin.key=100000; --這個是join的鍵對應的記錄條數超過這個值則會進行分拆,值根據具體數據量設置

set hive.optimize.skewjoin=true;--如果是join 過程出現傾斜應該設置為true

6：如果union all的部分個數大于2，或者每個union部分數據量大，應該拆成多個insert into 語句，實際測試過程中，執行時間能提升50%

insert overwite table tablename partition (dt= ....)

select ..... from (

???????????????????select ... from A

???????????????????union all

???????????????????select ... from B

?????????????????? union all

???????????????????select ... from C

??????????????????????????? ???) R

where ...;

可以改寫為：

insert into table tablename partition (dt= ....)

select .... from A

WHERE ...;

insert into table tablename partition (dt= ....)

select .... from B

WHERE ...;

insert into table tablename partition (dt= ....)

select .... from C

WHERE ...;

原文地址：http://hbase.iteye.com/blog/1488745

hive 優化

更多文章、技術交流、商務合作、聯系博主

微信掃碼或搜索：z360901061

微信掃一掃加我為好友

QQ號聯系： 360901061

您的支持是博主寫作最大的動力，如果您喜歡我的文章，感覺我的文章對您有幫助，請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧，狠狠點擊下面給點支持吧，站長非常感激您！手機微信長按不能支付解決辦法：請將微信支付二維碼保存到相冊，切換到微信，然后點擊微信右上角掃一掃功能，選擇支付二維碼完成支付。

【本文對您有幫助就好】元

2元

5元

10元

20元

自定義

發表我的評論

最新評論總共0條評論