IT教程: HiveˇJobtracker Hang

2014年3月22日星期六

HiveˇJobtracker Hang

本邮件内容由第三方提供，如果您不想继续收到该邮件，可点此退订。

HiveˇJobtracker Hang 阅读原文»

Hive动态分区导致的Jobtracker Hang

昨天下午有20多分钟Hadoop平台无法跑Hive，Jobtracker的页面也打不开，hadoop job list也hang住没有响应，过了10分钟后恢复了，查看gc日志发现Jobtracker没有进行full gc，查看这段时间的Job日志发现一个可疑的Hive SQL: Insert into table t(dt) as select xxx,dt from txx，是一个用了动态分区的查询.这个查询和Jobtracker Hang住有什么关系呢？

熟悉Jobtracker的都知道，在进行Job初始化时EagerTaskInitializationListener会锁住JobInProgress然后进行InitTask,细节请各位查看代码，这里有一步就是需要向hdfs写入初始数据并flush，而Fairscheduler的Update Thread在更新资源池的资源时是在持有JobTracker和Fairscheduler的独占锁然后再去计算每个资源池的资源情况，而计算running_map/running_reduce的时候要去获取相应的JobInProgress锁，各位读者可能不明白，我为啥要讲这块呢，问题就出现在这里.

Hive在处理动态分区的时候，主要经历这么几个步骤tablescan->filesink->movetask

在进行filesink的时候是根据记录来处理的，会起N（part）个record writer然后开始处理动态分区字段，即这里的dt，如果dt是连续的那么打开一个block开始写，否则关闭当前block，打开新dir的block继续写，这里如果dt是不连续的出现并且记录数量巨大的情况下会产生大量的文件，导致hdfs的负载标高，和当时的hdfs的监控是匹配的：