首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
关于hive的优化,如下正确的选项有()
[单选题]
关于hive的优化,如下正确的选项有()
做好数据模型
减少数据倾斜
必要时做小文件合并
添加索引
添加笔记
求解答(1)
邀请回答
收藏(9)
分享
纠错
1个回答
添加回答
1
Jack-Zhou
选A,B,C,D
下面列出一些在工作有效可行的优化手段:
好的模型设计事半功倍。
解决数据倾斜问题。
减少job数。
设置合理的map reduce的task数,能有效提升性能。(比如,10w+级别的计算,用160个reduce,那是相当的浪费,1个足够)。
了解数据分布,自己动手解决数据倾斜问题是个不错的选择。set hive.groupby.skewindata=true;这是通用的算法优化,但算法优化有时不能适应特定业务背景,开发人员了解业务,了解数据,可以通过业务逻辑精确有效的解决数据倾斜问题。
数据量较大的情况下,慎用count(distinct),count(distinct)容易产生倾斜问题。
对小文件进行合并,是行至有效的提高调度效率的方法,假如所有的作业设置合理的文件数,对云梯的整体调度效率也会产生积极的正向影响。
优化时把握整体,单个作业最优不如整体最优。
编辑于 2017-06-06 15:29:56
回复(1)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
海量数据
上传者:
牛100
难度:
1条回答
9收藏
2371浏览
热门推荐
相关试题
给40亿个不重复的unsigned...
腾讯
海量数据
评论
(1)
一个文件记录中有50M个URL, ...
查找
海量数据
评论
(2)
有10个文件,每个文件1G,每个文...
美团
排序
海量数据
评论
(4)
请问以下有关 Promise 内置...
Javascript
评论
(1)
宏定义是C语言中非常实用的一种计算...
C语言
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题