生产环境下cloudera的cdh版本更受欢迎,但是貌似cloudera对于YARN的开发力度不是很突出,所以在apache与cdh版本选择的时候,大家是咋考虑的
因为前一份工作,我曾经在一个八节点的测试集群上安装并使用过CDH,MapR,和Apache的版本。我的答案是CDH。必须要说CDH用起来最省时省力。自动探测host,选择版本,配置简单,几乎是傻瓜式一键安装。MapR方便程度就稍微差一些,但是仍然比Apache要方便很多。但是MapR版本有一个致命的缺点,它用的不是Hadoop的HDFS而是他们自己实现的MapRFS。导致了Hadoop生态系统中所有涉及到文件系统操作的系统都需要使用MapR的发行版。为了兼容MapRFS,源码都被改过。可以到MapR的github账户上看到。Apache的话就真心需要专职运维人员去管理了。需要使用一些集群管理配置工具了。手动绝对累死。你所说的CDH没有对yarn的开发力度不大我觉得这个倒不用太担心。CDH会定期根据Apache开源的最新稳定版本发布相应的CDH版本,所以不存在版本落后最新版很多的情况。而且我记得CDH现在加入了parcel管理,可以非常简单方便地切换hadoop版本而不需要重新安装集群。这个功能诱惑力太大了。另外CDH对于超过50个节点的集群就要开始收费了。这个是需要考虑的问题。
■网友
果断CDH。数据工程师应该更关注应用而不是环境本身。据我了解几家前20的互联网公司也是Cloudera的用户。话说行业分工也越来越细,Hadoop肯定会往基础组件的方向发展,如果不是希望深入做Hadoop运维的话,就不用折腾原生的了。
■网友
在ubuntu 的wiki里看到因为cloudera由于方便安装,有75%新手选择。网上没有找到这两个组织发行hadoop的比较。不过cloudera貌似基于apache hadoop做bug fix 发布的。CHD是一个公司发布的,但很多国内小公司都采用。大公司还是自己搞apache的比较好。
■网友
cloudera的cdh版本在部署大量的集群节点时效率高很多,稳定性感觉也比原生版本好。
■网友
说实话,真觉得hortonworks的好,三种版本都玩过,还是更喜欢hortonworks,初学者喜欢用cdh,因为更省事一些吧。
■网友
CDH5.X版本已经取消了50个节点的限制。
■网友
【生产环境下cloudera的cdh版本更受欢迎,但是貌似cloudera对于YARN的开发力度不是很突出,所以在apache与cdh版本选择的时候,大家是咋考虑的】 目前用的cdh的免费版,最开始用的593后来升到516,十个节点140t的数据,另外也有一套星环。cdh从部署,加节点,加磁盘,删节点,调参都很方便,需要linux,shell,python还需要一点java知识基本就能保证平稳运行。举个今天刚完成的例子,516的sparksql是残疾,装了原生的,除了图表监控没白嫖到,其他管理监控都靠配置嫖到了。底层的东西并没魔改,不好用就自己动手。建议别用原生,节点一多改site.xml能把你逼疯。原生的组件小改一下基本能在cdh用,版本匹配。
■网友
CDH 免费版本的功能限制有点多http://www.cloudera.com/content/dam/www/static/documents/datasheets/cloudera-enterprise-datasheet.pdf
推荐阅读
- 西南地区最大再生水厂完成提标改造每日可生产100万吨再生水
- 樊金龙■省领导带队检查节前涉外疫情防控和安全生产工作
- 河北承德持续改善水环境质量水质达标率100%
- 杭州已整改城市道路无障碍环境问题12467处
- 浙江路桥警方捣毁一生产销售有毒有害减肥食品团伙
- 上海构建现代环境治理体系集成示范区打造超大城市生态环境治理的“样本”
- 接待日|省生态环境厅来通开展“企业环保接待日”
- 安全隐患|安全生产专项整治,南通警方开启百日攻坚行动
- |淮安市生态环境局倾心帮扶马渡村脱贫增收
- 汽车公社|江淮大众或生产大众ID.2,未来出口欧洲
