
课程咨询: 400-996-5531 / 投诉建议: 400-111-8989
认真做教育 专心促就业
早在2011年之前,只有优酷网数据团队在使用Hadoop。两年间随着Hadoop技术的推广以及大数据的影响,越来越多的领域都在使用Hadoop,公司的其他团队也在逐步引入Hadoop技术。2012年3月12日,优酷土豆宣布合并,这个新闻足以让业界沸腾。随之而来的需要我们对两个视频网站的数据进行整合、业务进行整合。在整合之前,两边各自拥有一个比较大的Hadoop集群。为了更好地支撑业务合并,以及对其他团队大数据存储与技术的支持,我们需要将两个Hadoop集群合二为一,构建一个开放且安全的Hadoop统一平台。
搭建开放平台
所谓开放,就是能够开放给公司任何有需要数据平台的其他职能团队,这其中包括技术团队与非技术团队。开放即共享Hadoop集群:HDFS上存有各种数据,有公用的,有机密的,不同的用户可以访问不同的数据。这意味着平台用户随时可能进行一些破坏平台的动作(包含恶意及非恶意)。所以我们首先要保证平台的安全性及健壮性。
拓扑架构
大家在初接触Hadoop时,不管是学习还是生产应用,不可避免地需要搭建Hadoop。下图为一个比较安全的Hadoop集群的拓扑结构图。
NameNode与JobTracker分开部署,SecondNameNode也独立于NameNode部署,此外,SecondNameNode还充当了备用机的角色,当JobTracker或者NameNode出现故障时可以快速恢复服务。用户对集群的操作只能通过平台提供的客户端机器来执行,用户不能直接访问集群中的任何一个节点,这样在运营管理上我们只需要关注几个关键的节点。此外,随着开放的用户越来越多,为了方便后续的扩展,我们将分配多个客户端机器,将不同的团队分配到不同的客户端机器上,同时也起到备用的作用。
为了充分利用资源,我们按照各个团队使用的情况分配相应的客户机,这会出现某个客户机有多个团队共同使用的情况。由于每个人的习惯不同,很可能出现某个用户的操作使得整个客户端宕机。所以在构建客户端的初期就需要制定严格的规范,哪些目录供生产使用、哪些目录供测试使用以及对每个用户团队实行配合管理。当然还需要对机器资源进行监控,防止用户在客户机上提交非相关的程序。前期规范好可以减少很多后期维护成本。
安全架构
任何系统要实现开放都要先解决安全问题。我们知道大部分团队引入Hadoop都是因为它的存储能力以及分布式计算能力,至少在早期并不会考虑太多安全问题。但是Hadoop确实存在一些安全问题。比如身份认证问题、用户权限问题、Web界面访问控制问题等。
Linux终端的随意连接
Hadoop集群默认并没对连接其服务的Linux终端做身份认证,所以只要知道服务地址就可以访问资源。假设用户A通过另一台未知的Linux终端连接到我们的集群,并且该用户拥有这个终端的root账户,那么该用户就可以通过
如果 想了解更多的IT技术方面的知识和技能,或者想了解更多的IT新闻资讯也可以来佛山达内IT培训机构进行更多的了解和咨询,我们将会给你最好的帮助和解答的。