大数据技术栈的搭建理解
一.目的
高效的,可靠的,存储和处理海量数据(TB级)
二.技术栈
- 虚拟机(我所用的VMware,centos7)
- Hadoop (3.3.0)
- Zookeeper (3.4.10)
- Hbase (2.4.18)
- jdk (1.8)
- FinalShell(可选) (4.3.10)
三.介绍与理解
1.虚拟机
虚拟机是整个系统的服务器,而centos7则是系统的操作规则,保证了系统环境的一致性。
2.Hadoop
我采用了分布式集群搭建了Hadoop集群(主节点和克隆节点),Hadoop主要包含HDFS和YARN。HDFS主要用于提供海量、可靠、廉价的底层数据存储;当用户发出指令,YARN进行统一管理和调度集群的计算资源(如CPU、内存),让多个计算任务可以高效并行。
3.Zookeeper
Zookeeper是整个系统的协同管理中心,负责维护整个分布式系统的需要共享(主节点与从节点共享)的信息,确保对于主节点的唯一认定。在整个分布式系统中往往最先启动。
4.Hbase
Hbase数据库,擅长实时,随机的读写海量数据
5.jdk
Hadoop的核心架构与决策基于java语言,依赖jdk进行编译和运行,目前主流支持的即jdk1.8版本
6.FinalShell
Finalshell是一款功能强大的一体化服务器与网络管理软件,它集成了远程连接、文件传输、系统监控等多项功能,旨在让开发者和运维人员能够更高效地管理服务器。
四.经验总结
一定注意各技术栈的版本兼容性,尤其是Hadoop和Hbase的兼容性,我配置Hbase出现了问题,我轻信了Ai给出的可以兼容的答案,导致我一开始就排除了兼容性问题,一直着手配置文件的反复检查确认,导致整个环境的成功搭建推迟了一个月多,最后意外发现仅仅是不兼容的问题导致的Hbase启动失败...
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |