今儿个,咱来聊聊Hadoop那点事儿,主要是它里头最重要的三个东西:HDFS、MapReduce和YARN。这仨玩意儿,可是Hadoop的顶梁柱,缺一不可。
先说说咋回事儿
我就是想找个法子,能把一大堆数据给存起来,还得方便以后用。听说Hadoop挺厉害,就想试试看。然后,我就开始琢磨这三个组件都是干啥的。
HDFS:这玩意儿就是个仓库
HDFS,说白,就是个分布式文件系统。你可以把它想象成一个巨大的仓库,能把你的数据分散着存到好多台电脑上。这样做有啥好处?
- 不怕坏: 就算其中一台电脑挂,数据也不会丢,因为其他电脑上还有备份。
- 能装: 仓库够大,啥数据都能往里头塞。
- 好找: 想用数据的时候,找起来也快。
我一开始就把数据全扔HDFS里头,感觉还不错,起码不用担心数据丢。
MapReduce:这是个加工厂
光把数据存起来还不行,还得能处理这些数据才行。这时候,MapReduce就派上用场。它就像一个加工厂,能把一个大任务分成好多小任务,然后交给不同的电脑去处理。等这些小任务都处理完,再把结果合到一块儿,就得到最终的结果。
我试着用MapReduce处理一些数据,发现速度还挺快的。毕竟是好多电脑一起干活,效率肯定比一台电脑高多。
YARN:这是个管家
这么多电脑一起干活,总得有个管事的?YARN就是干这个的。它负责协调各个电脑的资源,保证每个任务都能顺利完成。你可以把它想象成一个管家,帮你把家里的事儿安排得井井有条。
有YARN,我就不用操心资源分配的问题,只管把任务交给它就行。
实践出真知
我对这三个组件也是一头雾水。后来我自己动手搭个Hadoop环境,然后把数据扔进去,跑几个MapReduce任务,慢慢地就摸着门道。实践是检验真理的唯一标准,这话一点儿不假。
我对Hadoop的这三个核心组件也算是有一点儿自己的理解。这只是个开始,以后还得继续学习,继续实践。
Hadoop这玩意儿,对于处理大数据来说,确实是个好东西。但是,要想真正用好它,还得下点儿功夫才行。