学习HADOOP必须掌握的三大核心组件!

吉云

今儿个,咱来聊聊Hadoop那点事儿,主要是它里头最重要的三个东西:HDFS、MapReduce和YARN。这仨玩意儿,可是Hadoop的顶梁柱,缺一不可。

先说说咋回事儿

我就是想找个法子,能把一大堆数据给存起来,还得方便以后用。听说Hadoop挺厉害,就想试试看。然后,我就开始琢磨这三个组件都是干啥的。

学习HADOOP必须掌握的三大核心组件!

HDFS:这玩意儿就是个仓库

HDFS,说白,就是个分布式文件系统。你可以把它想象成一个巨大的仓库,能把你的数据分散着存到好多台电脑上。这样做有啥好处?

  • 不怕坏: 就算其中一台电脑挂,数据也不会丢,因为其他电脑上还有备份。
  • 能装: 仓库够大,啥数据都能往里头塞。
  • 好找: 想用数据的时候,找起来也快。

我一开始就把数据全扔HDFS里头,感觉还不错,起码不用担心数据丢。

MapReduce:这是个加工厂

光把数据存起来还不行,还得能处理这些数据才行。这时候,MapReduce就派上用场。它就像一个加工厂,能把一个大任务分成好多小任务,然后交给不同的电脑去处理。等这些小任务都处理完,再把结果合到一块儿,就得到最终的结果。

我试着用MapReduce处理一些数据,发现速度还挺快的。毕竟是好多电脑一起干活,效率肯定比一台电脑高多。

YARN:这是个管家

这么多电脑一起干活,总得有个管事的?YARN就是干这个的。它负责协调各个电脑的资源,保证每个任务都能顺利完成。你可以把它想象成一个管家,帮你把家里的事儿安排得井井有条。

有YARN,我就不用操心资源分配的问题,只管把任务交给它就行。

实践出真知

我对这三个组件也是一头雾水。后来我自己动手搭个Hadoop环境,然后把数据扔进去,跑几个MapReduce任务,慢慢地就摸着门道。实践是检验真理的唯一标准,这话一点儿不假。

我对Hadoop的这三个核心组件也算是有一点儿自己的理解。这只是个开始,以后还得继续学习,继续实践。

Hadoop这玩意儿,对于处理大数据来说,确实是个好东西。但是,要想真正用好它,还得下点儿功夫才行。

免责声明:由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权,根据《信息网络传播权保护条例》,如我们转载的作品侵犯了您的权利,请您通知我们,请将本侵权页面网址发送邮件到qingge@88.com,深感抱歉,我们会做删除处理。

目录[+]