学习HADOOP必须掌握的三大核心组件！

今儿个，咱来聊聊Hadoop那点事儿，主要是它里头最重要的三个东西：HDFS、MapReduce和YARN。这仨玩意儿，可是Hadoop的顶梁柱，缺一不可。

先说说咋回事儿

我就是想找个法子，能把一大堆数据给存起来，还得方便以后用。听说Hadoop挺厉害，就想试试看。然后，我就开始琢磨这三个组件都是干啥的。

HDFS，说白，就是个分布式文件系统。你可以把它想象成一个巨大的仓库，能把你的数据分散着存到好多台电脑上。这样做有啥好处？

我一开始就把数据全扔HDFS里头，感觉还不错，起码不用担心数据丢。

光把数据存起来还不行，还得能处理这些数据才行。这时候，MapReduce就派上用场。它就像一个加工厂，能把一个大任务分成好多小任务，然后交给不同的电脑去处理。等这些小任务都处理完，再把结果合到一块儿，就得到最终的结果。

我试着用MapReduce处理一些数据，发现速度还挺快的。毕竟是好多电脑一起干活，效率肯定比一台电脑高多。

这么多电脑一起干活，总得有个管事的？YARN就是干这个的。它负责协调各个电脑的资源，保证每个任务都能顺利完成。你可以把它想象成一个管家，帮你把家里的事儿安排得井井有条。

有YARN，我就不用操心资源分配的问题，只管把任务交给它就行。

我对这三个组件也是一头雾水。后来我自己动手搭个Hadoop环境，然后把数据扔进去，跑几个MapReduce任务，慢慢地就摸着门道。实践是检验真理的唯一标准，这话一点儿不假。

我对Hadoop的这三个核心组件也算是有一点儿自己的理解。这只是个开始，以后还得继续学习，继续实践。

Hadoop这玩意儿，对于处理大数据来说，确实是个好东西。但是，要想真正用好它，还得下点儿功夫才行。

免责声明：由于无法甄别是否为投稿用户创作以及文章的准确性,本站尊重并保护知识产权，根据《信息网络传播权保护条例》，如我们转载的作品侵犯了您的权利,请您通知我们，请将本侵权页面网址发送邮件到qingge@88.com，深感抱歉，我们会做删除处理。