hadoop是一种什么技术

发布网友发布时间：2024-10-21 20:33

共1个回答

热心网友时间：2024-11-03 04:29

hadoop是一种什么技术？

Hadoop 是一个能够对大量数据进行分布式处理的软件框架，用户可以轻松在 Hadoop 上开发和运行处理海量数据的应用程序，充分利用集群的威力进行高速运算和存储。

怎么使用 Hadoop：

Hadoop 集群的搭建

简单点说就是把 Hadoop 的安装包放在每一台服务器上，改改配置再启动，就完成了 Hadoop 集群的搭建。

上传文件到 Hadoop 集群

Hadoop 集群搭建好以后，可以通过 web 页面查看集群的情况，还可以通过 Hadoop 命令上传文件到 hdfs 集群，通过 Hadoop 命令在 hdfs 集群上建立目录，通过 Hadoop 命令删除集群上的文件等等。

编写 map/rece 程序

通过集成开发工具（例如 eclipse）导入 Hadoop 相关的 jar 包，编写 map/rece 程序，将程序打成 jar 包扔在集群上执行，运行后出计算结果。

hadoop 生态圈中各个组件的作用描述：

① hdfs：一个文件系统，可以存储海量数据。

② maprece：从海量数据中，通过一定的算法，计算出有用信息。

③ hive：就是sql语句解释器，接收用户输入的sql语句，然后将该sql语句翻译成复杂的maprece程序，并发布到mr集群中进行运算，计算出有用的信息。

④ hbase：是基于hdfs文件系统的数据库。

⑤ flume：就是将数据从一个文件中抽取到另一个文件中。

⑥ sqoop：将hdfs文件系统的文件，导出到linux文件系统的文件中。

⑦ ooize/azkaban：该组件是负责协调各个任务的执行顺序。