大数据学习路线(完整详细版)

发布网友发布时间：2024-10-20 09:51

共1个回答

热心网友时间：1天前

大数据学习路线：Java（Java SE，Java Web），Linux（Shell，高并发架构，Lucene，Solr），Hadoop（Hadoop，HDFS，MapRece，YARN，Hive，HBase，Sqoop，Zookeeper，Flume），机器学习（R，Mahout），Storm（Storm，Kafka，Redis），Spark（Scala，Spark，Spark Core，Spark SQL，Spark Streaming，Spark MLlib，Spark GraphX），Python（Python，Spark Python），云计算平台（Docker，KVM，OpenStack）。

名词解释：Linux Lucene：全文检索引擎的架构；Solr：基于Lucene的全文搜索服务器，实现了可配置、可扩展并对查询性能进行了优化，并提供了完善的功能管理界面。Hadoop HDFS：分布式存储系统，包含NameNode，DataNode。MapRece：软件框架，用于编写程序。Hive：数据仓库，可以用SQL查询，可以运行Map/Rece程序。HBase：数据库，非常适合用来做大数据的实时查询。Zookeeper：针对大型分布式的可靠性协调系统。Sqoop：数据库相互转移，关系型数据库和HDFS相互转移。Mahout：可扩展的机器学习和数据挖掘库。

Cloudera Cloudera Manager：管理、监控、诊断、集成。Cloudera CDH：Cloudera对Hadoop做了相应的改变，发行版本称为CDH。Cloudera Flume：日志收集系统，支持在日志系统中定制各类数据发送方，用于收集数据。Cloudera Impala：对存储在Apache Hadoop的HDFS，HBase的数据提供直接查询互动的SQL。Cloudera hue：Web管理器，包括hue ui，hui server，hui db。hue提供所有CDH组件的shell界面的接口，可以在hue编写mr。

Storm：分布式、容错的实时流式计算系统，可以用作实时分析、在线机器学习、信息流处理、连续性计算、分布式RPC、实时处理消息并更新数据库。Kafka：高吞吐量的分布式发布订阅消息系统，可以处理消费者规模的网站中的所有动作流数据。Redis：由C语言编写，支持网络、可基于内存亦可持久化的日志型、key-value型数据库。

Scala：一种类似Java的完全面向对象的编程语言。Spark：Spark是在Scala语言中实现的类似于Hadoop MapRece的通用并行框架，除了Hadoop MapRece所具有的优点，但不同于MapRece的是job中间输出结果可以保存在内存中，从而不需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapRece算法。Spark SQL：作为Apache Spark大数据框架的一部分，可用于结构化数据处理并可执行类似SQL的Spark数据查询。Spark Streaming：一种构建在Spark上的实时计算框架，扩展了Spark处理大数据流式数据的能力。Spark MLlib：MLlib是Spark常用的机器学习算法的实现库，目前支持二元分类、回归、聚类以及协同过滤。Spark GraphX：GraphX是Spark中用于图和图并行计算的API，可以在Spark之上提供一站式数据解决方案，可以方便且高效地完成图计算的一整套流水作业。

Python：一种面向对象的、解释型计算机程序设计语言。Docker：开源的应用容器引擎。KVM：（Keyboard Video Mouse）。OpenStack：开源的云计算管理平台项目。