大数据学习路线(完整详细版)
发布网友
发布时间:2024-10-20 09:51
我来回答
共1个回答
热心网友
时间:1天前
大数据学习路线:Java(Java SE,Java Web),Linux(Shell,高并发架构,Lucene,Solr),Hadoop(Hadoop,HDFS,MapRece,YARN,Hive,HBase,Sqoop,Zookeeper,Flume),机器学习(R,Mahout),Storm(Storm,Kafka,Redis),Spark(Scala,Spark,Spark Core,Spark SQL,Spark Streaming,Spark MLlib,Spark GraphX),Python(Python,Spark Python),云计算平台(Docker,KVM,OpenStack)。
名词解释:Linux Lucene:全文检索引擎的架构;Solr:基于Lucene的全文搜索服务器,实现了可配置、可扩展并对查询性能进行了优化,并提供了完善的功能管理界面。Hadoop HDFS:分布式存储系统,包含NameNode,DataNode。MapRece:软件框架,用于编写程序。Hive:数据仓库,可以用SQL查询,可以运行Map/Rece程序。HBase:数据库,非常适合用来做大数据的实时查询。Zookeeper:针对大型分布式的可靠性协调系统。Sqoop:数据库相互转移,关系型数据库和HDFS相互转移。Mahout:可扩展的机器学习和数据挖掘库。
Cloudera Cloudera Manager:管理、监控、诊断、集成。Cloudera CDH:Cloudera对Hadoop做了相应的改变,发行版本称为CDH。Cloudera Flume:日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据。Cloudera Impala:对存储在Apache Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。Cloudera hue:Web管理器,包括hue ui,hui server,hui db。hue提供所有CDH组件的shell界面的接口,可以在hue编写mr。
Storm:分布式、容错的实时流式计算系统,可以用作实时分析、在线机器学习、信息流处理、连续性计算、分布式RPC、实时处理消息并更新数据库。Kafka:高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。Redis:由C语言编写,支持网络、可基于内存亦可持久化的日志型、key-value型数据库。
Scala:一种类似Java的完全面向对象的编程语言。Spark:Spark是在Scala语言中实现的类似于Hadoop MapRece的通用并行框架,除了Hadoop MapRece所具有的优点,但不同于MapRece的是job中间输出结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapRece算法。Spark SQL:作为Apache Spark大数据框架的一部分,可用于结构化数据处理并可执行类似SQL的Spark数据查询。Spark Streaming:一种构建在Spark上的实时计算框架,扩展了Spark处理大数据流式数据的能力。Spark MLlib:MLlib是Spark常用的机器学习算法的实现库,目前支持二元分类、回归、聚类以及协同过滤。Spark GraphX:GraphX是Spark中用于图和图并行计算的API,可以在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
Python:一种面向对象的、解释型计算机程序设计语言。Docker:开源的应用容器引擎。KVM:(Keyboard Video Mouse)。OpenStack:开源的云计算管理平台项目。