学习知识|如何学习大数据( 二 )


YARN
是体现Hadoop平台概念的重要组件有了它大数据生态体系的其它软件就能在hadoop上运行了, 这样就能更好的利用HDFS大存储的优势和节省更多的资源比如我们就不用再单独建一个spark的集群了, 让它直接跑在现有的hadoop yarn上面就可以了 。
Zookeeper
这是个万金油, 安装Hadoop的HA的时候就会用到它, 以后的Hbase也会用到它 。 它一般用来存放一些相互协作的信息, 这些信息比较小一般不会超过1M, 都是使用它的软件对它有依赖, 对于我们个人来讲只需要把它安装正确, 让它正常的run起来就可以了 。
Mysql
我们学习完大数据的处理了, 接下来学习学习小数据的处理工具mysql数据库, 因为一会装hive的时候要用到, mysql需要掌握到什么层度那?你能在Linux上把它安装好, 运行起来, 会配置简单的权限, 修改root的密码, 创建数据库 。 这里主要的是学习SQL的语法, 因为hive的语法和这个非常相似 。
Sqoop
这个是用于把Mysql里的数据导入到Hadoop里的 。 当然你也可以不用这个, 直接把Mysql数据表导出成文件再放到HDFS上也是一样的, 当然生产环境中使用要注意Mysql的压力 。 Hive这个东西对于会SQL语法的来说就是神器, 它能让你处理大数据变的很简单, 不会再费劲的编写MapReduce程序 。 有的人说Pig那?它和Pig差不多掌握一个就可以了 。
Oozie
既然学会Hive了, 我相信你一定需要这个东西, 它可以帮你管理你的Hive或者MapReduce、Spark脚本, 还能检查你的程序是否执行正确, 出错了给你发报警并能帮你重试程序, 最重要的是还能帮你配置任务的依赖关系 。
Hbase
这是Hadoop生态体系中的NOSQL数据库, 他的数据是按照key和value的形式存储的并且key是唯一的, 所以它能用来做数据的排重, 它与MYSQL相比能存储的数据量大很多 。 所以他常被用于大数据处理完成之后的存储目的地 。
Kafka
这是个比较好用的队列工具当然我们也可以利用这个工具来做线上实时数据的入库或入HDFS, 这时你可以与一个叫Flume的工具配合使用, 它是专门用来提供对数据进行简单处理, 并写到各种数据接受方(比如Kafka)的 。
Spark
它是用来弥补基于MapReduce处理数据速度上的缺点, 它的特点是把数据装载到内存中计算而不是去读慢的要死进化还特别慢的硬盘 。 特别适合做迭代运算, 所以算法流们特别稀饭它 。 它是用scala编写的 。 Java语言或者Scala都可以操作它, 因为它们都是用JVM的 。
零基础应该如何学习大数据? 大数据的应用场景非常多, 不同的应用场景对于大数据技术的要求也有所不同, 初学者可以基于自己的知识结构和所处的行业环境, 来选择一个适合自己的应用场景 。 大数据的行业应用无非有三大场景, 其一是数据采集场景, 其二是数据分析场景, 其三是数据应用场景, 可以结合具体的场景来制定学习规划 。

数据采集的应用场景非常多, 很多行业领域在开展业务的过程中, 都需要先完成数据采集任务, 而数据采集领域的人才需求量也相对比较大, 整个数据采集涉及到的环节也比较多, 包括数据采集、整理和存储三大部分 。 相对于数据分析和应用环节来说, 数据采集的入门还是相对比较容易的, 初学者可以从爬虫开始学起, 然后再逐渐展开和深入 。

数据分析是大数据技术的核心之一, 数据分析也是当前实现数据价值化的主要方式之一, 所以学习大数据技术通常都一定要重视数据分析技术 。 数据分析当前有两大方式, 其一是统计学方式, 其二是机器学习方式, 这两种方式的学习都需要一个过程, 可以从基本的统计学知识开始学起, 要重视数据分析工具的学习 。

推荐阅读