大数据为什么要选择Spark
【大数据为什么要选择Spark】
Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析 。Spark由加州伯克利大学AMP实验室Matei为主的小团队使用Scala开发,其核心部分的代码只有63个Scala文件,非常轻量级 。Spark提供了与Hadoop相似的开源集群计算环境,但基于内存和迭代优化的设计,Spark在某些工作负载表现更优秀 。SPARK是一种安全的、经正式定义的编程语言,它被设计用来支持一些安全或商业集成为关键因素的应用软件的设计 。从高的层面来看,其实每一个Spark的应用,都是一个Driver类,通过运行用户定义的main函数,在集群上执行各种并发操作和计算Spark提供的最主要的抽象,是一个弹性分布式数据集,它是一种特殊集合,可以分布在集群的节点上,以函数式编程操作集合的方式,进行各种各样的并发操作 。
推荐阅读
- 膨珊瑚多大才开花
- 阿根廷红虾大的好还是小的好 阿根廷红虾选择不以大小来论
- 荞麦米怎么煮粥
- 大叶虎刺梅有毒吗,毒性与虎刺梅相同
- 大数据学习一般都学什么
- 为什么直升机有两个螺旋桨
- 为什么浓硫酸不能干燥氨气
- 为什么有小年和大年
- 冰箱面板起雾是怎么回事
- 为什么立春后才是第二年开始