阿里云为什么要重构数据湖解决方案 主推下一代技术

数据湖并不是一个新概念 , 大概在十多年前 , 从有Hadoop开始 , 就有很多人提出这样的设想 。面对海量数据增长 , 要想挖掘数据价值 , 首先得有一个能够存储各类数据的“湖” , 这个湖的“蓄水能力”要足够强大 , 能存储、分析和处理各类数据 , 包括结构化数据、非结构化数据、机器数据以及来自物联网设备的数据等等 。
之后 , 随着大数据、云计算以及云存储技术的不断成熟 , 数据湖解决方案被主流云计算厂商极力推崇 , 并且演绎出不同版本 。走到今天 , 数据湖解决方案似乎已足够成熟 , 但从应用场景来看 , 一切才刚刚开始 , 还有大量变革空间 , 这也是阿里云为什么要重构数据湖解决方案 , 主推下一代技术的根本原因 。

阿里云为什么要重构数据湖解决方案 主推下一代技术
文章插图
什么是下一代数据湖解决方案?
如何理解阿里云数据湖解决方案的最新特性?阿里云智能存储产品资深总监陈起鲲认为 , 数据湖解决方案由数据分析架构演化而来 。
早期大数据分析架构 , 是强耦合扩容模式 , 同一份数据需要在不同的计算集群中重复拷贝 , 空间利用率低 , 计算资源过剩;但数据是不断积累状态 , 并且有波峰波谷期 , 为了满足业务需求 , 承载更多数据 , 计算和存储要一起扩容 。因为是两套系统 , 从生产导入数据肯定需要时间 , 所以会出现数据导入缓慢的状况 , 最终无法实时洞察业务 。
这时 , 聪明人就提出了数据湖架构 。早期的数据湖架构一般是分布式文件存储 , 可以横向扩展 , 通过纠删码提高资源利用率;同时 , 计算和存储是分离状态 , 你可以按需扩展算力 。另外 , 底层是分布式文件存储 , 基于块存储、对象存储等很多协议 , 用户可以把结构化和半结构化数据放在一起 , 数据可以统一管理 , 底层的分布式存储对元数据、小文件和性能都有一定提升 。
对于用户来说 , 数据湖带来的好处显而易见 , 不管是过去的数据仓库 , 还是现在的大数据、运营数据、交互式查询 , 以及可视化数据、实时分析以及预测分析数据 , 都能基于数据湖进行存储、分析 , 进而获得更大的商业价值 。
而从服务提供商的角度来看 , 各家都在说自己是最先提供数据湖解决方案的企业 。事实上 , 数据在哪里 , 分析就在哪里 。这也是为什么云厂商在推出数据库产品的时候 , 很多用户都愿意去尝试 。
因为产品本身就在承载互联网场景应用 , 具有海量数据云上处理能力 , 有更强大的计算引擎 , 能真正和生产环境融合在一起 。云与互联网应用场景结合 , 才能孕育出最强大功能的解决方案 , 而在这方面 , 谁更具有独特优势?非阿里云莫属!
至于 , 阿里云的数据湖解决方案到底在哪些地方进行了重构?其实一句话就可以概括 , 那就是“云湖共生 , 数仓同步” 。
云湖共生 , 数仓同步
“作为业内首个云原生、企业级数据湖解决方案 , 阿里云数据湖解决方案可提供EB级数据存储、分析能力 , 能实现一站式湖存储、湖加速、湖管理、湖计算 , 帮助企业深入挖掘与分析数据 。”陈起鲲强调 , 数据湖虽然是一个早已存在的概念 , 但阿里云的数据湖在继承以往优势的基础上已演绎出新的特色 。
首先 , 最新数据湖解决方案要能承载移动、互联网、IoT业务的生产数据 。数据湖不应该只是解决分析环节的问题 , 而是要和生产环境结合 。尤其在现代业务环境下 , 很多企业的大部分数据都来源于移动应用或者社交媒体 , 这种数据搬到分析引擎上 , 通常都是PB级别 , 如果等搬完后再分析 , 已不具备实时性 。
所以 , 真正的数据湖解决方案必须基于企业级的生产环境做大数据分析 , 在线生成环境产生的数据 , 直接可以分析 。其次 , 必须是一个能承载EB级数据量的数据湖 。其三 , 具有秒级响应能力 , 有SLA的保证 , 能满足高性能和高弹性需求 。其四 , 能对数据加密 , 并对数据高效管理 , 确保业务安全 。
如何理解这些能力呢?其实一切都是客户应用价值驱动 。比如:五年前 , 你问一个客户 , 建了一个多大量的数据湖?用来干什么?他会说 , 有多少个TB , 主要功能就是每天晚上做数据分析 , 等早晨把数据分析的结果打印出来 , 给领导看 , 用于当天决策 。
但是五年后的今天 , 很多分析都是PB级 , 领导需要实时看到分析结果 。如何让生产环境具有高度的弹性和稳定性?如何让数据分析和业务保持强耦合状态?一定要有SLA的保证!另外 , 数据是企业最宝贵的资源 , 必须要安全地存放 , 统一管理 。
基于客户应用场景的最新需求 , 阿里云在底层技术以及整体架构上进行了四个方面的重构 。
阿里云提供了全球领先的、最高水平的SLA , 引领对象存储可用性SLA进入5位数 。阿里云承诺 , 在每十万次请求中 , 单可用区错误概率不超过10次 , 多可用区错误概率不超过5次 , 这比其他云厂商提供的服务提高了10-20倍的可用性 。同时 , 最多有12个9的持久性设计 , 有多层的冗余架构设计和主动排查故障的能力 。
能支持全球数十EB级数据规模 。在阿里云的数据湖应用场景中 , 每天有上万亿次的读
写或者API调用请求 , 因为数据量非常大 , 通常会分标准型、低频访问型、归档型 , 用户可以按数据类型分类 。同时 , 数据架构也是强一致性模型 , 用户可以做全生命周期管理 , 系统会提供Bucket清单 , 方便企业盘点、查找资源 。所以 , 用户如果使用阿里云的数据湖解决方案 , 等于在用上EB别的数据管理功能去管理企业的数据 。
用户可以灵活、更具弹性地选择计算引擎 。在算力方面 , 阿里云承诺在单客户、单可用区3分钟提供50万核vCPU交付能力 。在存储上 , 阿里云可以提供上TB级别的数据吞吐量 , 同时有海量数据的处理能力 。在现实业务环境中 , 企业应用往往遭遇巨大的性能挑战 , 如果有一个资源爆掉 , 其他资源会受影响 。比如:在一个Bucket里面 , 可能会有很多业务在同时分析 , 会互相干扰 。
即使只有一个业务在分析 , 也有脚本的优先级 。为了从性能方面保障高可用性 , 阿里云提供了同Bucket分业务的QoS性能隔离功能 , 满足客户不同业务分析需求 。最重要的是 , 不管是机器学习引擎还是深度学习引擎 , 都可以自然接入阿里云OSS ,  让一份数据用于多个计算引擎 。
数据安全 。很多人担心上云后数据不安全 。实际上 , 只有上云后数据才安全 。在阿里云上 , 只需点击几个按钮 , 就可以全链路加密云上数据 , 并且密钥可管可控 , 你可以集成阿里云的密钥管理服务 , 也可以集成自己的KMS服务 , 系统支持多种加密算法 。
另外 , 云上数据加密 , 不能影响性能 , 还要有防误删、自带DDoS攻击防护功能 。可能有人会问 , 那万一阿里的人干了什么坏事 , 怎么办?这点无需担心!阿里云资源的所有操作 , 都通过日志这种不能篡改的方式记录 , 并且阿里内部对用户资源的日志可以实现对外透明化 , 你可以通过第三方审计来核实 。
值得一提的是 , 为了更好地提升客户体验 , 阿里云围绕数据湖解决方案推出了一系列新产品 。比如:对象存储OSS加速器功能 , 主要用于数据湖重复复读场景 , 能极大地解决读吞吐挑战 , 从根本上解决数据读取的一致性问题 。
同时 , 阿里云针对对象存储OSS , 还重磅发布了冷归档存储类型产品 , 提供接近磁带级的成本 , 并解决磁带方案在兼容性、数据失效、取回效率低等的问题 , 是海量数据长期留存的最佳解决方案 。另外 , 在构建数据洞察力方面 , 开源Spark性能差 , 资源成本较高 , 阿里云最新发布的Databricks数据洞察产品内置了商业版的Spark和DataLake , 可以为用户带来高于开源Spark50倍的性能计算能力 , 确保结构化数据、半结构化数据以及流式数据处理的高性能、高可靠和弹性扩展 。
目前 , 阿里云最新推出的数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地 , 尤其在人工智能、物联网、自动驾驶等拥有海量数据场景的新兴行业 , 未来大有广阔空间 。另外 , 混合云趋势的到来 , 也会加速推动数据湖解决方案的落地 。
公共云+私有云的结合 , 导致很多企业会把一部分数据迁移到云端 , 因为相对于IDC架构 , 云更有弹性、技术创新更快 , 企业成本更低、业务迭代可以更敏捷 。同时 , 随着业务数字化、在线化 , 数据的容灾保护更加重要 , 企业会更重视对生产环境的灾备 。而从降本增效的角度考虑 , 企业也更愿意对数据进行冷热分层 , 把一部分数据留在本地 , 把剩余的数据放在云端 , 然后在云上可以基于大数据、AI来做训练和分析 。
【阿里云为什么要重构数据湖解决方案 主推下一代技术】 总体来看 , 数据湖的未来发展前景更加可期 , 而随着企业应用上云进程的加快 , 阿里云将勇往直前 , 秒杀所有对手!

责任编辑:xj

    推荐阅读