阿里云为什么要重构数据湖解决方案主推下一代技术

数据湖并不是一个新概念，大概在十多年前，从有Hadoop开始，就有很多人提出这样的设想。面对海量数据增长，要想挖掘数据价值，首先得有一个能够存储各类数据的“湖” ，这个湖的“蓄水能力”要足够强大，能存储、分析和处理各类数据，包括结构化数据、非结构化数据、机器数据以及来自物联网设备的数据等等。
之后，随着大数据、云计算以及云存储技术的不断成熟，数据湖解决方案被主流云计算厂商极力推崇，并且演绎出不同版本。走到今天，数据湖解决方案似乎已足够成熟，但从应用场景来看，一切才刚刚开始，还有大量变革空间，这也是阿里云为什么要重构数据湖解决方案，主推下一代技术的根本原因。

文章插图
什么是下一代数据湖解决方案？
如何理解阿里云数据湖解决方案的最新特性？阿里云智能存储产品资深总监陈起鲲认为，数据湖解决方案由数据分析架构演化而来。
早期大数据分析架构，是强耦合扩容模式，同一份数据需要在不同的计算集群中重复拷贝，空间利用率低，计算资源过剩；但数据是不断积累状态，并且有波峰波谷期，为了满足业务需求，承载更多数据，计算和存储要一起扩容。因为是两套系统，从生产导入数据肯定需要时间，所以会出现数据导入缓慢的状况，最终无法实时洞察业务。
这时，聪明人就提出了数据湖架构。早期的数据湖架构一般是分布式文件存储，可以横向扩展，通过纠删码提高资源利用率；同时，计算和存储是分离状态，你可以按需扩展算力。另外，底层是分布式文件存储，基于块存储、对象存储等很多协议，用户可以把结构化和半结构化数据放在一起，数据可以统一管理，底层的分布式存储对元数据、小文件和性能都有一定提升。
对于用户来说，数据湖带来的好处显而易见，不管是过去的数据仓库，还是现在的大数据、运营数据、交互式查询，以及可视化数据、实时分析以及预测分析数据，都能基于数据湖进行存储、分析，进而获得更大的商业价值。
而从服务提供商的角度来看，各家都在说自己是最先提供数据湖解决方案的企业。事实上，数据在哪里，分析就在哪里。这也是为什么云厂商在推出数据库产品的时候，很多用户都愿意去尝试。
因为产品本身就在承载互联网场景应用，具有海量数据云上处理能力，有更强大的计算引擎，能真正和生产环境融合在一起。云与互联网应用场景结合，才能孕育出最强大功能的解决方案，而在这方面，谁更具有独特优势？非阿里云莫属！
至于，阿里云的数据湖解决方案到底在哪些地方进行了重构？其实一句话就可以概括，那就是“云湖共生，数仓同步” 。
云湖共生，数仓同步
“作为业内首个云原生、企业级数据湖解决方案，阿里云数据湖解决方案可提供EB级数据存储、分析能力，能实现一站式湖存储、湖加速、湖管理、湖计算，帮助企业深入挖掘与分析数据。”陈起鲲强调，数据湖虽然是一个早已存在的概念，但阿里云的数据湖在继承以往优势的基础上已演绎出新的特色。
首先，最新数据湖解决方案要能承载移动、互联网、IoT业务的生产数据。数据湖不应该只是解决分析环节的问题，而是要和生产环境结合。尤其在现代业务环境下，很多企业的大部分数据都来源于移动应用或者社交媒体，这种数据搬到分析引擎上，通常都是PB级别，如果等搬完后再分析，已不具备实时性。
所以，真正的数据湖解决方案必须基于企业级的生产环境做大数据分析，在线生成环境产生的数据，直接可以分析。其次，必须是一个能承载EB级数据量的数据湖。其三，具有秒级响应能力，有SLA的保证，能满足高性能和高弹性需求。其四，能对数据加密，并对数据高效管理，确保业务安全。
如何理解这些能力呢？其实一切都是客户应用价值驱动。比如：五年前，你问一个客户，建了一个多大量的数据湖？用来干什么？他会说，有多少个TB ，主要功能就是每天晚上做数据分析，等早晨把数据分析的结果打印出来，给领导看，用于当天决策。
但是五年后的今天，很多分析都是PB级，领导需要实时看到分析结果。如何让生产环境具有高度的弹性和稳定性？如何让数据分析和业务保持强耦合状态？一定要有SLA的保证！另外，数据是企业最宝贵的资源，必须要安全地存放，统一管理。
基于客户应用场景的最新需求，阿里云在底层技术以及整体架构上进行了四个方面的重构。
阿里云提供了全球领先的、最高水平的SLA ，引领对象存储可用性SLA进入5位数。阿里云承诺，在每十万次请求中，单可用区错误概率不超过10次，多可用区错误概率不超过5次，这比其他云厂商提供的服务提高了10－20倍的可用性。同时，最多有12个9的持久性设计，有多层的冗余架构设计和主动排查故障的能力。
能支持全球数十EB级数据规模。在阿里云的数据湖应用场景中，每天有上万亿次的读
写或者API调用请求，因为数据量非常大，通常会分标准型、低频访问型、归档型，用户可以按数据类型分类。同时，数据架构也是强一致性模型，用户可以做全生命周期管理，系统会提供Bucket清单，方便企业盘点、查找资源。所以，用户如果使用阿里云的数据湖解决方案，等于在用上EB别的数据管理功能去管理企业的数据。
用户可以灵活、更具弹性地选择计算引擎。在算力方面，阿里云承诺在单客户、单可用区3分钟提供50万核vCPU交付能力。在存储上，阿里云可以提供上TB级别的数据吞吐量，同时有海量数据的处理能力。在现实业务环境中，企业应用往往遭遇巨大的性能挑战，如果有一个资源爆掉，其他资源会受影响。比如：在一个Bucket里面，可能会有很多业务在同时分析，会互相干扰。
即使只有一个业务在分析，也有脚本的优先级。为了从性能方面保障高可用性，阿里云提供了同Bucket分业务的QoS性能隔离功能，满足客户不同业务分析需求。最重要的是，不管是机器学习引擎还是深度学习引擎，都可以自然接入阿里云OSS ，让一份数据用于多个计算引擎。
数据安全。很多人担心上云后数据不安全。实际上，只有上云后数据才安全。在阿里云上，只需点击几个按钮，就可以全链路加密云上数据，并且密钥可管可控，你可以集成阿里云的密钥管理服务，也可以集成自己的KMS服务，系统支持多种加密算法。
另外，云上数据加密，不能影响性能，还要有防误删、自带DDoS攻击防护功能。可能有人会问，那万一阿里的人干了什么坏事，怎么办？这点无需担心！阿里云资源的所有操作，都通过日志这种不能篡改的方式记录，并且阿里内部对用户资源的日志可以实现对外透明化，你可以通过第三方审计来核实。
值得一提的是，为了更好地提升客户体验，阿里云围绕数据湖解决方案推出了一系列新产品。比如：对象存储OSS加速器功能，主要用于数据湖重复复读场景，能极大地解决读吞吐挑战，从根本上解决数据读取的一致性问题。
同时，阿里云针对对象存储OSS ，还重磅发布了冷归档存储类型产品，提供接近磁带级的成本，并解决磁带方案在兼容性、数据失效、取回效率低等的问题，是海量数据长期留存的最佳解决方案。另外，在构建数据洞察力方面，开源Spark性能差，资源成本较高，阿里云最新发布的Databricks数据洞察产品内置了商业版的Spark和DataLake ，可以为用户带来高于开源Spark50倍的性能计算能力，确保结构化数据、半结构化数据以及流式数据处理的高性能、高可靠和弹性扩展。
目前，阿里云最新推出的数据湖解决方案已经在互联网、金融、教育、游戏等技术前沿领域落地，尤其在人工智能、物联网、自动驾驶等拥有海量数据场景的新兴行业，未来大有广阔空间。另外，混合云趋势的到来，也会加速推动数据湖解决方案的落地。
公共云＋私有云的结合，导致很多企业会把一部分数据迁移到云端，因为相对于IDC架构，云更有弹性、技术创新更快，企业成本更低、业务迭代可以更敏捷。同时，随着业务数字化、在线化，数据的容灾保护更加重要，企业会更重视对生产环境的灾备。而从降本增效的角度考虑，企业也更愿意对数据进行冷热分层，把一部分数据留在本地，把剩余的数据放在云端，然后在云上可以基于大数据、AI来做训练和分析。
【阿里云为什么要重构数据湖解决方案主推下一代技术】 总体来看，数据湖的未来发展前景更加可期，而随着企业应用上云进程的加快，阿里云将勇往直前，秒杀所有对手！

责任编辑：xj

阿里云为什么要重构数据湖解决方案主推下一代技术

推荐阅读

世锦赛第一次冠军首次世锦赛便拿下冠军

杭州心理咨询师考证杭州心理咨询师合格证书查询方式

飞机托运可以带酒吗

上眼睑痒肿怎么回事？

怎么治好乳腺炎比较好？

苹果5屏幕录制在哪 iphone5的屏幕录制在哪

表皮发育不良是怎么回事

买架子床应该注意哪些选购架子床的方法

中国最大收入是海关吗

男人肾虚做什么运动可以调理帮男人告别肾虚的5个神奇运动

天然气的主要成分是

如何做西瓜冰茶做西瓜冰茶的方法

我国的三个时期中国历史的三个时期指什么

狼疮红斑如何治疗呢？

开封hpv九价疫苗接种地点开封九价hpv疫苗接种

上海金山区人才公寓哪些人可以申请住房补贴上海金山区人才公寓哪些人可以申请

在蔬菜中在蔬菜中哪些对糖尿病人有好的蔬菜

怎么办理visa信用卡

与腹中宝宝对话的5种方法，好处竟然有这么多！

石壕吏为什么不抓杜甫抓壮丁抓领导石壕吏为什么不抓杜甫

阿里云为什么要重构数据湖解决方案 主推下一代技术

推荐阅读

阿里云为什么要重构数据湖解决方案主推下一代技术