大数据?我信你个鬼
admin
2023-09-18 20:26:08
0

这些年,我们见识了太多大数据、数据管理、数据智能的概念。

然鹅,跟几年前疯狂追逐这些热词不同,现在很多甲方都表示:不太靠谱,不信忽悠


长期以来,关于大数据,甲方经历了太多这样的心路历程↓

产品上线前,YYDShén


产品上线后,YYDS


眼看着数据量不断增加,但数据带来价值的增加却非常有限,就像埃森哲最新的研究结果所说:68%的企业无法从数据中实现可以量化的价值

也就是说,这些企业不缺数据,但是却没有从数据中淘到金子。


为什么大数据相关的产品和概念那么多,能用好的客户却那么少?为什么那些看起来YYDS(shén)的产品,都最后却变成了YYDS(shǐ)?

归结起来,无外乎这么6个坑↓



?战略坑:很多甲方,有想法但是却没有清晰的数据平台战略,这就容易被一茬一茬的乙方牵着鼻子走

?成本坑:高速的数据增长带来的存储、分析以及数据创新的成本太高

?落地坑:很想创新,可真创新的时候,却找不到发挥数据价值的场景,有意思吧

?技术坑:技术层出不穷,不清楚自己的状况应该使用什么样新技术或者产品来支持业务创新

?服务坑:企业内部人员技能不足,难以支撑一些创新型的数据项目

?安全坑:企业缺乏数据的治理和安全保护的能力,投鼠忌器

你看,对于企业来讲,想要真从数据中淘点金子,是多么的不容易。

我觉得研究这6个坑,可以总结出几个关键点,特别需要乙方们去认真思考



能不能从客户的实际需求出发,帮客户既可落地又与时俱进的平台级数据战略(不low也不虚);

能不能帮助客户探索出数据创新的切入点,而不是一股脑的忽悠客户把数据基础设施都整上(摸着石头过河,一起探路);

能不能尊重并承接客户现有的建设状况,提供平滑的技术和产品(不是推倒重建,全盘兜售);

能不能从内心出发帮客户省钱,而不是通过卖产品从客户那里赚钱(只有这样才是真正的双赢);

能不能在数据安全层面,让客户足够放心(安全合规绝非口头承诺)。

所以,在今年的亚马逊云科技中国峰会上,当看到“亚麻云”放出的「云原生数据战略」大招的时候,我就觉得,没错,这才是真正能帮客户填坑的东西。



特别提示:在本月底即将开幕的云圈春晚——亚马逊云科技「re:Invent」大会上,将有更多云原生数据战略的干货,稍后大家可以去文末注册抢座围观。

要说明的是,这并不是一套全新的方案,但却是我第一次看到亚麻云把「云原生数据管理」的全景画卷完整呈现。

这幅画卷,包含了三大支柱和一个基石。


有人看完会说,图画得吊炸天,但这架构和这词,看着平平无奇,为啥你就觉得A家的香?

所以,下面我要细细拆解一下,人家的“3+1”,到底有啥与众不同↓


第一个,「云原生数据基础设施」

这个支柱,通俗讲,就是不管企业有什么样的数据,无论是用于生产的,还是用于分析的,在线的、离线的、近线的,结构化的、非结构化的,亚麻云都能提供云原生化的方案来帮企业Hold住。


这个堪称业界最全面的数据基础设施组合,是亚马逊近20年的探索积累,也历经了无数客户的实践打磨,满足全场景业务的需求。


这些数据库、数据分析服务,全部以云原生形态交付,这意味着更细致的颗粒度,更极致的弹性伸缩能力,具备适合用户量入为出、循序渐进的卓越性价比。

这些云原生的服务中,有相当一部分采用Serverless模式,让客户可以更专注于业务,部署更方便,成本更灵活。


实际落地中,当客户的上层生产系统、分析系统逐步演进、拆分到微服务架构时,这些不同微服务对应的数据服务(搜索型、文档型、键值型、图谱型、时序型…),就可以根据数据类型、数据访问的特点,对接到最合适的那一款,提供最佳效能。


同时,亚麻云为了让企业更容易、更平滑的迁移到云原生数据基础设施上,准备了丰富的迁移工具,填平中间的沟沟坎坎

举个例子,有个神器叫做「Amazon Babelfish」,这条是个“翻译大师”,能够精准完成T-SQL语言(MS SQL Server专用)的翻译工作。

有了Babelfish的“翻译”,那些采用SQL Server数据库开发的传统应用,几乎不用改造,就可以无缝迁移到Amazon Aurora云原生数据库,整个周期从数月经年缩短到几周。


so,这第一根柱子立起来,就能帮助广大客户解决数据上云的最基础问题:存在哪里?如何兼顾效率与成本?如何迁移、如何扩容,满足长线发展。

想了解云原生数据基础设施的更多细节,可以关注月底的亚马逊云科技春晚「re:Invent」大会。


第二个,「数据一体化融合」

这个柱子的核心,就是亚马逊云科技的「智能湖仓」解决方案。

最近,我写了特别多的关于数据管理、数据湖、数据中台甚至更新潮的数据编织相关的文章,各种技术路线都有对应的适用场景和优势。


那么亚麻云的智能湖仓,最大差异点在哪里呢?

仔细研究你就会发现,亚马逊的「智能湖仓」并非某个单一产品,而是组合方案,是数据存储与计算分析的全家桶,用来帮助企业打破数据孤岛。

不管企业当前的数据位于何处,企业选择了什么样的聚数、存数、用数路径,从「智能湖仓」全家桶里,都能找到最合适的方案和工具。


企业既可以基于Amazon S3,建立云上中央存储库,把各类不同来源的数据抽取、转换统一入湖,用于各种分析和数据挖掘。

也可以对数据不移动、不收集,让数据留在原本的位置,直接进行跨源分析。

丨利用Amazon Athena对存储在数据库、数仓、S3数据湖或者EMR上的数据,统一分析;

丨利用Redshift Spectrum可以对数仓和数据湖中的数据去进行跨数据源的统一分析;

丨利用Redshift联邦查询可以对Redshift数仓和Aurora数据库中的数据进行跨源分析。


亚麻云的「智能湖仓」是典型的存算分离解决方案,支持以任何规模存储数据,同时,又为各种分析需求(BI/AI/ML),提供极致性能。

而且,大量的服务采用全托管、无服务器架构交付,在成本和易用方面,能为企业提供极大的灵活性和便利性。


目前,亚麻云的「智能湖仓」已经进化到2.0时代,最重要的一项升级,就是数据分析与人工智能之间的融合管理,实现真正的数智联动。

在智能湖仓2.0架构下,基于统一的数据底座支撑,一方面大数据技术为机器学习提供数据支持,反过来,机器学习为大数据提供更好的算法和模型支持。


同时,通过SageMaker Studio,把大数据和ML的开发平台统一起来,一站式访问模型开发和算法调试工具。

算法团队可以充分利用大数据团队在数据处理方面已经取得的成果,避免重复造轮子,大大提升数智创新效率。


关于智能湖仓2.0数智融合的相关内容,同样推荐关注月底“re:Invent”大会,文末扫码预约围观。


第三个,「数据驱动智能创新」

很多企业都看到了人工智能的机会,但实际落地却觉得很水。

怎么破?亚麻云用这第三根柱子,教大家如何摸石头过河。就给出四步建议:

? 找到合适的业务场景? 通过开箱即用的AI SaaS服务快速验证是否靠谱 ? 解决机器学习产业化的挑战?赋能更多人有能力去构建机器学习应用。


在AI/ML创新领域,亚麻云有大量的探路经验,让企业少走弯路,精准帮助企业找到落地场景,并通过大量训练好的AI SaaS模型快速验证靠谱程度。


验证后,通过为企业提供ML算力基础设施、ML工具、MLOps流程自动化这三颗”仙豆“,赋能企业把机器学习应用推到更多的业务场景,实现规模化、产业化。


最后呢,亚麻云与全球300多所高校合作开展机器学习大学项目,还推出了著名寓教于乐的DeepRacer比赛,让更多人掌握机器学习能力。

过去3个月,亚马逊在中国发起了最大规模机器学习竞赛的吉尼斯世界纪录挑战活动,目前已经与近5000名赛车手共同突破了这个挑战。


同时,在工具层面SageMaker Canvas可以让更多人,基于可视化、零代码环境进行机器学习的训练,更低门槛完成数智创新。

月底「re:Invent」大会,包含大量亚麻云机器学习和数智落地的实践。


重要基石,「数据治理与数据安全」

在这个基石上,亚麻云提供全生命周期的数据治理架构,让企业更合规、更安全也更有效率地使用数据。

通过这套架构,数据使用者可以从繁杂的数据中,快速发掘出有价值的部分,并通过持续的治理来提高数据质量,同时保障数据合规和安全。


实操过程中,采用Lake Formation来实现数据的统一授权和安全控制,解决数据分级、质量、血缘等各种治理需求。

Lake Formation可以快速构建数据湖,并对数据统一编目,方便挖掘价值以及权限控制和数据保护。


对于不方便数据集中入湖的场景,亚麻云还提供了更前沿的数据网格(Data Mesh)解决方案,允许数据在分布式的情况下,跨越组织角色,进行联合数据治理和数据共享。

亚麻云的Lake Formation可以为Data Mesh架构提供中心目录,让大型组织的多个数据湖进行相互连接,数据生产者、消费者共同连接在这张网格上,各尽所能,各取所需。


至此,亚麻云的“3+1”云原生数据管理架构,就掰扯完了。三大支柱、一个基石相辅相成,帮助广大企业,练好聚数用数的内功外功。

作为云计算领域YYDShén,亚马逊云科技创新不止、探路不停,各种秘笈不断推陈出新,让我们跟随亚麻云,一起放大招呗


亚马逊云科技「re:Invent」大会即将在月底拉开大幕,作为云圈万众期待的春晚,每年都能抖出无数干货,这一次,亚麻云CEO提前剧透了两大创新方向:端到端的数据服务行业应用服务

那么,行业灯塔究竟准备了哪些干货,我们一起扫码预约围观吧


相关内容