在去年上海财经大学的MBA讲座中,“下一场数据革命”,本人提出未来数据平台的有几大趋势:
例如,阿里的datatrust就是可信计算平台的一种。 datatrust里面有一项特色是对SQL分析的集成。
这里我想谈论的就是 SQL + 分布式(D) + 流式(F) + AI + 隐私计算(PEC) +算力(GPU)六合一数据中台, 正在走向从未有过的融合。 从DataTrust,大致可以看到SQL+PEC的融合。
其实AI+PEC也不是新闻了,只是早期更倾向于使用TEE环境去搞定。Spark也往往是作为底层分布式框架。
只是最近联邦学习, 多方安全计算软件解决方案全面追上来了。
SQL+AI的融合
其实SQL+ML融合的思想,在Clickhouse的设计里面就有一定的体现了。 倒是ML毕竟不是AI。 滴滴与蚂蚁金服搞了一个SQLFlow, 希望融合SQL+AI, 其实本质就是AI数据库的思路。
但是就实现上, SQLFlow只是一层解释层,目前语法的接受程度也有限。
底层当然可以实现一定的分布式。
SQL+AI+流式 的融合
其实阿里的Blink中就有SQL的集成,阿里也有意将这一块推动融入Flink。 所以Blink其实有点SQL+ML+流式的融合了。
要从ML过渡到AI,就得对主流的AI框架进行支持。 最近Fugue项目如火如荼的进行着, 算是前沿的SQL+AI+流式的融合了。
SQL+AI+流式 + 分布式的融合
Spark时代BSP分布式模型非常适合大数据计算, 而走向更适合AI的Asynchronous Parameter Server,时代就有很多改造, 例如Glint项目。
但是一个全新的Python的异步服务器分布式平台也是非常好的选择, 例如Dask, Ray。
其实Spark,Dask,Ray有非常相似的地方,就是维护一张分布式宽表。所以他们之间相互调用会比较简单。
很多人好奇,Spark与Ray/Dask有啥不一样呢, 其实一句话可能比较好的解释了: 最好他俩组合起来用, Spark做分布式数据预处理。而且Ray/Dask做分布式训练。
SQL+AI+流式 + 分布式 + GPU
AI现在天然离不开算力支持了。 因此不管是DASK,还是Ray对GPU的支持都会比Spark好。
尤其今年虚拟化对GPU的支持也越发有提升。
六合数据中台
相信充分的融合后,在算力虚拟化的基础上,
分布式宽表的组织可能能力也不同。
流式 + AI +SQL + 分布式会充分融合成大型数据中台。
当然核心功能依然少不了隐私计算的能力。 因为在隐私计算的划分下,
宽表也会分成纵向分割的宽表, 与横向分割的宽表。 对此有兴趣的可以看一下SecretFlow的实现。
小结:
从AI数据库到六合一数据中台, 都将是国产的机会。 尤其国内在图AI, 隐私计算方向都有优势。 希望中国可以引领六合数据中台 (SQL + 分布式(D) + 流式(F) + AI + 隐私计算(PEC) +算力(GPU))