Databricks中国启示录：一场蓄谋已久的技术与商业 - 国际观察杂志社投稿_期刊论文发表|版面费|电话|编辑部|论文发表- 国际观察

一、本刊要求作者有严谨的学风和朴实的文风，提倡互相尊重和自由讨论。凡采用他人学说，必须加注说明。二、不要超过10000字为宜，精粹的短篇，尤为欢迎。三、请作者将稿件（用WORD格式）发送到下面给出的征文信箱中。四、凡来稿请作者自留底稿，恕不退稿。五、为规范排版，请作者在上传修改稿时严格按以下要求： 1．论文要求有题名、摘要、关键词、作者姓名、作者工作单位（名称，省市邮编）等内容一份。 2．基金项目和作者简介按下列格式：基金项目：项目名称（编号）作者简介：姓名（出生年－），性别，民族（汉族可省略），籍贯，职称，学位，研究方向。 3．文章一般有引言部分和正文部分，正文部分用阿拉伯数字分级编号法，一般用两级。插图下方应注明图序和图名。表格应采用三线表，表格上方应注明表序和表名。 4．参考文献列出的一般应限于作者直接阅读过的、最主要的、发表在正式出版物上的文献。其他相关注释可用脚注在当页标注。参考文献的著录应执行国家标准GB7714-87的规定，采用顺序编码制。

Databricks中国启示录：一场蓄谋已久的技术与商业

作者:

关键词:

摘要：

目前湖仓一体分析服务LAS已经在字节跳动内部大规模应用。当业务中需要构建复杂数据流、数据分析成本高、运维门槛高、各数据孤岛的ETL过程不一致等场景，均可以通过LAS解决。

某大数据平台创业厂商曾告诉过钛媒体App，大数据的产品一定要用云原生架构，这样整体的ROI会最高、落地速度也会最快，数据的价值也有意义。如果没有云原生化，整个大数据平台中组件管理起来都特别复杂。倒推下来，第一步就需要将大数据平台的各种组件实现容器化。

这个新架构也就是我们所讲的新范式“数据湖仓”（Data Lakehouses）——数据湖（Data?Lake）+数据仓库（Data Warehouse）架构的统一。数据湖是一种单一的数据存储库，目的是为了数据的保存和分析，数仓则是一种分析型数据库，通常是关系型数据库，由两个或多个数据源构建。在过去，原本数据湖和数仓是完全不同的两个技术概念，但现在，这个两个技术方案开始有融合趋势。

目前，湖仓赛道被越来越多提供大数据相关服务的企业看上，纷纷开始下探筹备研发，或直接基于自身云平台，将湖仓产品集成进行售卖，或基于开源组件进行能力拓展和部分自研。如Databricks最早基于Azure云托管合作构建出了Azure Databricks，同时也与AWS的Redshift Spectrum、微软的Azure Synapse Analytics进行集成。发展到如今，包括国内很多企业在内，阿里云的EMR+DataWorks+DLF解决方案、字节火山引擎的Lakehouse Analysis Services，都基本在选择一些Spark、Flink、Hudi等大数据平台领域的开源组件进行能力封装。不久前中国信息通信研究院公布的首批云原生数据湖能力评测结果中，国内多家企业也通过评测认证。

根据Fortune?Business?Insights近期公布的《大数据分析市场报告，2021-2028年》，目前大量初创公司正在争夺全球大数据分析市场的份额，预计2028年将达到5497.3亿美元。根据资本流动趋势和观察到的客户需求，大数据分析市场中最热门的领域无疑是数据仓库、数据湖、数据湖仓、数据网格、DataOps和超快速大数据查询引擎。

（本文首发钛媒体APP 作者 | 杨丽，编辑 | 盖虹达）

据艾瑞数据统计，2020年云原生数据湖市场规模（含生态）达124亿，预计未来三年将以39.7%的复合增长率快速扩张。现阶段，云原生数据湖主要应用于泛互联网行业（40.7%）及传统行业的互联网场景，包括泛政务、金融、工业、医疗、汽车等。

在亚马逊云科技给钛媒体App的一份资料中，智能湖仓架构以Amazon Simple Storage Service（Amazon S3）构建数据湖作为中央存储库，围绕数据湖集成专门的“数据服务环”，包括数据仓库、机器学习、大数据处理、日志分析等数据服务，然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具，实现数据湖的构建、数据的移动和管理等。

例如，Databricks于2019年提出的Delta Lake引擎，基于Apache?Spark构建，集成了数据湖（低成本和灵活性）和数据仓库（性能效率）的最佳实践，可用于存储海量结构化和非结构化数据，同时具备数据分析和AI的能力。

据钛媒体App观察，尽管市场对新一代大数据架构的关注，可能是这一两年才火热起来，但有关大数据架构平台的技术和开源实践其实更早。

火山引擎湖仓一体分析服务LAS团队负责人则告诉钛媒体App，“以Oracle为代表的传统数仓，依赖硬件配置、成本高，且存在物理上线难以拓展的瓶颈。互联网发展推动下，数据类型异构化，企业数据量呈现井喷趋势，传统数仓架构越来越难以满足需求。也由此出现了如Hadoop等大数据存储、处理和分析框架，可以存储任何形式、格式的原始数据，一定程度上解决了数据存储的成本问题。”

一是生态问题，这件事情重要性其实远远大于商业应用本身，回顾过去就不难发现，很多开源工具本身是靠着生态才带动起来的。而湖仓技术当前仍处于一个比较早期的发展阶段，要形成一个新的标准，生态要足够繁荣。

在滴普科技的服务案例中，双方第一阶段更多遇到的是数据治理的场景，梳理数据与其业务之间的关系，而非数据应用以及价值发挥的显性阶段，“但很多值得打磨的点，其实是在数据治理过程中就已经碰撞出来了。”

那么，湖仓这件事情，本身的一个难点会是什么？

总结来看，这种趋势大约在2020年开始被点燃，在国内直到过去两年才开始有一定程度上的落地。

6月底，刚刚结束的Data+AI Summit上，Databricks宣布将数据湖表格式Delta Lake的API完全开源。

文章来源：《国际观察》网址: http://www.gjgczzs.cn/zonghexinwen/2022/0727/1778.html