大数据开发开源平台之Spark SQL的典范

临夏娱乐新闻网 2025-10-25

Spark SQL作为Spark量化查阅的举足轻重倚靠,在Spark生态当中的的举足轻重性是不言而喻的。Spark SQL使得一般的脚本语言或者非专业的脚本语言,也能迅速收尾相应的量化查阅需求,这也是其存在的举足轻重涵义。今天的大数据集开发学习分享,我们就来讲讲Spark SQL及基础涡轮引擎。

在演算档次上,Spark SQL而无须脚本语言对兼具方式而的图形化数据集发信与ANSI SQL:2003兼容的查阅。自从在Spark1.3中的应运而生以来,Spark SQL早就发展已是一个有力的涡轮引擎,在此基础上建立了许多高级的图形化功用。除了而无须你对数据集发信相近SQL的查阅内外,Spark SQL涡轮引擎还有数:

统一Spark接口,并而无须抽象化为Java、Scala、Python和R中的的DataFrame/Dataset,这补足了对图形化数据集集的工作。

连结到Apache Hive元存储器库和列于。

从图形化份文件(JSON、CSV、文本、CSV、拼花、ORC等)读写兼具特定schema的图形化数据集。并将数据集转已是临时列于。

备有交互式Spark SQL Shell全力支持迅速数据集浏览者。

通过标准数据集库JDBC/ODBC连结容器备有与内举例来说应用软件之间的吊桥。

为JVM转成成建模的查阅构想和比较简单的代码,以便之后可执行。

Spark SQL涡轮引擎的内部是Catalyst建模容器和Project Tungsten。它们一起全力支持高级DataFrame、Dataset API和SQL查阅。

建模容器

Catalyst建模容器接受量化查阅,并将其转已是一个可执行构想。它随之而来了四个转成前期,如下图示意图:

前期1:分析

Spark SQL涡轮引擎首先会为SQL或DataFrame查阅转成成一个抽象化语法树(AST)。在此初始前期,任何列或列于名都将会被解析为内部的Catalog,catalog是一个指向Spark SQL的演算接口,该接口相关联列、数据集类型、变数、列于、数据集库、列名等等的列列于。一旦全部最终解决,查阅将继续进入下一前期。

前期2:演算建模

该前期有数两个内部前期。应用基于标准化的建模新方法,Catalyst建模容器将首先实现三组多个构想,然后用于其基于运输成本的建模容器(CBO)将运输成本调配给每个构想。这些构想展出为算子树的方式;例如,它们似乎有数常数卷曲、谓词都只、三维量化、塞克列于达式补足等反复。这个演算构想是对宇宙学构想的输入。

前期3:宇宙学可执行构想

在此前期,Spark SQL用于与Spark可执行涡轮引擎相匹配的宇宙学变量,为所选的演算构想转成成最佳的宇宙学构想。

前期4:代码转成成

查阅建模的最后前期涉及转成成在每台机容器上运行的高效Java字节码。因为Spark SQL可以对字节中的读取的数据集集进行操作方法,所以Spark可以用于最先进的编译容器系统设计来转成成代码以减缓可执行加速。换句话说,它安插了编译容器。Tungsten计划在这里充分发挥了举足轻重起到,是整个前期代码转成成的利容器。

整个前期的代码转成成是什么呢?这是一个宇宙学查阅建模前期,它将整个查阅分解成一个变数,摆脱云端变数调用,并用于CPU寄存容器存储器中的间数据集。Spark2.0中的应运而生的第二代Tungsten涡轮引擎用于此新方法转成成比较简单的RDD代码以便之后可执行。这种补足的策略显著提高了CPU的效率和性能指标。

原的音乐:robin

推荐阅读:

大数据集开发之Spark SQL可执行性能指标的大幅提高

大数据集开发之Spark SQL/Hive实用变数分享

大数据集开发系统设计之Spark SQL的多种用于新方法

滨州治疗皮肤病
廊坊治疗皮肤病专业医院
南京治疗皮肤病哪家医院正规
肝癌晚期还有治疗的必要吗
孩子急性支气管炎咳嗽有痰应该吃什么
钇90
中晚期肝癌能活多久
钇90介入疗法能治愈吗
相关阅读

中环海陆(301040.SZ)4436.58股限售股将于8月3日纳斯达克流通

图片 2025-10-27

中环海陆301040.SZ发布公告,本次免去限售的股票为Corporation首次公开发行同一时间已发行的外股票,该外股票限售期为自Corporation首次公开发行并上市之日起12个年末。本次免

赣锋锂业(002460.SZ):GFLInvestment已完成对稀美资源新发行大股东的认购和股权交割

音乐 2025-10-27

赣锋锂业002460.SZ辟谣,近日,公司收到GFL Investment的通知,GFL Investment已完成了对稀美能源6000万股另行发行股份的买入和股份交割,买入售价为4.0港元股,

蓝河控股(00498)发布等奖项业绩,股东应占亏损16.29亿港元

八卦 2025-10-27

蓝河控股00498发布截至2022年3同年31日止年度上周,收入107.95亿港元,同比上涨3793%;股东应以占多数亏蚀16.29亿港元,人均破天荒溢利1.51亿港元。每股基本亏蚀147.5港仙

青建国际(01240)获授建筑工程履约 涉资26亿港元

时尚 2025-10-27

青建国际01240披露,东南亚建屋发展局年底2022年7同年29日将一份工程建设到期授予新公司的间接控股另设新公司,涉及东南亚中区到期七及到期八的工程建设。倘若启动该到期中列明的所有工程建

【本周上市】两只ETF加入新加坡市场

综艺 2025-10-27

ETF纳入互联互通标的今天满一个月,首月走势相当活跃。北向和自西向东的每日少于作价金额分别达2.16亿的港元和1,980万韩圆。本周香的港市场再进一步半世纪两只ETF在的港纳斯达克!回顾动人的

友情链接