场景:join时的过滤条件下推 需求:快速查看sql结果的schema,用于平台可视化配置 判断标识:explain sql语句看table scan时的stage的predicate是否有内容 开关:hive2的cbo,hive1的ppd 用途:提升sql性能&节约开销、查询复杂语句的结果集schema 先说结论:hiveserver2的谓词下推作用十分有限。 测试环境:hive3.1.2 结果 当把1=2,改成某字段=2,发生了谓词下推 场景,快速获取sql的结果集schema。 1=2或limit 1不能解决快速查sql schema的问题,对于涉及到join的sql,都无法快速返回。即使使用了谓词下推或将limit 1放入子查询,依然是要去数据集获取数据过滤,再执行join,依然不快。 结果 看具体执行截图 dbeaver client提交耗时71秒 看看具体耗时在哪 Mr: 69秒 关于hiveserver2谓词下推的资料: https://cloud.tencent.com/developer/article/1616687
As you said in the last video of 《machine learning》, I hope we can use AI to build cool products and make a better life. Thank you Andrew ng.
sometimes, sql is just better!
架构师公众号推送了一篇文章,一上来就拿数十个提升sql性能的实战例子,引入了spl (Structured Process Language)集算器,花30分钟浅尝辄止。 顾名思义,集算器,侧重‘集’+‘算’,将 数据集 结合 本地计算,产生结果。所以是非分布式的,所以场景有限。以下是结论。 场景:用于跨数据源查询(join/union) 或 大数据量复杂查询优化(使用游标load to file,再由spl提供的算子分析查询) 竞品:pandas/numpy 优点:代码量较小,适合不熟悉python的用户,否则还是上python或使用可视化平台,如redash/davinci 缺点:单点,质量不可控,社区不活跃 使用对象:分析师 提升示例 https://mp.weixin.qq.com/s/iFdZr1mhBSdYhfPd94OnaQ 产品介绍 http://www.raqsoft.com.cn/p/esproc-spl https://cloud.tencent.com/developer/article/1930545 https://www.modb.pro/db/430573 源码 https://github.com/SPLWare/esProc
最近比较少有精力更新博客,热情锐减可能是一部份原因。 https://archsummit.infoq.cn/2022/shenzhen/schedule 2022架构师峰会 2021的资料ppt https://www.modb.pro/topic/67021 2021年ppt 2022 data summit ppt https://www.modb.pro/topic/411230