impala: 类似hive的array_contains()函数

  • 首先,需要先了解impala中的两个函数的作用,一个是 group_concat(string s [, string sep]) , 一个是 find_in_set(string str,string strList)

1、 group_concat(string s [, string sep])
按照指定分隔符, 将多行记录的 s 表达式结果拼接起来, 结合group by 一起使用

	select id,group_concat(name,'##') from (
	select 1 as id,'zhangsan' as name
	union all
	select 1,'zhangshu'
	union all
	select 2,'wangwu'
	union all
	select 2,'wangsan'
	union all
	select 2,'wangbu'
	) t group by id
+-------------++-------------++-------------+
| id          | group_concat(name,'##')     |
+-------------++-------------++-------------+
| 1           |zhangsan##zhangshu           |
+-------------++-------------++-------------+
| 2           |wangwu##wangsan##wangbu      |
+-------------++-------------++-------------+

2、find_in_set(string str,string strList)
查找某个字符串在一个以逗号为分隔符的列表中第一次出现的位置(以1为起点),如果查询不到或查询字符串中出现’,’(逗号),返回则为0

--在以逗号间隔的abcdefg中字符c第一次出现的位置
[master:21000] > select find_in_set('c','a,b,c,d,e,f,g') as find_in_set;
+-------------+
| find_in_set |
+-------------+
| 3           |
+-------------+
--在查询','的位置时的返回值
[master:21000] > select find_in_set(',','a,b,c,d,e,f,g') as find_in_set;
+-------------+
| find_in_set |
+-------------+
| 0           |
+-------------+
--在查询不存在字符的位置时的返回值
[master:21000] > select find_in_set('h','a,b,c,d,e,f,g') as find_in_set;
+-------------+
| find_in_set |
+-------------+
| 0           |
+-------------+

两个函数结合实现类似array_contains() 的效果

select id,group_concat(name,','),
	find_in_set("zhangshu", group_concat(name,',')) as res1,
	find_in_set("wangsan",group_concat(name,',')) as res2 
from (
	select 1 as id,'zhangsan' as name
	union all
	select 1,'zhangshu'
	union all
	select 2,'wangwu'
	union all
	select 2,'wangsan'
	union all
	select 2,'wangbu'
) t group by id
+-------------++-------------++-------------++-------------++-------------+
| id          | group_concat(name,',')      |    res1      |   res2       |
+-------------++-------------++-------------++-------------++-------------+
| 1           |zhangsan,zhangshu            |      2       |     0        |
+-------------++-------------++-------------++-------------++-------------+
| 2           |wangwu,wangsan,wangbu        |      0       |     2        |
+-------------++-------------++-------------++-------------++-------------+

最后再结合if函数,就可以实现类似的功能了

Impala类似于UNIX的自制操作系统,它是波兰弗罗茨瓦夫大学的本科项目开发的。 4.4BSD,FreeBSD,Ultrix和Solaris源代码对我们的操作系统结构产生了很大影响,因此它可能是开发基于UNIX的真正系统(不是基于Linux)的良好开端。 Mateusz Kocielski(Shm) 阿图尔·科宁斯基(竹) Pawel Wieczorek(wieczyk) 虚拟内存(支持i686全局页面扩展) 虚拟文件系统层,具有FAT12,ext2,设备文件系统(devfs)和内存文件系统支持 具有ISA DMA支持的软盘控制器驱动程序 带有PIO支持的AT Golang Apache Impala驱动程序 适用于Go的软件包的Apache Impala驱动程序 据我们所知,这是Apache Impala唯一具有TLS和LDAP支持的纯golang驱动程序。 该驱动程序的当前实现基于Hive Server 2协议。 可以在获得基于旧Beeswax协议的驱动程序,该驱动程序被标记为已弃用,将不再维护。 如果您使用的是Go 1.12或更高版本,则可以使用go get github.com/bippio/go-impala@v1.0.0来获取驱动程序的v1.0.0或使用诸如类的依赖项管理工具 我们希望使每个企业用户都可以使用大规模数据分析。 作为其一部分,我们致力于使它成为生产级驱动程序,该产品级驱动程序可用于严重的企业场景中,以代替ODBC / JDBC驱动程序。 欢迎提出问题和贡献。 去获取github.com/bippio/go 使用此模块之前,请先查看。 import { createClient } from 'node-impala' ; const client = createClient ( ) ; client . connect ( { host : '127.0.0.1' , port : 21000 , resultType : 'json-array' } ) ; client . query ( 'SELECT column_name FROM table_name' ) . then ( result => console . log ( result ) ) . catch ( err => console . error ( err ) ) Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由QueryPlanner、QueryCoordinator和QueryExecEngine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。其架构如图1所示,Impala主要由Impalad,StateStore和CLI组成。图1Impalad:与DataNode运行在同一节点上,由Impalad进程表示,它接收 impala快速入门1. 什么是impala ?2. impala的优缺点3. impala的架构组成4. impala的运行原理5. impala的监控管理6. impala-shell6. impala的外部shell操作7. impala的内部shell8. impala的数据类型9. impala的DDL操作创建数据库创建表分区表10. impala DML操作数据导入数据导出11. impala DQL操作12 函数自定义函数13. 存储和压缩14 impala优化 1. 什么是impala ? RESULT VARCHAR2(200); BEGIN RESULT := REGEXP_REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLAC https://docs.cloudera.com/documentation/enterprise/latest/topics/impala_string_functions.html http://impala.apache.org/docs/build/html/topics/impala_string_functions.html#string_functions__ascii array是一个操作符,返回得值是数组 例如 array(va1,va2) 返回array类型,创建一个(va1,va2)数组 array_contains ,其实contains这个函数是一个检索函数,那么加上array前缀,顾名思义就是数组检索函数。 select array_contains(array(va1,va2),va1) from system.dual; 返回 ture 从上面得例子,可以看出,array_contains检索一个数组中是否包含某个值,如果包含则返回ture,否则返回fal 支持通过Hints指定join策略。支持的Hints: [broadcast]:broadcast join策略(将小表放到所有节点上与大表进行分片join) [shuffle]:   partitioned join策略(分片join) 支持刷新单个表的元数据。元数据的自动刷新仍然不支持。 动态资源管理 impala不支持直接insert complex type data,需要从hive中或者从parquet file中取出来.而且需要使用parquet格式的表. 具体demo步骤如下:创建hive表create table array_map_1(id string , column_name array<string>,info map<string, string>)   官网:https://www.cloudera.com/documentation/enterprise/latest/topics/impala_math_functions.html   转载链接1:https://blog.csdn.net/qq_24699959/article/details/79863664   转载链接2:https://blog.csdn.net/qq_24...