从本节开始,先详细介绍Elasticsearch Query DSL语法,该部分是SearchAPI的核心基础之一。
Elasticsearch提供了一个基于JSON的完整查询DSL(领域特定语言)来定义查询。把查询DSL看作是查询的AST(抽象语法树),由两种类型的子句组成:
-
Leaf query clauses(叶查询字句)
叶子查询子句指在特定的字段中寻找特定的值,例如匹配、范围查询或term(完全匹配)。这些查询可以单独使用。
-
Compound query clauses(复合查询字句)
复合查询字句包装其他叶子或复合字句,用于以逻辑方式组合多个查询(如bool、dis_max)或改变他们的行为(如常量查询)。
查询子句的行为取决于它是在查询上下文中使用还是在过滤上下文中使用:
在查询上下文中使用的查询子句,查询字句回答了“这个文档与这个查询子句(查询条件)匹配得有多好?”除了决定文档是否匹配之外,查询子句还计算一个分数,表示相对与其他文档该文档匹配的程度。每当一个查询子句传递给查询参数(query)时,查询上下文就会生效,比如搜索API中的查询参数。
在过滤上下文中,查询子句回答“这个文档是否匹配这个查询子句?”答案是简单的“是”或“否”——没有计算出分数。过滤上下文主要用于过滤结构化数据(相当与关系型数据库的过滤条件)。例如这个时间戳是否会在2015年到2016年之间?文章的状态是为“发布”吗?等等。
经常使用的过滤器(filter context)会被Elasticsearch自动缓存,以提高性能。每当一个查询子句被传递给过滤器参数(filter)时,过滤器上下文就会生效,例如bool查询中的filter或must_not参数、或filter查询中的常量查询(constant_score)或filter查询。
举例如下:
GET /_search
"query": { // @1
"bool": { // @2
"must": [
{ "match": { "title": "Search" }}, // @3
{ "match": { "content": "Elasticsearch" }} // @4
"filter": [ // @5
{ "term": { "status": "published" }}, // @6
{ "range": { "publish_date": { "gte": "2015-01-01" }}} // @7
} // end bool
} // end query
}
代码@1:query参数定义查询上下文,query参数为elasticsearch的查询上下文。
代码@2:使用elasticsearch的bool查询表达式,会在后续详细介绍。
代码@3:查询上下文,使用关键字match,表示title字段中包含"Search"字符即认为匹配。(可以类比关系型数据库 a.title like '%Search%')
代码@4:查询上下文,使用关键字match,表示content字段中包含"Elasticsearch"字符即认为匹配。
代码@5:定义过滤上下文。
代码@6:使用term(完整匹配),即status字段的值是否是“published”。(相当于关系型数据库的 a.status = 'published')
代码@7:使用range,代表范围匹配,即publish_date字段的值是否大于等于2015-01-01。(相当于a.publish_date >= 2015-01-01')。
本文就介绍到这里了,整个系列将进入到ES DSL查询语法的学习中来。
接下来将从如下方面详细介绍ES DSL查询语法:
-
全文检索(Full text queries)
-
词条查询(Term level queries)
-
复合查询
-
Nested(关联查询)
众所周知,Elasticsearch提供的高效而丰富的查询分析能力,是基于Lucene提供的字段存储、倒排索引以及doc values等特性。通过倒排索引,可以快速过滤出符合查询条件的文档集合;结合doc values,可以高效地获取文档特定列的值信息,以便进行排序以及各种聚合操作;而字段存储则允许获取文档的原始内容。不难看出,字段存储、倒排索引以及doc values之间,是存在一定数据冗余的(