相关性排序
默认情况下,结果集会按照
相关性
进行排序 -- 相关性越高,排名越靠前。 这一章我们会讲述相关性是什么以及它是如何计算的。 在此之前,我们先看一下
sort
参数的使用方法。
为了使结果可以按照相关性进行排序,我们需要一个相关性的值。在ElasticSearch的查询结果中, 相关性分值会用
_score
字段来给出一个浮点型的数值,所以默认情况下,结果集以
_score
进行倒序排列。
有时,即便如此,你还是没有一个有意义的相关性分值。比如,以下语句返回所有tweets中
user_id
是否 包含值
1
:
GET /_search
"query" : {
"filtered" : {
"filter" : {
"term" : {
"user_id" : 1
过滤语句与 _score
没有关系,但是有隐含的查询条件 match_all
为所有的文档的 _score
设值为 1
。 也就相当于所有的文档相关性是相同的。
字段值排序
下面例子中,对结果集按照时间排序,这也是最常见的情形,将最新的文档排列靠前。 我们使用 sort
参数进行排序:
GET /_search
"query" : {
"filtered" : {
"filter" : { "term" : { "user_id" : 1 }}
"sort": { "date": { "order": "desc" }}
你会发现这里有两个不同点:
"hits" : {
"total" : 6,
"max_score" : null, <1>
"hits" : [ {
"_index" : "us",
"_type" : "tweet",
"_id" : "14",
"_score" : null, <1>
"_source" : {
"date": "2014-09-24",
"sort" : [ 1411516800000 ] <2>
_score字段没有经过计算,因为它没有用作排序。date 字段被转为毫秒当作排序依据。
首先,在每个结果中增加了一个 sort 字段,它所包含的值是用来排序的。
在这个例子当中 date字段在内部被转为毫秒,即长整型数字1411516800000等同于日期字符串 2014-09-24 00:00:00 UTC。
其次就是 _score 和 max_score 字段都为 null。
计算 _score 是比较消耗性能的, 而且通常主要用作排序 -- 我们不是用相关性进行排序的时候,就不需要统计其相关性。 如果你想强制计算其相关性,可以设置track_scores为 true。
你可以只指定要排序的字段名称:
"sort": "number_of_children"
字段值默认以顺序排列,而 _score 默认以倒序排列。
如果我们想要合并一个查询语句,并且展示所有匹配的结果集使用第一排序是date,第二排序是 _score:
GET /_search
"query": {
"filtered": {
"query": {
"match": {
"tweet": "manage text search"
"filter": {
"term": {
"user_id": 2
"sort": [
"date": {
"order": "desc"
"_score": {
"order": "desc"
排序是很重要的。结果集会先用第一排序字段来排序,当用用作第一字段排序的值相同的时候, 然后再用第二字段对第一排序值相同的文档进行排序,以此类推。
多级排序不需要包含 _score
你可以使用几个不同的字段,如位置距离或者自定义数值。
字符串参数排序
字符查询也支持自定义排序,在查询字符串使用sort参数就可以:
GET /_search?sort=date:desc&sort=_score&q=search
为多值字段排序
在为一个字段的多个值进行排序的时候, 其实这些值本来是没有固定的排序的-- 一个拥有多值的字段就是一个集合, 你准备以哪一个作为排序依据呢?
对于数字和日期,你可以从多个值中取出一个来进行排序,你可以使用min, max, avg 或 sum这些模式。
比说你可以在 dates 字段中用最早的日期来进行排序:
"sort": { "dates": { "order": "asc", "mode": "min" } }
二、字符串排序
多值字段字符串排序
"tweet": {
"type": "string",
"analyzer": "english"
"tweet": { <1>
"type": "string",
"analyzer": "english",
"fields": {
"raw": { <2>
"type": "string",
"index": "not_analyzed"
GET /_search
"query": {
"match": {
"tweet": "elasticsearch"
"sort": "tweet.raw"
相关性简介
理解评分标准
GET /_search?explain <1>
"query" : { "match" : { "tweet" : "honeymoon" }}
"_index" : "us",
"_type" : "tweet",
"_id" : "12",
"_score" : 0.076713204,
"_source" : { ... trimmed ... },
"_shard" : 1,
"_node" : "mzIVYCsqSWCG_M_ZffSs9Q",
"_explanation": { <1>
"description": "weight(tweet:honeymoon in 0)
[PerFieldSimilarity], result of:",
"value": 0.076713204,
"details": [
"description": "fieldWeight in 0, product of:",
"value": 0.076713204,
"details": [
"description": "tf(freq=1.0), with freq of:",
"value": 1,
"details": [
"description": "termFreq=1.0",
"value": 1
"description": "idf(docFreq=1, maxDocs=1)",
"value": 0.30685282
"description": "fieldNorm(doc=0)",
"value": 0.25,
检索词 `honeymoon` 在 `tweet` 字段中的出现次数。
检索词 `honeymoon` 在 `tweet` 字段在当前文档出现次数与索引中其他文档的出现总数的比率。
文档中 `tweet` 字段内容的长度 -- 内容越长,值越小。
Explain Api
文档是如何被匹配到的
GET /us/tweet/12/_explain
"query" : {
"filtered" : {
"filter" : { "term" : { "user_id" : 2 }},
"query" : { "match" : { "tweet" : "honeymoon" }}
"failure to match filter: cache(user_id:[2 TO 2])"
四、数据字段
对一个字段进行排序
对一个字段进行聚合
某些过滤,比如地理位置过滤
某些与字段相关的脚本计算