全文检索_云原生数据仓库 AnalyticDB PostgreSQL版(AnalyticDB for PostgreSQL)-阿里云帮助中心

背景信息

随着数字时代的发展，数据的来源和生成方式越来越广泛，其中也包含大量的文本数据。人们通常选择数据库或数据仓库存储文本数据，但是将文本数据中有价值的信息提取出来并进行高效分析，往往需要涉及多个数据处理系统配合来实现，用户的使用门槛通常较高、维护成本较大。

通常在使用数据仓库进行文本数据的加工和分析时，离不开数据仓库的数据实时写入、全文检索及任务调度等能力。如何使用一套数仓系统完成上述所有功能，往往面临以下几个挑战：

数据仓库内核的全文检索功能不够全面。部分数据仓库在全文检索功能上的的缺失，导致用户需要对文本数据做大量开发后才能将数据导入数据仓库。
任务调度依赖数据仓库内核的SQL标准支持能力，以及强大的外部工具支持。
全文检索涉及大量的文本数据，而数据仓库在处理文本数据时性能往往不如数字类型的数据。
不具备灵活的配置变更能力等。

AnalyticDB PostgreSQL版同时具备完善的全文检索和数据加工能力，能够较好地解决上述问题。

概述

在数据库存储的文本中找到特定的查询词并将它们按照出现的次数排序，就是一种典型的全文检索应用。

大部分数据库都提供对文本查询的基本功能。例如，在查询中使用LIKE等表达式查找搜索文本，但这些方法在现代数据库业务中缺少以下能力：

数据库常用的表达式查询方法无法处理派生词等语法。例如，英文单词 satisfy 和它的第三人称形式 satisfies 。如果使用 satisfy 作为关键词查询，查询结果可能遗漏 satisfies ，这不是全文检索所期望的结果。当然也可以使用表达式OR去同时匹配 satisfy 和 satisfies ，但是这样操作效率非常低且容易出错（某些单词存在大量的派生词）。
无法对匹配结果进行有效地排序。当查询结果较多时，筛选结果将变得非常低效。
查询性能慢，无法建立有效的索引，导致查询需要遍历完整的文本数据。

AnalyticDB PostgreSQL版的一站式全文检索业务同时具备上述所有能力。下图展示了 AnalyticDB PostgreSQL版全文检索业务的流程。全文检索.png

全文检索基本功能

AnalyticDB PostgreSQL版的全文检索功能，通过文本的预计算提供快速的查询性能。其中预计算主要包含以下几步：

将文本解析为符号。通过符号将文本词语分类为不同的类型，例如数字、形容词、副词等，不同类型的符号可以做不同的操作处理。PostgreSQL内核使用默认的解析器（parser）进行符号解析，并提供自定义解析器能力用于解析不同语言文本。
将符号转换为词语。相比较符号，词语经过了归一化（normalized）操作，将单词的不同形式进行合并（如 satisfy 和 satisfies ），使得全文检索功能可以根据语义高效检索。PostgreSQL内核使用词典（dictionaries）进行符号转换为词语的操作，同样提供了自定义词典功能。
优化词语存储，高效查询。例如，PostgreSQL内核提供 tsvector(text search vector) 数据类型，将文本解析转换为带有词语信息的有序数据，并通过 tsquery(text search query) 语法对此类数据进行查询，实现高效的全文检索。

tsvector

tsvector用于存放一系列去重（distinct）的词语和词语顺序、位置等信息，使用PostgreSQL提供的 to_tsvector 方法可以自动完成文本至tsvector的转换。以英文语句 'a fat cat jumped on a mat and ate two fat rats' 为例：

postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats');
                          to_tsvector
---------------------------------------------------------------
 'ate':9 'cat':3 'fat':2,11 'jump':4 'mat':7 'rat':12 'two':10
(1 row)

从查询结果可以看到tsvector的结果包含了一系列的词语，并按照词语的顺序进行了排序。同时每个词语后跟随了其在语句中的位置信息，如 fat':2,11 表示fat在语句的第2和第11个位置。此外tsvector结果省略了连接词（and，on等），并对部分单词进行了归一化的处理（jumped过去式归一化为jump）。

tsvector将文本完成预计算和转换。

tsquery

tsquery用于存放查询tsvector的词语，PostgreSQL同样提供 to_tsquery 方法将文本转换为tsquery，结合tsvector及全文检索操作符，就可以完成全文检索查询。

tsquery支持 @@ （包含）操作符和Boolean操作符 & （ AND）、 | （OR）和 ! （NOT），可以方便地构建组合条件的检索查询。

例如，使用 @@ 查找tsvector中是否包含tsquery的词语。

postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat');
 ?column?
----------
(1 row)
postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cats');
 ?column?
----------
(1 row)
postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat | dog');
 ?column?
----------
(1 row)
postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat & dog');
 ?column?
----------
(1 row)

从查询结果可以看到，对词语 cat 的查询结果为t，即true表明查询匹配。同时，由于 cats 是 cat 的复数，语义上也满足匹配，因此对词语 cats 的查询结果也为t。

距离搜索

postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat<1>jump');
 ?column?
----------
(1 row)

postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat<2>mat');
 ?column?
----------
(1 row)
postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat<4>mat');
 ?column?
----------
(1 row)

postgres=# SELECT to_tsvector('a fat cat jumped on a mat and ate two fat rats') @@ to_tsquery('cat<1,5>mat');
 ?column?
----------
(1 row)

postgres=# SELECT to_tsvector('你好，这是一条中文测试文本');
            to_tsvector
-----------------------------------
 '你好':1 '这是一条中文测试文本':2
(1 row)

--- 创建分词解析器。
CREATE TEXT SEARCH CONFIGURATION zh_cn (PARSER = zhparser);
--- 添加名词（n）、动词（v）、形容词（a）、成语（i）、叹词（e）和习用语（l）、自定义（x）分词策略。
ALTER TEXT SEARCH CONFIGURATION zh_cn ADD MAPPING FOR n,v,a,i,e,l,x WITH simple;

postgres=# SELECT to_tsvector('zh_cn','你好，这是一条中文测试文本');
                 to_tsvector
----------------------------------------------
 '中文':3 '你好':1 '文本':5 '测试':4 '这是':2
(1 row)

postgres=# SELECT to_tsvector('zh_cn','你好，这是一条中文测试文本') @@ to_tsquery('zh_cn','中文<1,3>文本');
 ?column?
----------
(1 row)

                   Table "zhparser.zhprs_custom_word"
 Column |       Type       | Collation | Nullable |        Default
--------+------------------+-----------+----------+-----------------------
 word   | text             |           | not null |
 tf     | double precision |           |          | '1'::double precision
 idf    | double precision |           |          | '1'::double precision
 attr   | character(1)     |           |          | '@'::bpchar
Indexes:
    "zhprs_custom_word_pkey" PRIMARY KEY, btree (word)
Check constraints:
    "zhprs_custom_word_attr_check" CHECK (attr = '@'::bpchar OR attr = '!'::bpchar)

postgres=# INSERT INTO zhparser.zhprs_custom_word values('测试文本');
INSERT 0 1
postgres=# SELECT sync_zhprs_custom_word();		--加载自定义分词。
 sync_zhprs_custom_word
------------------------
(1 row)
postgres=# \q --重新建立连接。
postgres=# SELECT to_tsvector('zh_cn','你好，这是一条中文测试文本');
               to_tsvector
-----------------------------------------
 '中文':3 '你好':1 '测试文本':4 '这是':2
(1 row)

postgres=# INSERT INTO zhparser.zhprs_custom_word(word, attr) values('这是','!');
INSERT 0 1
postgres=# SELECT sync_zhprs_custom_word();
 sync_zhprs_custom_word
------------------------
(1 row)
postgres=# \q --重新建立连接。
postgres=# SELECT to_tsvector('zh_cn','你好，这是一条中文测试文本');
              to_tsvector
---------------------------------------
 '中文':3 '你好':1 '是':2 '测试文本':4
(1 row)

Document
ID	Text
1	这是一条中文测试文本
2	中文分词插件的使用
3	数据库全文检索
4	基于中文的全文检索

Term	ID
中文	1,2,4
全文	3,4
数据库	3
文本	1
...	...

CREATE INDEX text_idx ON document USING GIN (to_tsvector('zh_cn',text));

背景信息

概述

全文检索基本功能

tsvector

tsquery

距离搜索

中文分词：Zhparser插件

自定义词库

全文检索索引

相关文档