RDS PostgreSQL的PASE插件（IVFFlat或HNSW算法）向量检索_云数据库 RDS(RDS)-阿里云帮助中心

```
CREATE EXTENSION pase;
```
- ```
SELECT ARRAY[2, 1, 1]::float4[] <?> pase(ARRAY[3, 1, 1]::float4[]) AS distance;
SELECT ARRAY[2, 1, 1]::float4[] <?> pase(ARRAY[3, 1, 1]::float4[], 0) AS distance;
SELECT ARRAY[2, 1, 1]::float4[] <?> pase(ARRAY[3, 1, 1]::float4[], 0, 1) AS distance;
```
- ```
SELECT ARRAY[2, 1, 1]::float4[] <?> '3,1,1'::pase AS distance;
SELECT ARRAY[2, 1, 1]::float4[] <?> '3,1,1:0'::pase AS distance;
SELECT ARRAY[2, 1, 1]::float4[] <?> '3,1,1:0:1'::pase AS distance;
```

CREATE INDEX ivfflat_idx ON table_name
USING
  pase_ivfflat(column_name)
  (clustering_type = 1, distance_type = 0, dimension = 256, base64_encoded = 0, clustering_params = "10,100");

参数	说明
clustering_type	IVFFlat 算法对向量数据进行的聚类操作类型。必填项。取值： 0：外部聚类，加载外部提供的中心点文件，由参数 clustering_params 控制。 1：内部聚类，即构建索引过程首先会在内部进行聚类操作，采用 kmeans 算法，由参数 clustering_params 控制。对于初级用户，建议使用内部聚类方式。
distance_type	相似度计算方式。默认值为 0。取值： 0：欧式距离。 1：点积（内积）。使用此方式需要进行向量归一化，此时点积（内积）值的序和欧氏距离的序是反序关系。当前仅支持欧式距离，点积（内积）需要向量归一化后，采用附录中提供的方法计算。
dimension	向量维度。必填项，最大支持 512。
base64_encoded	数据是否采用 base64 编码。默认为 0。取值： 0：采用 float4[]表示向量类型。 1：采用 float[]的 base64 编码字符串表示向量类型。
clustering_params	对于外部聚类，该参数配置为中心点文件路径；对于内部聚类，该参数配置为聚类参数。格式为： `clustering_sample_ratio,k` 。必填项。 clustering_sample_ratio：以 1000 为分母的聚类采样比例。取值范围为 `(0,1000]` 内的整数，例如值为 1，表示对表中的数据按照千分之一的比例采样后进行 kmeans 聚类。值越大查询准确率越高，但创建索引的时间越长，建议采样的数据总量不要超过 10 万条。 k：聚类中心数，值越大查询准确率越高，但创建索引时间越长，建议取值范围为[100,1000]。

CREATE INDEX hnsw_idx ON table_name
USING
  pase_hnsw(column_name)
  (dim = 256, base_nb_num = 16, ef_build = 40, ef_search = 200, base64_encoded = 0);

参数	说明
dim	向量维度。必填项，取值范围 `[8,512]` 。
base_nb_num	图中节点的邻居数。必填项。值越大查询准确率越高，但建索引时间越慢，同时索引量占空间越大，建议取值范围 `[16-128]` 。
ef_build	创建索引过程中的堆长度。必填项。越长效果越好，但创建索引越慢，建议取值范围 `[40,400]` 。
ef_search	查询过程中的堆长度。必填项。越长效果越好，但查询性能越差，取值范围 `[10,400]` 。
base64_encoded	数据是否采用 base64 编码。默认值 0。取值： 0：采用 float4[]表示向量类型。 1：采用 float[]的 base64 编码字符串表示向量类型。

- ```
SELECT id, vector <#> '1,1,1'::pase as distance
FROM table_name
ORDER BY
vector <#> '1,1,1:10:0'::pase
ASC LIMIT 10;
```
- ```
SELECT id, vector <?> '1,1,1'::pase as distance
FROM table_name
ORDER BY
vector <?> '1,1,1:100:0'::pase
ASC LIMIT 10;
```

```
CREATE EXTENSION pase;
```

CREATE TABLE vectors_table ( id SERIAL PRIMARY KEY, vector float4[] NOT NULL );

INSERT INTO vectors_table (vector) VALUES ('{1.0, 0.0, 0.0}'), ('{0.0, 1.0, 0.0}'), ('{0.0, 0.0, 1.0}'), ('{0.0, 0.5, 0.0}'), ('{0.0, 0.5, 0.0}'), ('{0.0, 0.6, 0.0}'), ('{0.0, 0.7, 0.0}'), ('{0.0, 0.8, 0.0}'), ('{0.0, 0.0, 0.0}');

CREATE INDEX ivfflat_idx ON vectors_table
USING
  pase_ivfflat(vector)
  (clustering_type = 1, distance_type = 0, dimension = 3, base64_encoded = 0, clustering_params = "10,100");

SELECT id, vector <#> '1,1,1'::pase as distance
FROM vectors_table
ORDER BY
vector <#> '1,1,1:10:0'::pase
ASC LIMIT 10;

CREATE OR REPLACE FUNCTION inner_product_search(query_vector text, ef integer, k integer, table_name text) RETURNS TABLE (id integer, uid text, distance float4) AS $$
BEGIN
    RETURN QUERY EXECUTE format('
    select a.id, a.vector <?> pase(ARRAY[%s], %s, 1) AS distance from 
    (SELECT id, vector FROM %s ORDER BY vector <?> pase(ARRAY[%s], %s, 0) ASC LIMIT %s) a
    ORDER BY distance DESC;', query_vector, ef,  table_name,  query_vector, ef, k);
LANGUAGE plpgsql;

```
向量维度|中心点个数|中心点向量集合
```
```
3|2|1,1,1,2,2,2
```

高效向量检索（PASE）

前提条件

背景信息

目标读者

注意事项

PASE 算法简述

使用 PASE

使用方法

使用示例

附录

相关文档