微信公众号搜"智元新知"关注
微信扫一扫可直接关注哦!

PostgreSQL:将一组关键字任意与多语言文本匹配

如何解决PostgreSQL:将一组关键字任意与多语言文本匹配

在 Postgre 12.0 中,我需要检查包含文本的某些列(可以是多种语言,没有可靠的指示文本实际使用的语言)是否包含一组关键字中的任何一个。 关键字可以是单个词或特定短语。 (然而,大小写匹配是不可取的)

如果有匹配项,我想返回相应的行。

我有一个表格,其中包含文档的数字标识符 (id1)、文档部分的数字标识符 (id2) 和包含 HTML 文本(内容)的 varchar 列

关键字存储在单独的表格关键字中,简单地作为 id 和 varchar(包含关键字/“搜索词”)

我想我应该使用包含 to_tsvector() 的查询

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple',mt.contents) @@
to_tsquery('simple',kw.keyword);

如您所见,这不会运行,因为我需要获取该匹配项的关键字列表。

我唯一的想法是首先通过连接关键字表中的所有关键字来构造一个用于匹配的字符串 然后使用它,如

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple','kw1 | kw2 | kw3 ... | kwN');

但是为此我仍然在苦苦思索如何解析它,我唯一想到的是这样的:

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple',(SELECT 
string_agg(keyword,' | ') AS keyword
FROM keywords) );

你能帮忙吗?

解决方法

您可以使用短语搜索功能。因此,对于您评论中的示例,您可能希望使用 tsquery kw1 | specific <-> words。您可以将多词短语存储在表中,其中 <-> 已经存在,或者使用 regexp_replace 将空格变成 <->

SELECT 
mt.*
FROM 
mytable mt
WHERE 
to_tsvector('simple',mt.contents) @@
to_tsquery('simple',(SELECT 
string_agg(regexp_replace(keyword,' ',' <-> ','g'),' | ') AS keyword
FROM keywords) );

如果你有带连字符的单词或短语,那就搞砸了。

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。