Langchain 使用 Elasticsearch，对 Metadata 同一字段的多个属性值进行筛选

使用Langchain做向量知识库检索时，可能会需要根据metadata做数据筛选。（本文主要演示对一个字段的多个属性值进行精确或模糊筛选。假设metadata如果需要根据metadata筛选符合条件的数据，则需要增加filter。

薄荷你玩_

1657人浏览 · 2023-10-20 15:09:10

薄荷你玩_ · 2023-10-20 15:09:10 发布

背景

使用Langchain + Elasticsearch 做向量知识库检索时，可能会需要根据 metadata 做数据筛选。

（本文主要演示对一个字段的多个属性值进行精确或模糊筛选。）

假设 metadata 数据格式如下：

1、"metadata":{"source":"...","author":"zhangsan","date":"2008-03-08"}
2、"metadata":{"source":"...","author":"lisi","date":"2009-09-09"}
3、"metadata":{"source":"...","author":"liwu","date":"2001-04-05"}
...

一般的检索代码如下：

from langchain.vectorstores.elasticsearch import ElasticsearchStore
db = ElasticsearchStore(...)
...
returns = db.similarity_search("检索的问题", k=4)

如果需要根据 metadata 筛选符合条件的数据，则需要增加 filter 参数：

filter_parms = ...
returns = db.similarity_search("检索的问题", k=4, filter=filter_parms)

1、精确筛选

1、精确匹配一个字段的一个值：
[{'term': {'metadata.<字段名>.keyword': <字段值>}}]

举例：只筛选出 author 是 "zhangsan" 的数据：

filter_parms = [{'term': {'metadata.author.keyword': "zhangsan"}}]

2、精确匹配一个字段的多个值：
[{'terms': {'metadata.<字段名>.keyword': <多个字段值列表>}}]

举例：筛选出 author 是 "zhangsan" 或者 "lisi" 的数据：

filter_parms = [{'terms': {'metadata.author.keyword': ["zhangsan", "lisi"]}}]

2、模糊筛选

1、模糊匹配一个字段的一个值：
[{"bool": {"should": {"match": {"metadata.<字段名>": <字段值>}}}]

举例：只筛选出 author 包含 "li" 的数据（会匹配到 lisi 和 liwu）：

filter_parms = [{"bool": {"should": {"match": {"metadata.author": "li"}}}]

2、模糊匹配一个字段的多个值：
[{"bool": {"should": {"match": {"metadata.<字段名>": <字段值1>}}, {"match": {"metadata.<字段名>": <字段值2>}...}}]

举例：筛选出 author 包含 "li" 或者 "zhang" 的数据（会匹配到 zhangsan、lisi 和 liwu）：

filter_parms = [{"bool": {
	"should": {
		"match": {"metadata.author": "li"},
		"match": {"metadata.author": "zhang"},
	}
}]

更多筛选方法可以参考Langchain文档：https://python.langchain.com/docs/integrations/vectorstores/elasticsearch

技术共进，成长同行——讯飞AI开发者社区

更多推荐

项目管理方法适合什么类型的企业

讯飞AI开发者社区

张雪峰强烈推荐这4个专业，未来10年最有“钱途”，毕业即躺赢

讯飞AI开发者社区

敏捷适合短期项目还是长期项目

讯飞AI开发者社区

所有评论(0)

查看更多评论

薄荷你玩_

@qq_40738764

已为社区贡献1条内容