为了从长文本中抽取给定的关键词,可以使用 Python 中的正则表达式。

首先,需要安装 re 模块,这是 Python 的正则表达式库。

然后,使用 re.findall 函数可以在文本中查找所有匹配给定正则表达式的字符串。例如,假设要从文本中抽取所有数字,可以使用以下代码:

import re

text = "The quick brown fox jumps over the lazy dog. 1234567890"
numbers = re.findall(r'\d+', text)
print(numbers)

输出结果为:

['1234567890']

如果要抽取给定的关键词,可以将正则表达式替换为关键词的模式。例如,假设要抽取所有 "cat" 和 "dog",可以使用以下代码:

import re

text = "The quick brown cat jumps over the lazy dog."
keywords = re.findall(r'cat|dog', text)
print(keywords)

输出结果为:

['cat', 'dog']

此外,还可以使用 re.search 函数在文本中查找第一个匹配给定正则表达式的字符串。例如,假设要查找文本中第一个数字,可以使用以下代码:

import re

text = "The quick brown fox jumps over the lazy dog. 1234567890"
number = re.search(r'\d+', text)
print(number.group())

输出结果为:

1234567890

可以根据需要使用不同的正

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐