使用OpenAI API进行文本分类标注

文本分类标注（Tagging）是一种非常有用的技术，可以对文档进行分类，例如情感分析、语言检测、风格判断、主题识别等。这项技术在自然语言处理（NLP）领域中有广泛的应用，例如社交媒体监控、客户反馈分析和自动化客服系统等。在本文中，我们将使用OpenAI的API，通过LangChain工具来进行文本分类标注。我们将展示如何定义分类函数和模式(schema)，并通过实际代码演示实现文本分类标注。

dgay_hua

744人浏览 · 2025-02-13 18:44:54

dgay_hua · 2025-02-13 18:44:54 发布

技术背景介绍

文本分类标注（Tagging）是一种非常有用的技术，可以对文档进行分类，例如情感分析、语言检测、风格判断、主题识别等。这项技术在自然语言处理（NLP）领域中有广泛的应用，例如社交媒体监控、客户反馈分析和自动化客服系统等。

在本文中，我们将使用OpenAI的API，通过LangChain工具来进行文本分类标注。我们将展示如何定义分类函数和模式(schema)，并通过实际代码演示实现文本分类标注。

核心原理解析

文本分类标注的核心在于定义一个分类函数和对应的模式(schema)。通过这些定义，可以指导模型如何对文档进行标注。分类函数用于提取文本中的关键信息，而模式定义了这些信息的结构和属性。

我们将使用Pydantic模型来定义我们的标注模式，并通过LangChain和OpenAI的API进行调用，实现自动化的文本分类标注。

代码实现演示

首先，我们需要安装必要的库并设置API密钥：

%pip install --upgrade --quiet langchain langchain-openai

接着，我们定义一个Pydantic模型来指定我们的标注模式。以下示例包含情感、攻击性和语言三个属性：

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_openai import ChatOpenAI

# 定义分类模式
class Classification(BaseModel):
    sentiment: str = Field(description="The sentiment of the text")
    aggressiveness: int = Field(
        description="How aggressive the text is on a scale from 1 to 10"
    )
    language: str = Field(description="The language the text is written in")

# 创建标准化的聊天提示模板
tagging_prompt = ChatPromptTemplate.from_template(
    """
Extract the desired information from the following passage.

Only extract the properties mentioned in the 'Classification' function.

Passage:
{input}
"""
)

# 配置LLM
llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0125").with_structured_output(
    Classification
)

# 创建标注链
tagging_chain = tagging_prompt | llm

# 示例输入
inp = "Estoy increiblemente contento de haberte conocido! Creo que seremos muy buenos amigos!"
result = tagging_chain.invoke({"input": inp})

print(result)
# 输出: Classification(sentiment='positive', aggressiveness=1, language='Spanish')

我们可以通过调用dict()方法来获取JSON格式的输出：

inp = "Estoy muy enojado con vos! Te voy a dar tu merecido!"
res = tagging_chain.invoke({"input": inp})
print(res.dict())
# 输出: {'sentiment': 'negative', 'aggressiveness': 8, 'language': 'Spanish'}

应用场景分析

文本分类标注技术在许多应用场景中非常有用。例如：

情感分析：企业可以自动化地分析客户反馈，了解客户对产品或服务的情感倾向。
社交媒体监控：帮助品牌管理人员监控和分析社交媒体上关于品牌的讨论。
自动化客服：通过检测客户消息的情感和紧急程度，自动分配客服资源。

实践建议

细化分类模式：定义分类模式时应尽可能详细，以确保模型输出的准确性和一致性。
多轮训练：根据实际应用场景，反复调整和优化分类模式和示例输入，提升模型的表现。
错误处理：在生产环境中部署时，确保对分类结果进行有效的错误处理和异常捕获。

如果遇到问题欢迎在评论区交流。

—END—

import openai
# 使用稳定可靠的API服务
client = openai.OpenAI(
    base_url='https://yunwu.ai/v1',  # 国内稳定访问
    api_key='your-api-key'
)

技术共进，成长同行——讯飞AI开发者社区

更多推荐

AI智能体—人工智能工作流与人工智能智能体：真正的区别是什么？

本文探讨了人工智能工作流与智能体的核心区别。工作流是静态、可预测的执行序列（如预处理→嵌入→搜索→总结），适合批处理作业；而智能体能动态感知环境、自主决策（感知→推理→决策循环），具备适应性和工具选择能力。关键差异在于：工作流遵循固定路径，智能体则能根据目标调整策略。架构上，工作流使用Airflow等工具，智能体依赖LangChain等框架。智能体的自主性使其更适用于动态环境，代表下一代AI应用方