【零基础学AI】第29讲：BERT模型实战 - 情感分析

摘要：本教程基于BERT模型实现情感分析任务，讲解微调预训练模型的核心流程。首先介绍BERT的双向编码优势及其在情感分析中的适用性，包括上下文理解和情感词捕捉能力。通过HuggingFace Transformers库，逐步演示数据加载（SST-2数据集）、BERT模型初始化、文本预处理（分词与格式化）以及训练配置（学习率2e-5、3轮训练）。代码涵盖完整训练评估流程，最终模型在验证集准确率达9

1989

1193人浏览 · 2025-07-07 10:48:06

1989 · 2025-07-07 10:48:06 发布

在这里插入图片描述

本节课你将学到

BERT模型的核心原理与优势
HuggingFace Transformers库的BERT接口使用
情感分析任务的完整实现流程
模型微调(Fine-tuning)技巧

开始之前

环境要求

Python 3.8+

需要安装的包：

pip install torch transformers datasets pandas tqdm

GPU推荐（可加速训练）

前置知识

第28讲Transformer基础
基本PyTorch使用经验

核心概念

什么是BERT？

BERT就像一位读过全互联网的"语言专家"：

双向理解：同时考虑上下文（传统模型只能单向理解）
预训练+微调：先海量自学，再快速适应新任务
通用性强：适合各种NLP任务（分类/问答/生成等）

为什么BERT适合情感分析？

理解情感词与修饰词的关系
（如"not good"与"very good"的差别）
捕捉长距离依赖
（如"虽然开头很无聊，但结尾令人震撼"）
已有丰富的语义知识
（预训练阶段已学习过大量情感表达）

代码实战

1. 加载数据集

from datasets import load_dataset

# 加载SST-2情感分析数据集（斯坦福情感树库）
dataset = load_dataset('glue', 'sst2')
print(dataset['train'][0])  # 查看示例

# 输出示例：
# {'sentence': 'a stirring portrait of suffering', 'label': 1, 'idx': 0}
# label=1是正面，0是负面

2. 初始化BERT模型

from transformers import BertTokenizer, BertForSequenceClassification

# 加载BERT的分词器
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# 加载BERT分类模型（2分类）
model = BertForSequenceClassification.from_pretrained(
    'bert-base-uncased',
    num_labels=2,
    output_attentions=False  # 不需要注意力权重时可关闭以节省内存
)

# ⚠️ 注意：首次运行会自动下载约400MB的预训练模型

3. 数据预处理

def tokenize_function(examples):
    # 对文本进行BERT特有的分词处理
    return tokenizer(
        examples['sentence'],
        padding='max_length',
        truncation=True,
        max_length=128,
        return_tensors="pt"
    )

# 应用分词器
tokenized_datasets = dataset.map(tokenize_function, batched=True)

# 重命名标签列
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

# 设置PyTorch格式
tokenized_datasets.set_format("torch", 
    columns=["input_ids", "attention_mask", "labels"])

4. 训练准备

from transformers import TrainingArguments, Trainer
import numpy as np
from sklearn.metrics import accuracy_score

# 定义评估指标
def compute_metrics(pred):
    labels = pred.label_ids
    preds = pred.predictions.argmax(-1)
    return {'accuracy': accuracy_score(labels, preds)}

# 训练参数配置
training_args = TrainingArguments(
    output_dir='./bert_results',  # 输出目录
    evaluation_strategy="epoch",  # 每轮评估
    learning_rate=2e-5,          # 小学习率（微调关键！）
    per_device_train_batch_size=16,
    per_device_eval_batch_size=32,
    num_train_epochs=3,          # 训练轮数
    weight_decay=0.01,           # 权重衰减
    logging_dir='./logs',        # 日志目录
)

5. 开始训练

# 创建Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    compute_metrics=compute_metrics,
)

# 启动训练
trainer.train()

# 保存模型
trainer.save_model("my_bert_sentiment")

完整项目

项目结构：

bert_sentiment_analysis/
├── train.py              # 训练脚本
├── predict.py            # 预测脚本
├── requirements.txt
└── README.md

requirements.txt内容：

torch>=2.0.0
transformers>=4.30.0
datasets>=2.12.0
tqdm>=4.0.0

运行效果

训练输出示例

Epoch  Training Loss  Validation Accuracy
1      0.324          0.894
2      0.198          0.906
3      0.142          0.912

预测新文本

from transformers import pipeline

# 创建情感分析管道
classifier = pipeline(
    "text-classification",
    model="my_bert_sentiment",
    tokenizer=tokenizer
)

# 测试样例
result = classifier("The movie was a waste of time")
print(result)  # [{'label': 'NEGATIVE', 'score': 0.98}]

result = classifier("This is the best film I've ever seen")
print(result)  # [{'label': 'POSITIVE', 'score': 0.96}]

常见问题

Q1: 训练速度太慢怎么办？

优化方案：

使用bert-base-uncased代替更大模型
开启混合精度训练（fp16=True）
减小max_length（如改为64）

Q2: 如何提高准确率？

调优建议：

尝试更大的max_length（如256）
增加训练轮数（num_train_epochs=5）
使用领域相关数据继续预训练

Q3: 模型文件太大如何部署？

解决方案：

使用bert-base-uncased的蒸馏版（如DistilBERT）
进行模型量化（torch.quantization）
转换为ONNX格式

课后练习

尝试在不同领域数据（如商品评论）上微调
修改为多分类任务（如积极/中立/消极）
比较BERT与LSTM模型的性能差异

扩展阅读

BERT论文原文
HuggingFace课程第3章

技术共进，成长同行——讯飞AI开发者社区

更多推荐

**发散创新：绿色AI的崛起与未来发展**随着人工智能技术的飞速发展，绿色AI已成为当前科技领域的热点话题。本

通过案例分析和技术实现细节的介绍，读者可以更加深入地了解绿色AI的实现方式和操作流程。随着技术的不断进步，绿色AI将在全球范围内得到广泛应用，推动可持续发展进程。本文将探讨绿色AI的概念、优势及其在未来的发展趋势，并深入探讨绿色AI如何实现可持续发展。与传统的AI技术相比，绿色AI更加注重环境保护和可持续发展，致力于解决当前全球面临的环境问题。随着技术的不断进步，绿色AI将在更多领域得到应用，并推

讯飞AI开发者社区

别再瞎搞！AI应用架构师教你正确的AI系统性能调优方法

在人工智能技术快速发展的今天，模型规模与复杂度呈指数级增长，而计算资源与性能需求之间的矛盾日益突出。本文旨在提供一套系统化的AI系统性能调优方法论，帮助架构师和工程师摆脱"盲目调优"的困境。通过从第一性原理出发，构建"测量-分析-优化-验证"的闭环流程，本文详细阐述了AI系统性能瓶颈的识别技术、多层次优化策略以及端到端调优实践。内容涵盖理论基础、架构设计、实现机制、实际应用和高级考量，包含20+优

讯飞AI开发者社区

**发散创新：探索DPU（数据处理单元）的核心技术与未来趋势**一、引言随着信息技术的飞速发展，数据处理能力已成为现代计算系统的

随着大数据和人工智能技术的不断发展，DPU将在数据处理领域发挥越来越重要的作用。为了更好地推动DPU技术的发展和应用，我们需要进一步深入研究其核心技术，优化软硬件设计，拓展应用场景，并加强与其他计算单元的协同合作。相信在不久的将来，DPU将成为计算系统的重要组成部分，为各种应用场景提供更加高效的数据处理能力。DPU的出现，旨在解决大数据时代下数据处理的瓶颈问题，提高数据处理效率，为各种应用场景提供