藏文情感分析器入门学习实践

情感分析（Sentiment Analysis）是自然语言处理的一个重要应用，目的是自动识别和提取文本中的情感倾向。基于规则的方法使用情感词典，对句子进行简单判断（适合初学）。基于传统机器学习的方法使用分类算法，如支持向量机（SVM），通过特征工程进行分类。基于深度学习的方法使用神经网络模型（如BERT、LSTM），自动学习文本的深层次语义，准确度更高。我们本次项目使用简单易上手的规则词典方法进行

山海青风

487人浏览 · 2025-05-02 19:29:34

山海青风 · 2025-05-02 19:29:34 发布

🎯 项目目标：

输入一段藏文短句。
自动分析这句话的情感倾向：积极（正面）/消极（负面）/中立。

🔍 技术原理简介

情感分析是什么？

情感分析（Sentiment Analysis）是自然语言处理的一个重要应用，目的是自动识别和提取文本中的情感倾向。

常用的情感分析方法：

基于规则的方法：
使用情感词典，对句子进行简单判断（适合初学）。
基于传统机器学习的方法：
使用分类算法，如支持向量机（SVM），通过特征工程进行分类。
基于深度学习的方法：
使用神经网络模型（如BERT、LSTM），自动学习文本的深层次语义，准确度更高。

我们本次项目使用简单易上手的规则词典方法进行演示，适合初学者理解和操作。

🛠️ 一、项目环境准备

1️⃣ Python安装（已安装可跳过）

推荐安装Python 3.8以上版本。

2️⃣ 安装所需库

在命令行输入：

pip install pybo

📂 二、创建项目文件结构

创建项目文件夹sentiment_analysis，并准备以下文件：

sentiment_analysis/
│
├── sentiment_analyzer.py
├── sentiment_dict.txt
└── test_sentences.txt

📝 三、准备数据与情感词典

1️⃣ 创建藏文情感词典（sentiment_dict.txt）

藏文情感词典示例如下：

# 积极词 Positive（每行：词 空格 正面）
དགའ་པོ་ positive
སྐྱིད་པོ་ positive
བདེ་པོ་ positive

# 消极词 Negative（每行：词 空格 负面）
ཁོག་ negative
དཀྲོལ་ negative
སྡུག་པོ་ negative
ངན་པ་ negative

说明：

文件用UTF-8格式保存。
每行一个藏文词汇，后面跟情感标签（positive 或 negative）。

中文释义对应如下：

# 积极词 Positive  
喜欢
快乐 
舒服

# 消极词 Negative 
坏的
坏人 
坏的 
歪曲

2️⃣ 创建测试短句（test_sentences.txt）

例如：

ང་དགའ་པོ་ཡོད།
ཁོང་གི་སྐྱིད་པོ་མི་འདུག
དེ་ག་རང་ཡིན།

中文分别为：

我愛快乐。
他不高兴。
就这样。

💻 四、编写情感分析代码（sentiment_analyzer.py）

打开sentiment_analyzer.py，输入以下代码：

from pybo import WordTokenizer

# 步骤1：加载情感词典
def load_sentiment_dict(filepath):
    sentiment_dict = {}
    with open(filepath, "r", encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if line and not line.startswith("#"):
                word, sentiment = line.split()
                sentiment_dict[word] = sentiment
    return sentiment_dict

# 步骤2：分析句子情感
def analyze_sentiment(sentence, sentiment_dict, tokenizer):
    tokens = tokenizer.tokenize(sentence)
    print("调试：分词结果 =", [token.text for token in tokens])
    
    positive_count = 0
    negative_count = 0

    for token in tokens:
        sentiment = sentiment_dict.get(token.text, "neutral")
        if sentiment == "positive":
            positive_count += 1
        elif sentiment == "negative":
            negative_count += 1

    # 判断整体情感
    if positive_count > negative_count:
        return "积极 (positive)"
    elif negative_count > positive_count:
        return "消极 (negative)"
    else:
        return "中立 (neutral)"

# 主程序运行
if __name__ == "__main__":
    tokenizer = WordTokenizer()
    sentiment_dict = load_sentiment_dict("sentiment_dict.txt")

    # 读取测试句子
    with open("test_sentences.txt", "r", encoding="utf-8") as f:
        sentences = f.readlines()

    print("藏文情感分析结果：")
    for sentence in sentences:
        sentence = sentence.strip()
        sentiment_result = analyze_sentiment(sentence, sentiment_dict, tokenizer)
        print(f"句子：{sentence}")
        print(f"情感倾向：{sentiment_result}\n")

▶️ 五、运行程序，查看结果

在命令行中进入你的项目目录并运行：

python sentiment_analyzer.py

输出示例：

藏文情感分析结果：
调试：分词结果 = ['ང་', 'དགའ་པོ་', 'ཡོད', '།']
句子：ང་དགའ་པོ་ཡོད། #中文：我快乐。
情感倾向：积极 (positive)

调试：分词结果 = ['ཁོག་', 'དཀྲོལ་', 'གྱི་', 'ཡོད', '།']
句子：ཁོག་དཀྲོལ་གྱི་ཡོད། #中文：他不高兴。
情感倾向：消极 (negative)

调试：分词结果 = ['དེ་ག་', 'རང་', 'ཡིན', '།']
句子：དེ་ག་རང་ཡིན། #中文：就这样。
情感倾向：中立 (neutral)

🧠 原理讲解

情感分析步骤（完整流程）：

数据标注：
人工或半自动对文本数据进行标注情感类别（积极、消极、中立）。
文本特征提取：
对文本进行分词，提取词汇、语法或语义特征。
模型训练与评估：
- 传统机器学习模型（如SVM）：
  - 基于标注数据训练模型，预测情感类别。
- 深度学习模型（如BERT）：
  - 利用预训练模型微调，获得更精准预测能力。

本文采用词典方法，简单直观，适合零基础快速理解并掌握情感分析的概念。

📌 常见问题与解决办法

问题	原因	解决方法
未识别情感	情感词典覆盖不足	扩充情感词典，增加积极和消极词汇
中文乱码或文件读取错误	文件未用UTF-8编码保存	用记事本或其他编辑器重开并以UTF-8格式保存

🚀 拓展练习（推荐）：

尝试添加更多藏文句子到测试文件中，丰富你的情感分析结果。
扩展情感词典，增加词汇数量，提高准确性。
探索使用简单机器学习工具，如sklearn的SVM分类器进一步提升性能。

🎉 恭喜你！你已经完成了藏文情感分析器项目的基础实现。

未来可以进一步探索深度学习模型来提升精度，这个初级项目可以是深入学习人工智能的一个起点！

技术共进，成长同行——讯飞AI开发者社区

更多推荐

联发科 Dimensity 9500 芯片组深度分析报告 ——AI、能效与游戏性能的全面升级

讯飞AI开发者社区

读人形机器人21全球经济格局

1.7.1. 随着机器人接管常规任务，社会对技能的需求转向与自动化互补的技能，包括编程、维护、人工智能开发以及需要创造力、情感智能和复杂人际互动的工作。4.7.1. 为机器人技术和AI制定明确的规章制度，能够确保安全、增进信任，并促进其应用，包括产品安全、数据保护、有道德和负责任地使用AI等方面的标准。初创公司和老牌公司都在投资开发医疗机器人，以提升医疗服务的可及性和质量。2.1.2. 随着对机器