🎯 项目目标:

  • 输入一段藏文短句。
  • 自动分析这句话的情感倾向:积极(正面)/消极(负面)/中立。

🔍 技术原理简介

情感分析是什么?

情感分析(Sentiment Analysis)是自然语言处理的一个重要应用,目的是自动识别和提取文本中的情感倾向。

常用的情感分析方法:

  • 基于规则的方法
    使用情感词典,对句子进行简单判断(适合初学)。

  • 基于传统机器学习的方法
    使用分类算法,如支持向量机(SVM),通过特征工程进行分类。

  • 基于深度学习的方法
    使用神经网络模型(如BERT、LSTM),自动学习文本的深层次语义,准确度更高。

我们本次项目使用简单易上手的规则词典方法进行演示,适合初学者理解和操作。


🛠️ 一、项目环境准备

1️⃣ Python安装(已安装可跳过)

  • 推荐安装Python 3.8以上版本。

2️⃣ 安装所需库

在命令行输入:

pip install pybo

📂 二、创建项目文件结构

创建项目文件夹sentiment_analysis,并准备以下文件:

sentiment_analysis/
│
├── sentiment_analyzer.py
├── sentiment_dict.txt
└── test_sentences.txt

📝 三、准备数据与情感词典

1️⃣ 创建藏文情感词典(sentiment_dict.txt)

藏文情感词典示例如下:

# 积极词 Positive(每行:词 空格 正面)
དགའ་པོ་ positive
སྐྱིད་པོ་ positive
བདེ་པོ་ positive

# 消极词 Negative(每行:词 空格 负面)
ཁོག་ negative
དཀྲོལ་ negative
སྡུག་པོ་ negative
ངན་པ་ negative

说明

  • 文件用UTF-8格式保存。
  • 每行一个藏文词汇,后面跟情感标签(positive 或 negative)。

中文释义对应如下:

# 积极词 Positive  
喜欢
快乐 
舒服

# 消极词 Negative 
坏的
坏人 
坏的 
歪曲

2️⃣ 创建测试短句(test_sentences.txt)

例如:

ང་དགའ་པོ་ཡོད།
ཁོང་གི་སྐྱིད་པོ་མི་འདུག
དེ་ག་རང་ཡིན།

中文分别为:

我愛快乐。
他不高兴。
就这样。

💻 四、编写情感分析代码(sentiment_analyzer.py)

打开sentiment_analyzer.py,输入以下代码:

from pybo import WordTokenizer

# 步骤1:加载情感词典
def load_sentiment_dict(filepath):
    sentiment_dict = {}
    with open(filepath, "r", encoding="utf-8") as f:
        for line in f:
            line = line.strip()
            if line and not line.startswith("#"):
                word, sentiment = line.split()
                sentiment_dict[word] = sentiment
    return sentiment_dict

# 步骤2:分析句子情感
def analyze_sentiment(sentence, sentiment_dict, tokenizer):
    tokens = tokenizer.tokenize(sentence)
    print("调试:分词结果 =", [token.text for token in tokens])
    
    positive_count = 0
    negative_count = 0

    for token in tokens:
        sentiment = sentiment_dict.get(token.text, "neutral")
        if sentiment == "positive":
            positive_count += 1
        elif sentiment == "negative":
            negative_count += 1

    # 判断整体情感
    if positive_count > negative_count:
        return "积极 (positive)"
    elif negative_count > positive_count:
        return "消极 (negative)"
    else:
        return "中立 (neutral)"

# 主程序运行
if __name__ == "__main__":
    tokenizer = WordTokenizer()
    sentiment_dict = load_sentiment_dict("sentiment_dict.txt")

    # 读取测试句子
    with open("test_sentences.txt", "r", encoding="utf-8") as f:
        sentences = f.readlines()

    print("藏文情感分析结果:")
    for sentence in sentences:
        sentence = sentence.strip()
        sentiment_result = analyze_sentiment(sentence, sentiment_dict, tokenizer)
        print(f"句子:{sentence}")
        print(f"情感倾向:{sentiment_result}\n")

▶️ 五、运行程序,查看结果

在命令行中进入你的项目目录并运行:

python sentiment_analyzer.py

输出示例:

藏文情感分析结果:
调试:分词结果 = ['ང་', 'དགའ་པོ་', 'ཡོད', '།']
句子:ང་དགའ་པོ་ཡོད། #中文:我快乐。
情感倾向:积极 (positive)

调试:分词结果 = ['ཁོག་', 'དཀྲོལ་', 'གྱི་', 'ཡོད', '།']
句子:ཁོག་དཀྲོལ་གྱི་ཡོད། #中文:他不高兴。
情感倾向:消极 (negative)

调试:分词结果 = ['དེ་ག་', 'རང་', 'ཡིན', '།']
句子:དེ་ག་རང་ཡིན། #中文:就这样。
情感倾向:中立 (neutral)

🧠 原理讲解

情感分析步骤(完整流程):

  1. 数据标注
    人工或半自动对文本数据进行标注情感类别(积极、消极、中立)。

  2. 文本特征提取
    对文本进行分词,提取词汇、语法或语义特征。

  3. 模型训练与评估

    • 传统机器学习模型(如SVM):
      • 基于标注数据训练模型,预测情感类别。
    • 深度学习模型(如BERT):
      • 利用预训练模型微调,获得更精准预测能力。

本文采用词典方法,简单直观,适合零基础快速理解并掌握情感分析的概念。


📌 常见问题与解决办法

问题 原因 解决方法
未识别情感 情感词典覆盖不足 扩充情感词典,增加积极和消极词汇
中文乱码或文件读取错误 文件未用UTF-8编码保存 用记事本或其他编辑器重开并以UTF-8格式保存

🚀 拓展练习(推荐):

  • 尝试添加更多藏文句子到测试文件中,丰富你的情感分析结果。
  • 扩展情感词典,增加词汇数量,提高准确性。
  • 探索使用简单机器学习工具,如sklearn的SVM分类器进一步提升性能。

🎉 恭喜你!你已经完成了藏文情感分析器项目的基础实现。

未来可以进一步探索深度学习模型来提升精度,这个初级项目可以是深入学习人工智能的一个起点!

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐