【模型训练时的问题】特征不能是string的类型

在使用fit()函数之前，我们需要对数据集进行编码，这里可以使用两种方法：LabelEncoder ：将字符串转换为增量值OneHotEncoder：使用One-of-K算法将字符串转换为整数。

王摇摆

163人浏览 · 2023-10-20 14:46:25

王摇摆 · 2023-10-20 14:46:25 发布

在使用fit()函数之前，我们需要对数据集进行编码，这里可以使用两种方法：

LabelEncoder ：将字符串转换为增量值
OneHotEncoder：使用One-of-K算法将字符串转换为整数

为了对string类型的数据序列化，需要先生成pandas数据，这样方便我们的序列化工作。这里我使用的方法是，原始数据->字典->pandas数据

决策树模型的可视化

# -*- coding: UTF-8 -*-
import pandas as pd
import pydotplus
from sklearn import tree
# from sklearn.externals.six import StringIO
from six import StringIO
from sklearn.preprocessing import LabelEncoder

if __name__ == '__main__':
    with open('lenses.txt', 'r') as fr:  # 加载文件
        lenses = [inst.strip().split('\t') for inst in fr.readlines()]  # 处理文件
    lenses_target = []  # 提取每组数据的类别，保存在列表里
    for each in lenses:
        lenses_target.append(each[-1])
    # print(lenses_target) 这里输出的是类别标签

    lensesLabels = ['age', 'prescript', 'astigmatic', 'tearRate']  # 特征标签
    lenses_list = []  # 保存lenses数据的临时列表
    lenses_dict = {}  # 保存lenses数据的字典，用于生成pandas
    for each_label in lensesLabels:  # 提取信息，生成字典
        for each in lenses:
            lenses_list.append(each[lensesLabels.index(each_label)])
        lenses_dict[each_label] = lenses_list
        lenses_list = []
    # print(lenses_dict)														#打印字典信息
    lenses_pd = pd.DataFrame(lenses_dict)  # 生成pandas.DataFrame
    # print(lenses_pd)														#打印pandas.DataFrame
    le = LabelEncoder()  # 创建LabelEncoder()对象，用于序列化
    for col in lenses_pd.columns:  # 序列化
        lenses_pd[col] = le.fit_transform(lenses_pd[col])
    # print(lenses_pd)														#打印编码信息

    clf = tree.DecisionTreeClassifier(max_depth=4)  # 创建DecisionTreeClassifier()类
    clf = clf.fit(lenses_pd.values.tolist(), lenses_target)  # 使用数据，构建决策树

    '''
    绘制决策树用的代码
    '''
    # dot_data = StringIO()
    # tree.export_graphviz(clf, out_file=dot_data,  # 绘制决策树
    #                      feature_names=lenses_pd.keys(),
    #                      class_names=clf.classes_,
    #                      filled=True, rounded=True,
    #                      special_characters=True)
    # graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
    # graph.write_pdf("tree.pdf")  # 保存绘制好的决策树，以PDF的形式存储。
    # print('决策树已保存为PDF文件')

    print(clf.predict([[1, 1, 1, 100]]))  # 预测
    print('决策树预测完成')

技术共进，成长同行——讯飞AI开发者社区

更多推荐

大数据标注平台选型指南：功能对比与推荐

本指南的目的是帮助企业、科研机构以及个人开发者在众多大数据标注平台中做出明智的选择。随着人工智能技术的广泛应用，对高质量标注数据的需求急剧增加，而选择一个合适的标注平台能够显著提高标注效率和标注质量。本指南将涵盖常见大数据标注平台的主要功能，包括图像标注、文本标注、语音标注等多种类型，对不同平台在这些功能上的表现进行对比分析，并给出推荐建议。本文将首先介绍大数据标注平台的核心概念和相关联系，然后深

讯飞AI开发者社区

**发散创新：探索编程语言中的创新实践之路**随着技术的飞速发展，编程语言日新月异，创新成为了推动技术

随着技术的不断发展，编程语言的创新将带来更多可能性，为开发者提供更多施展才华的空间。本文简要介绍了编程语言的演变与创新、主流编程语言及其特点、如何在编程中发散创新、创新实践案例以及面临的挑战与机遇。本文将带领大家走进编程语言的创新世界，探讨如何在实际开发中发散创新，实现技术的突破与飞跃。从最初的机器语言到如今的面向对象、函数式编程等，编程语言的演变见证了计算机技术的飞速发展。随着云计算、物联网、人