人工智能训练师高级-学习笔记（一）

人工智能训练师考试笔记

baobei_3466

848人浏览 · 2025-09-28 23:32:44

baobei_3466 · 2025-09-28 23:32:44 发布

适用场景

准备考人工智能训练师的小伙伴们，职业技能提升可以申请补贴哟，提升的同时获取一点收益，双赢~~，第一篇大致介绍一下这个证书的考试。考试主要分为理论和实操2门，闭卷考试，理论90分钟190题（判断、单选和多选），题库里占140题，实操120分钟6大题，实操在Jupyter工具上进行。2门连着考。

今日份学习

1、今日刷了50道理论题，较为基础。
2、今日份实操知识点——pandas+numpy

# 导入2个核心库
import pandas as pd
import numpy as np
#  读取指定数据文件，考试常见类型就是csv
data = pd.read_csv('sensor_data.csv')
# 使⽤numpy的where函数创建新列'RiskLevel'
# 如果'A'⼤于7天，标记为"⾼"
# 否则标记为"低"
data['RiskLevel'] = np.where(data['A'] > 7, '高', '低')
# 计算不同⻛险等级的患者数量
# value_counts()返回各分类的计数
risk_counts = data['RiskLevel'].value_counts()
# 统计高和低的占比
hight_risk_pro = risk_counts/len(data)
low_risk_pro = risk_counts/len(data)
# BIM区间
bmi_bins = [0, 18.5, 24, 28, np.inf]
bmi_labels = ['偏瘦', '正常', '超重', '肥胖']
# 使⽤pd.cut将BMI值划分到指定区间
# bins参数指定区间边界
# labels参数指定区间标签
# right=False表⽰使⽤左闭右开区间
data['BMIRange'] = pd.cut(data['BMI'], bins=bmi_bins, labels=bmi_labels, right=False)
# 按BMI区间分组
# 计算每个区间内⾼风险患者的⽐例
# 使⽤lambda函数计算每个组中'⾼'的均值(⽐例)
bmi_risk_rate = data.groupby('BMIRange')['RiskLevel'].apply(lambda x: (x == '高').mean())

主要学习汇总

pandas的读取数据，其他学习扩展。
pandas提供多种函数用于读取不同格式的数据文件，以下为常用函数及说明：

read_csv()

功能：读取CSV（逗号分隔值）文件
常用参数：
- filepath_or_buffer：文件路径或URL
- sep：分隔符，默认为’,’
- header：指定列名所在行，默认为0（第一行）
- index_col：指定索引列
- dtype：指定列数据类型
- na_values：指定缺失值标识符

import pandas as pd
df = pd.read_csv('data.csv', sep=',', header=0)

read_excel()

功能：读取Excel文件
常用参数：
- io：文件路径或ExcelFile对象
- sheet_name：工作表名称或索引
- header：列名所在行
- usecols：指定读取的列范围

df = pd.read_excel('data.xlsx', sheet_name='Sheet1')

read_json()

功能：读取JSON格式文件
常用参数：
- path_or_buf：文件路径或JSON字符串
- orient：JSON格式方向（如’records’、‘index’）
- dtype：指定列数据类型

df = pd.read_json('data.json', orient='records')

read_sql()

功能：从SQL数据库读取数据
常用参数：
- sql：SQL查询语句
- con：数据库连接对象
- index_col：指定索引列

import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table', conn)

read_html()

功能：从HTML页面读取表格数据
常用参数：
- io：URL或HTML字符串
- match：匹配表格的正则表达式
- header：列名所在行

dfs = pd.read_html('https://example.com/tables.html')

通用参数说明

大多数读取函数支持以下通用参数：

encoding：指定文件编码（如’utf-8’）
skiprows：跳过指定行数
nrows：限制读取行数
parse_dates：自动解析日期列
chunksize：分块读取大数据文件

pandas的value_counts函数

value_counts()是pandas中用于统计Series或DataFrame中每个唯一值出现次数的函数。它返回一个新的Series，索引是唯一值，值是对应的计数。
主要参数
normalize: 如果设为True，返回的是比例而非计数
sort: 是否按值排序，默认为True
ascending: 排序方式，False为降序（默认），True为升序
bins: 对于数值数据，可以指定分箱数量
dropna: 是否排除NA/null值，默认为True

# 获取出现次数最多的前n项
top_n = data.value_counts().head(n)

pandas的cut函数

pandas.cut() 用于将连续数据分箱（离散化），将数值划分到不同的区间中。适用于统计分析、数据分组或可视化场景。

pandas cut函数概述

pandas.cut() 用于将连续数据分箱（离散化），将数值划分到不同的区间中。适用于统计分析、数据分组或可视化场景。

参数说明

x: 待分箱的一维数组或 Series。
bins:
- 整数：将数据分成指定数量的等宽区间。
- 序列：自定义区间边界（如 [0, 5, 10] 表示 (0,5] 和 (5,10]）。
right: 是否包含右边界（默认为 True，即区间为左开右闭）。
labels: 为每个区间指定标签（长度需与 bins 匹配）。
retbins: 是否返回分箱边界（默认为 False）。
precision: 分箱边界的显示精度。
include_lowest: 是否包含最小值（当 right=True 时需显式设置）。
duplicates: 处理重复边界的方式（'raise' 报错或 'drop' 去重）。

numpy.where函数的基本用法

numpy.where函数根据条件返回数组中满足条件的元素的索引或新值。其基本语法如下：

numpy.where(condition[, x, y])

condition是布尔数组或条件表达式，x和y是可选参数，分别表示满足条件和不满足条件时返回的值。如果只提供condition，函数返回满足条件的元素的索引。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

提示工程架构师实战手册：智能医疗远程诊断系统的提示词设计与性能调优

智能医疗远程诊断系统旨在通过AI技术打破地域限制，让偏远地区患者也能获得三甲医院级别的诊断支持。医疗数据的复杂性：病历文本、影像数据（CT/MRI）、波形数据（ECG/EEG）、实验室指标等多模态数据混杂，AI难以自动提取关键信息；临床推理的严谨性：医疗诊断需遵循"症状→鉴别诊断→证据验证→结论"的逻辑链，AI易因"跳跃式推理"导致误诊；伦理与安全风险：误诊可能危及生命，需确保AI结论可解释、可追

讯飞AI开发者社区

上位机知识篇---AI术语总结

讯飞AI开发者社区

编程乐趣无限深度趣味项目解锁编程新境界

编程作为现代科技的重要组成部分，已经渗透到我们生活的方方面面。不论你是在开发手机应用、网站，还是参与人工智能的创新，编程的乐趣和挑战都在不断吸引着全球无数的开发者和程序员。对于初学者来说，编程可能看起来充满了复杂的代码和逻辑，但通过有趣且富有挑战性的项目，编程的世界也变得更加有趣！??在这篇文章中，我们将探讨一些有趣且富有创意的编程项目，不仅能帮助你提高编程技能，还能带你一步步进入编程的深度世界，