人工智能训练师高级-学习笔记(一)
人工智能训练师考试笔记
适用场景
准备考人工智能训练师的小伙伴们,职业技能提升可以申请补贴哟,提升的同时获取一点收益,双赢~~,第一篇大致介绍一下这个证书的考试。考试主要分为理论和实操2门,闭卷考试,理论90分钟190题(判断、单选和多选),题库里占140题,实操120分钟6大题,实操在Jupyter工具上进行。2门连着考。
今日份学习
1、今日刷了50道理论题,较为基础。
2、 今日份实操知识点——pandas+numpy
# 导入2个核心库
import pandas as pd
import numpy as np
# 读取指定数据文件,考试常见类型就是csv
data = pd.read_csv('sensor_data.csv')
# 使⽤numpy的where函数创建新列'RiskLevel'
# 如果'A'⼤于7天,标记为"⾼"
# 否则标记为"低"
data['RiskLevel'] = np.where(data['A'] > 7, '高', '低')
# 计算不同⻛险等级的患者数量
# value_counts()返回各分类的计数
risk_counts = data['RiskLevel'].value_counts()
# 统计高和低的占比
hight_risk_pro = risk_counts/len(data)
low_risk_pro = risk_counts/len(data)
# BIM区间
bmi_bins = [0, 18.5, 24, 28, np.inf]
bmi_labels = ['偏瘦', '正常', '超重', '肥胖']
# 使⽤pd.cut将BMI值划分到指定区间
# bins参数指定区间边界
# labels参数指定区间标签
# right=False表⽰使⽤左闭右开区间
data['BMIRange'] = pd.cut(data['BMI'], bins=bmi_bins, labels=bmi_labels, right=False)
# 按BMI区间分组
# 计算每个区间内⾼风险患者的⽐例
# 使⽤lambda函数计算每个组中'⾼'的均值(⽐例)
bmi_risk_rate = data.groupby('BMIRange')['RiskLevel'].apply(lambda x: (x == '高').mean())
主要学习汇总
pandas的读取数据,其他学习扩展。
pandas提供多种函数用于读取不同格式的数据文件,以下为常用函数及说明:
read_csv()
- 功能:读取CSV(逗号分隔值)文件
- 常用参数:
filepath_or_buffer
:文件路径或URLsep
:分隔符,默认为’,’header
:指定列名所在行,默认为0(第一行)index_col
:指定索引列dtype
:指定列数据类型na_values
:指定缺失值标识符
import pandas as pd
df = pd.read_csv('data.csv', sep=',', header=0)
read_excel()
- 功能:读取Excel文件
- 常用参数:
io
:文件路径或ExcelFile对象sheet_name
:工作表名称或索引header
:列名所在行usecols
:指定读取的列范围
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
read_json()
- 功能:读取JSON格式文件
- 常用参数:
path_or_buf
:文件路径或JSON字符串orient
:JSON格式方向(如’records’、‘index’)dtype
:指定列数据类型
df = pd.read_json('data.json', orient='records')
read_sql()
- 功能:从SQL数据库读取数据
- 常用参数:
sql
:SQL查询语句con
:数据库连接对象index_col
:指定索引列
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table', conn)
read_html()
- 功能:从HTML页面读取表格数据
- 常用参数:
io
:URL或HTML字符串match
:匹配表格的正则表达式header
:列名所在行
dfs = pd.read_html('https://example.com/tables.html')
通用参数说明
大多数读取函数支持以下通用参数:
encoding
:指定文件编码(如’utf-8’)skiprows
:跳过指定行数nrows
:限制读取行数parse_dates
:自动解析日期列chunksize
:分块读取大数据文件
pandas的value_counts函数
value_counts()是pandas中用于统计Series或DataFrame中每个唯一值出现次数的函数。它返回一个新的Series,索引是唯一值,值是对应的计数。
主要参数
normalize: 如果设为True,返回的是比例而非计数
sort: 是否按值排序,默认为True
ascending: 排序方式,False为降序(默认),True为升序
bins: 对于数值数据,可以指定分箱数量
dropna: 是否排除NA/null值,默认为True
# 获取出现次数最多的前n项
top_n = data.value_counts().head(n)
pandas的cut函数
pandas.cut() 用于将连续数据分箱(离散化),将数值划分到不同的区间中。适用于统计分析、数据分组或可视化场景。
pandas cut函数概述
pandas.cut()
用于将连续数据分箱(离散化),将数值划分到不同的区间中。适用于统计分析、数据分组或可视化场景。
参数说明
- x: 待分箱的一维数组或 Series。
- bins:
- 整数:将数据分成指定数量的等宽区间。
- 序列:自定义区间边界(如
[0, 5, 10]
表示(0,5]
和(5,10]
)。
- right: 是否包含右边界(默认为
True
,即区间为左开右闭)。 - labels: 为每个区间指定标签(长度需与
bins
匹配)。 - retbins: 是否返回分箱边界(默认为
False
)。 - precision: 分箱边界的显示精度。
- include_lowest: 是否包含最小值(当
right=True
时需显式设置)。 - duplicates: 处理重复边界的方式(
'raise'
报错或'drop'
去重)。
numpy.where函数的基本用法
numpy.where函数根据条件返回数组中满足条件的元素的索引或新值。其基本语法如下:
numpy.where(condition[, x, y])
condition是布尔数组或条件表达式,x和y是可选参数,分别表示满足条件和不满足条件时返回的值。如果只提供condition,函数返回满足条件的元素的索引。
更多推荐
所有评论(0)