适用场景

准备考人工智能训练师的小伙伴们,职业技能提升可以申请补贴哟,提升的同时获取一点收益,双赢~~,第一篇大致介绍一下这个证书的考试。考试主要分为理论和实操2门,闭卷考试,理论90分钟190题(判断、单选和多选),题库里占140题,实操120分钟6大题,实操在Jupyter工具上进行。2门连着考。

今日份学习

1、今日刷了50道理论题,较为基础。
2、 今日份实操知识点——pandas+numpy

# 导入2个核心库
import pandas as pd
import numpy as np
#  读取指定数据文件,考试常见类型就是csv
data = pd.read_csv('sensor_data.csv')
# 使⽤numpy的where函数创建新列'RiskLevel'
# 如果'A'⼤于7天,标记为"⾼"
# 否则标记为"低"
data['RiskLevel'] = np.where(data['A'] > 7, '高', '低')
# 计算不同⻛险等级的患者数量
# value_counts()返回各分类的计数
risk_counts = data['RiskLevel'].value_counts()
# 统计高和低的占比
hight_risk_pro = risk_counts/len(data)
low_risk_pro = risk_counts/len(data)
# BIM区间
bmi_bins = [0, 18.5, 24, 28, np.inf]
bmi_labels = ['偏瘦', '正常', '超重', '肥胖']
# 使⽤pd.cut将BMI值划分到指定区间
# bins参数指定区间边界
# labels参数指定区间标签
# right=False表⽰使⽤左闭右开区间
data['BMIRange'] = pd.cut(data['BMI'], bins=bmi_bins, labels=bmi_labels, right=False)
# 按BMI区间分组
# 计算每个区间内⾼风险患者的⽐例
# 使⽤lambda函数计算每个组中'⾼'的均值(⽐例)
bmi_risk_rate = data.groupby('BMIRange')['RiskLevel'].apply(lambda x: (x == '高').mean())

主要学习汇总

pandas的读取数据,其他学习扩展。
pandas提供多种函数用于读取不同格式的数据文件,以下为常用函数及说明:

read_csv()
  • 功能:读取CSV(逗号分隔值)文件
  • 常用参数
    • filepath_or_buffer:文件路径或URL
    • sep:分隔符,默认为’,’
    • header:指定列名所在行,默认为0(第一行)
    • index_col:指定索引列
    • dtype:指定列数据类型
    • na_values:指定缺失值标识符
import pandas as pd
df = pd.read_csv('data.csv', sep=',', header=0)
read_excel()
  • 功能:读取Excel文件
  • 常用参数
    • io:文件路径或ExcelFile对象
    • sheet_name:工作表名称或索引
    • header:列名所在行
    • usecols:指定读取的列范围
df = pd.read_excel('data.xlsx', sheet_name='Sheet1')
read_json()
  • 功能:读取JSON格式文件
  • 常用参数
    • path_or_buf:文件路径或JSON字符串
    • orient:JSON格式方向(如’records’、‘index’)
    • dtype:指定列数据类型
df = pd.read_json('data.json', orient='records')
read_sql()
  • 功能:从SQL数据库读取数据
  • 常用参数
    • sql:SQL查询语句
    • con:数据库连接对象
    • index_col:指定索引列
import sqlite3
conn = sqlite3.connect('database.db')
df = pd.read_sql('SELECT * FROM table', conn)
read_html()
  • 功能:从HTML页面读取表格数据
  • 常用参数
    • io:URL或HTML字符串
    • match:匹配表格的正则表达式
    • header:列名所在行
dfs = pd.read_html('https://example.com/tables.html')
通用参数说明

大多数读取函数支持以下通用参数:

  • encoding:指定文件编码(如’utf-8’)
  • skiprows:跳过指定行数
  • nrows:限制读取行数
  • parse_dates:自动解析日期列
  • chunksize:分块读取大数据文件
pandas的value_counts函数

value_counts()是pandas中用于统计Series或DataFrame中每个唯一值出现次数的函数。它返回一个新的Series,索引是唯一值,值是对应的计数。
主要参数
normalize: 如果设为True,返回的是比例而非计数
sort: 是否按值排序,默认为True
ascending: 排序方式,False为降序(默认),True为升序
bins: 对于数值数据,可以指定分箱数量
dropna: 是否排除NA/null值,默认为True

# 获取出现次数最多的前n项
top_n = data.value_counts().head(n)
 
pandas的cut函数

pandas.cut() 用于将连续数据分箱(离散化),将数值划分到不同的区间中。适用于统计分析、数据分组或可视化场景。

pandas cut函数概述

pandas.cut() 用于将连续数据分箱(离散化),将数值划分到不同的区间中。适用于统计分析、数据分组或可视化场景。

参数说明

  • x: 待分箱的一维数组或 Series。
  • bins:
    • 整数:将数据分成指定数量的等宽区间。
    • 序列:自定义区间边界(如 [0, 5, 10] 表示 (0,5](5,10])。
  • right: 是否包含右边界(默认为 True,即区间为左开右闭)。
  • labels: 为每个区间指定标签(长度需与 bins 匹配)。
  • retbins: 是否返回分箱边界(默认为 False)。
  • precision: 分箱边界的显示精度。
  • include_lowest: 是否包含最小值(当 right=True 时需显式设置)。
  • duplicates: 处理重复边界的方式('raise' 报错或 'drop' 去重)。
numpy.where函数的基本用法

numpy.where函数根据条件返回数组中满足条件的元素的索引或新值。其基本语法如下:

numpy.where(condition[, x, y])
 

condition是布尔数组或条件表达式,x和y是可选参数,分别表示满足条件和不满足条件时返回的值。如果只提供condition,函数返回满足条件的元素的索引。

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐