2025年国赛如期开赛,C题作为本次本科组最简单、门槛最低的题目,初步预估选题人数可能超过总人数的50%,即比A B两个题目人数之和还要多。因此,本文将详细的为大家带来C题的解题思路,以便大家能够在C题目中脱颖而出。

注:每个赛区省奖各赛题获奖率一致,不存在选题人数多获奖率比AB要低的情况。

对于后续解题首先需要进行的为数据预处理,包含数据清晰异常值、缺失值处理,数据转码等操作。

异常值处理-题目存在大量不合理的数据,

l19岁女性生育,不符合民法典要求,根据我国《民法典》第一千零四十七条规定,女性的法定结婚年龄为二十周岁。

l体重存在极端异常的边缘数据

l身高存在极端矮的边缘数据

缺失数据-存在不少数据的确实-部分数据可以补足、部分数据可直接删除(独立样本可直接删除) 

l八个末次月经指标数据不存在可直接删除

l序号187编号B044的BMI丢失 但是可直接计算

数据转码-存在汉字 或 符号数据 方便后续建立数学模型

l检测孕周(周数+天数),但是后续解题不需要天数,可直接删除处理

l胎儿是否健康,是否可以转化为0 1

指标

男胎检测数据

女胎检测数据

序号

整数型;不连续,存在跳号(如 4→11);正整数递增

整数型;唯一标识,递增但有跳号(如 4→7

孕妇代码

字符串,格式 “A***”(如A001),唯一孕妇;部分孕妇多次检测

字符串,格式 “B***”(如B001),唯一孕妇;部分孕妇多次检测

年龄

23–43岁,主25–35

21–44 岁,主25–35,均值≈30

身高

144.0–175.0 cm,主155–169 cm,含小数(158.5

150.0–170.0 cm,主155–165 cm,标准差小

体重

70–110 kg;随孕周增加(如A042106→110

66–106 kg;随孕周小幅波动(如B00182→86

末次月经

日期型“YYYY-MM-DD HH:MM:SS”2022-11-18 2023-12-04

日期型;部分缺失(如 B034);覆盖2022–2024

IVF 妊娠

自然受孕IUI(人工授精)IVF(试管婴儿)

自然受孕IVF(试管婴儿)

检测日期

整数“YYYYMMDD”,与孕周逻辑一致;同孕妇递增

整数“YYYYMMDD”,范围20230413–20240708;同孕妇递增

检测抽血

1–4 次;以次和次常见

1–4 次;以2–3 次常见

检测孕周

11w–26w;格式“Xw”“Xw+Y”;随检测次数增大

12w+2–28w+1;格式“Xw+Y”;集中在14w–24w

BMI

27.6398–38.5141,整体偏高,多数≥28;部分肥胖

28.76–38.93,肥胖比例更高

原始读段

2,851,305–6,627,481;波动大;最大A039

3,418,274–7,846,336;分散,均值约500 

比对比例

0.7426–0.8126;集中0.79–0.81;最低A041

0.7540–0.8100;集中0.79–0.81;稳定

重复比例

0.0265–0.0378;多0.028–0.035;最高A009

0.0248–0.0372;均值≈0.028;波动小

唯一比对数

2,123,333–5,118,164;与原始读段数正相关;最大A039

2,605,288–5,909,199;与原始读段数正相关

GC 含量

0.3933–0.4105;主0.399–0.405;最高A022

0.3938–0.4074;主0.398–0.403

Z13

-2.6154–3.5739;极端值A010=3.5739;部分异常

-2.5978–2.8516;偏离0(如B018=2.8516

18

-2.5951–6.0763A010 最大6.0763,与T18 对应

-2.3126–4.3884;高值(B013=4.3884)提示异常

21

-2.1660–2.9018A026=2.9018T21

-1.7309–2.2792;部分与AB 对应(B007=2.2792

ZX染色体

-3.1788–2.5033;波动大;极端A010=-3.1788

-1.9948–3.5709;绝对值较小,近似正态

Y染色体

-3.2213–4.5094A042=4.5094;多接近0

(女胎空白)

浓度

-0.0037–0.1646;多为正,A005 最高0.1646

(女胎空白)

浓度

-0.0037–0.1526A009 最高0.1526

-0.0465–0.0278;均值≈0,波动小

GC含量13 

0.3715–0.3877;主0.377–0.382A010=0.3877

0.3716–0.3872;稳定,SD<0.005

GC 含量 18 号

0.3848–0.4006;主0.389–0.394A010=0.3992

0.3836–0.3989;分布集中

GC 含量21 

0.3917–0.4098;主0.397–0.403A041=0.4099

0.3903–0.4094;常染色体中最高

被过滤比例

0.0160–0.0298;多0.020–0.025A032=0.0298

0.0191–0.0362;均值≈0.024

非整倍体 AB

空值/T13/T18/T21/T13T18/T13T18T21;空值最多;

空值最多;异常含 T13/T18/T21/T13T18

怀孕次数

“1”“2”“≥3”;以“1” “≥3” 为主;“≥3”≈40%

全部为 1

生产次数

10≈70%1≈30%

全部为 0

是否健康

多为;仅A017 两次为,且AB 为空

全部为,无异常结局

问题1:Y染色体浓度与孕妇指标关系模型

问题1 试分析胎儿 Y 染色体浓度与孕妇的孕周数和 BMI 等指标的相关特性,给出相应的关系模型,并检验其显著性。

判断指标类型、数据分布方式选择不同的方式进行模型选择。进行初步相关性分析后,需要建立必要的函数关系,例如

图片

问题2:BMI分组与最佳NIPT时点优化

问题2 临床证明,男胎孕妇的BMI 是影响胎儿Y染色体浓度的最早达标时间(即浓度达到或超过 4%的最早时间)的主要因素。试对男胎孕妇的BMI进行合理分组,给出每组的BMI 区间和最佳NIPT时点,使得孕妇可能的潜在风险最小,并分析检测误差对结果的影响

问题二本质为分组+优化,分组为无标签分组、可以尝试K-means、层次次聚类。或者基于密度的聚类DBSCAN算法、高斯混合模型(GMM)。

优化模型-三要素决策变量、目标函数、约束条件。

风险函数建立

定义第
 组孕妇在第
 周检测的总风险函数:

图片

问题3:多因素综合考虑的优化模型

问题3 男胎 Y 染色体浓度达标时间受多种因素(身高、体重、年龄等)的影响,试综合考虑这些因素、检测误差和胎儿的 Y 染色体浓度达标比例(即浓度达到或超过 4%的比例),根据男胎孕妇的BMI, 给出合理分组以及每组的最佳NIPT 时点,使得孕妇潜在风险最小,并分析检测误差对结果的影响。

Cox比例风险模型

建立达标时间的生存分析模型:

问题4:女胎异常判定方法

问题4 由于孕妇和女胎都不携带 Y 染色体,重要的是如何判定女胎是否异常。试以女胎孕妇的 21 号、18 号和 13 号染色体非整倍体(AB 列)为判定结果,综合考虑 X 染色体及上述染色体的 Z 值、GC 含量、读段数及相关比例、BMI 等因素,给出女胎异常的判定方法。

多分类逻辑回归模型

对于三种异常类型(13、18、21号染色体异常),建立多项逻辑回归:

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐