大数据领域特征工程与人工智能的协同发展
特征(Feature)是数据中能够反映问题本质的属性或模式。对于“判断邮件是否是垃圾邮件”,特征可以是“邮件中包含‘中奖’的次数”“发件人是否在通讯录中”;对于“预测房价”,特征可以是“房屋面积”“距离地铁的距离”“学区等级”;对于“工业故障预测”,特征可以是“振动频率的方差”“温度的连续上升时间”。简单来说,特征是数据的“翻译官”——把原始数据(比如传感器的原始电压值、用户的点击日志)翻译成AI
大数据领域特征工程与人工智能的协同发展:从“数据原料”到“智能产品”的桥梁搭建
一、引言:为什么你的AI模型总在“差一口气”?
你有没有过这样的经历?
为了做一个工业设备故障预测模型,你收集了10万条传感器数据(温度、振动、压力),用了当下最火的Transformer模型,调参调了整整一周,结果准确率还是卡在85%不上不下——而经验丰富的工程师仅凭“振动频率超过100Hz且温度连续30分钟上升”的规则,就能精准定位故障。
为了做一个电商用户复购预测,你把用户的浏览、购买、收藏记录一股脑喂给了GBDT模型,结果模型对“每月逛3次美妆区但从未下单”的用户预测准确率极低——而运营同学只用“最近30天浏览美妆页时长≥1小时”的特征,就能精准推送优惠券。
这时候你可能会疑惑:为什么最先进的AI模型,干不过“老司机”的经验总结?
答案藏在一个被很多人忽视的环节里——特征工程。
如果把AI模型比作“厨师”,那么数据就是“原材料”,特征工程就是“洗菜、切菜、调味”的过程。再厉害的厨师,拿到烂掉的青菜、没切的土豆,也做不出好菜;同样,再强大的AI模型,喂给它杂乱无章、无关紧要的数据,也学不会真正的“智能”。
而在大数据时代,特征工程与AI的关系早已不是“先后顺序”,而是“协同共生”:AI需要特征工程提供“高质量食材”,特征工程需要AI突破“人工经验的边界”。
这篇文章,我们就来拆解这个“协同共生”的逻辑——从基础概念到实战案例,从工具选型到未来趋势,帮你搞懂:
- 特征工程到底是做什么的?
- AI如何让特征工程“自动化、智能化”?
- 特征工程又如何让AI模型“更精准、更高效”?
- 两者协同的最佳实践是什么?
二、基础知识:先搞懂“特征工程”和“AI”的底层逻辑
在聊协同之前,我们需要先明确两个核心概念——什么是特征工程? AI在其中扮演什么角色?
1. 特征工程:从“数据”到“可被AI理解的信号”
(1)什么是“特征”?
特征(Feature)是数据中能够反映问题本质的属性或模式。比如:
- 对于“判断邮件是否是垃圾邮件”,特征可以是“邮件中包含‘中奖’的次数”“发件人是否在通讯录中”;
- 对于“预测房价”,特征可以是“房屋面积”“距离地铁的距离”“学区等级”;
- 对于“工业故障预测”,特征可以是“振动频率的方差”“温度的连续上升时间”。
简单来说,特征是数据的“翻译官”——把原始数据(比如传感器的原始电压值、用户的点击日志)翻译成AI模型能“听懂”的语言(比如“连续30分钟温度上升”)。
(2)特征工程的核心步骤
特征工程不是“拍脑袋加几个字段”,而是一套系统的流程,通常包括5步:
- 数据采集:收集原始数据(结构化:数据库表;非结构化:文本、图像、音频);
- 数据预处理:清洗“脏数据”(缺失值填充、异常值删除)、统一格式(比如把“2023/10/1”转成“2023-10-01”)、编码(比如把“性别”转成0/1);
- 特征提取:从原始数据中提取有意义的信息(比如从用户点击日志中提取“最近7天的点击次数”);
- 特征选择:去掉无关或冗余的特征(比如“用户的身份证号”对预测复购没用,就删掉);
- 特征构建:创造新的特征(比如把“浏览次数”和“停留时长”相乘得到“用户关注度”)。
关键结论:特征工程的目标,是用最少的特征,保留最多的“有效信息”——既不让模型“饿肚子”(信息不足),也不让模型“吃撑”(冗余信息导致过拟合)。
2. AI与特征工程的“原生关系”
AI(尤其是机器学习/深度学习)的核心逻辑是从数据中学习模式,而模式的载体就是“特征”。两者的关系可以用一句话概括:
AI模型的能力边界,取决于特征工程的质量;特征工程的效率边界,取决于AI的自动化能力。
举个例子:
- 传统的“人工特征工程”依赖工程师的领域经验(比如工业故障预测需要懂设备原理),效率低、覆盖范围有限;
- 而AI(比如深度学习中的CNN、Transformer)可以自动提取特征(比如从图像中提取“边缘”“纹理”,从文本中提取“语义向量”),突破了人工经验的限制;
- 但AI自动提取的特征往往“黑盒化”(比如CNN的卷积层输出的特征向量,工程师看不懂),需要结合人工特征(比如“设备的使用年限”)来提升可解释性和准确率。
三、核心内容:特征工程与AI的协同实践——从理论到案例
接下来,我们用三个真实场景,拆解特征工程与AI的协同逻辑:AI如何赋能特征工程?特征工程如何赋能AI?
场景1:AI自动化特征工程——解决“人工效率低”的痛点
(1)问题背景
在金融风控场景中,需要从用户的交易数据(比如最近30天的交易次数、金额、商户类型)中提取特征,预测“是否会逾期还款”。传统的人工特征工程需要:
- 工程师手动设计几百个特征(比如“最近7天的取现次数”“凌晨2点后的交易占比”);
- 逐一验证每个特征的相关性(用皮尔逊系数、卡方检验);
- 不断迭代(比如发现“周末交易占比”没用,就删掉)。
这个过程耗时耗力,而且容易遗漏“隐藏的有效特征”(比如“连续3天在不同城市交易”)。
(2)AI的解决方案:自动特征工程(Automated Feature Engineering)
自动特征工程是用AI算法自动生成、选择特征,核心工具包括:
- 特征生成:用统计方法(比如滑动窗口、聚合函数)或机器学习算法(比如决策树的分裂条件)生成新特征;
- 特征选择:用模型(比如XGBoost的特征重要性、L1正则化)自动筛选有效特征;
- 特征编码:用深度学习(比如Word2Vec、BERT)将非结构化数据(比如用户的短信内容)编码成向量特征。
(3)实战案例:用AutoFE工具做金融风控特征工程
我们以Python的Featuretools库为例,演示自动特征工程的过程:
步骤1:准备数据
假设有两个表:
users
(用户表):user_id
(用户ID)、age
(年龄)、income
(收入);transactions
(交易表):transaction_id
(交易ID)、user_id
(用户ID)、amount
(金额)、timestamp
(时间)、merchant_type
(商户类型)。
步骤2:用Featuretools生成自动特征
import featuretools as ft
# 1. 创建实体集(EntitySet):组织多个表的关系
es = ft.EntitySet(id="transactions")
es = es.add_dataframe(
dataframe_name="users",
dataframe=users,
index="user_id"
)
es = es.add_dataframe(
dataframe_name="transactions",
dataframe=transactions,
index="transaction_id",
time_index="timestamp"
)
# 2. 建立表之间的关系(用户→交易的一对多)
es = es.add_relationship(
parent_dataframe_name="users",
parent_column="user_id",
child_dataframe_name="transactions",
child_column="user_id"
)
# 3. 生成自动特征:用“深度特征合成(DFS)”算法
features, feature_defs = ft.dfs(
entityset=es,
target_dataframe_name="users", # 目标表是用户
agg_primitives=["count", "sum", "mean", "std"], # 聚合函数:统计交易次数、总金额、平均金额、标准差
trans_primitives=["month", "dayofweek"], # 转换函数:提取交易时间的月份、星期几
max_depth=2 # 特征的深度:比如“用户的交易的月份的 count”
)
# 查看生成的特征
print(features.columns)
输出结果(部分特征):
transactions.count
(用户的交易次数);transactions.sum(amount)
(用户的总交易金额);transactions.mean(amount)
(用户的平均交易金额);transactions.month.count
(用户每个月的交易次数);transactions.dayofweek.std
(用户交易星期几的标准差,反映交易时间的规律性)。
步骤3:用XGBoost选择特征
生成的特征可能有几百个,需要用模型筛选有效特征:
import xgboost as xgb
from sklearn.model_selection import train_test_split
# 1. 划分训练集和测试集
X = features.fillna(0) # 填充缺失值
y = users["is_default"] # 目标变量:是否逾期
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 2. 训练XGBoost模型
model = xgb.XGBClassifier()
model.fit(X_train, y_train)
# 3. 查看特征重要性
xgb.plot_importance(model, max_num_features=10)
结果:模型会自动选出“transactions.sum(amount)”(总交易金额)、“transactions.dayofweek.std”(交易时间规律性)等Top10特征,工程师只需要验证这些特征的合理性即可。
(4)协同价值
- 效率提升:原本需要1周的人工特征工程,现在只需1天;
- 覆盖更广:AI能发现人工遗漏的“隐藏特征”(比如“交易时间的标准差”);
- 可解释性:结合人工经验验证AI生成的特征,避免“黑盒特征”。
场景2:特征工程赋能AI——解决“模型效果差”的痛点
(1)问题背景
在工业设备故障预测场景中,原始数据是传感器的“每秒采样值”(比如温度:25.1℃、25.3℃、25.5℃……振动:0.1m/s²、0.2m/s²……)。如果直接把这些“原始时间序列数据”喂给Transformer模型,会出现两个问题:
- 数据维度太高:1台设备1天的采样值有86400条,100台设备就是8.64e6条,模型训练慢;
- 噪声太多:传感器的“毛刺数据”(比如突然跳到30℃又立刻降回来)会干扰模型学习。
(2)特征工程的解决方案:从“原始时间序列”到“有效特征”
针对时间序列数据,特征工程的核心是提取“趋势、周期性、突变”等模式,常见方法包括:
- 统计特征:计算窗口内的均值、方差、最大值、最小值(比如“最近10分钟的温度均值”);
- 时域特征:计算斜率(温度上升的速率)、连续上升时间(比如“温度连续上升≥30分钟”);
- 频域特征:用傅里叶变换将时间序列转换成频率域,提取“主要振动频率”(比如“振动频率集中在50Hz”)。
(3)实战案例:工业故障预测的特征工程+AI协同
我们以某风电设备的齿轮箱故障预测为例,演示流程:
步骤1:数据预处理
- 原始数据:齿轮箱的振动传感器数据(采样频率1kHz,即每秒1000个点);
- 预处理:用“滑动窗口”将1秒的1000个点聚合为1个“窗口特征”(比如窗口大小为100ms,即100个点,计算窗口内的均值、方差);
- 异常值处理:用“3σ原则”删除超出均值±3倍标准差的毛刺数据。
步骤2:特征提取
提取三类特征:
- 统计特征:窗口内的均值(mean)、方差(var)、峰值(peak)、峰值因子(peak factor,峰值/有效值);
- 时域特征:窗口内的斜率(slope,用线性回归计算)、连续上升时间(rising_time,比如温度连续上升的窗口数);
- 频域特征:用快速傅里叶变换(FFT)将窗口内的时间序列转换成频率域,提取前5个主要频率(dominant_freq_1到dominant_freq_5)。
步骤3:特征选择
用**互信息(Mutual Information)**筛选与“齿轮箱故障”相关性高的特征:
from sklearn.feature_selection import mutual_info_classif
import pandas as pd
# 假设X是提取后的特征,y是故障标签(0:正常,1:故障)
mi = mutual_info_classif(X, y)
mi_series = pd.Series(mi, index=X.columns)
mi_series = mi_series.sort_values(ascending=False)
# 选择Top20特征
selected_features = mi_series[:20].index
X_selected = X[selected_features]
步骤4:AI模型训练
用Transformer模型训练故障预测模型(Transformer擅长处理时间序列的长期依赖):
import tensorflow as tf
from tensorflow.keras.layers import Input, Dense, TransformerEncoder, TransformerEncoderLayer
from tensorflow.keras.models import Model
# 1. 数据准备:将特征序列转换成Transformer需要的形状(样本数,时间步长,特征数)
# 假设每个样本是“最近1小时的特征”,时间步长=60(每分钟1个窗口特征),特征数=20
X_train = tf.reshape(X_selected_train, (-1, 60, 20))
X_test = tf.reshape(X_selected_test, (-1, 60, 20))
# 2. 构建Transformer模型
inputs = Input(shape=(60, 20))
# Transformer编码器层:4层,每个头的维度=5(因为20=4×5)
encoder_layer = TransformerEncoderLayer(
d_model=20, # 特征数
nhead=4, # 多头注意力的头数
dim_feedforward=64, # 前馈网络的隐藏层维度
activation='relu'
)
encoder = TransformerEncoder(encoder_layer, num_layers=4)(inputs)
# 全局平均池化+全连接层
pooled = tf.keras.layers.GlobalAveragePooling1D()(encoder)
outputs = Dense(1, activation='sigmoid')(pooled)
model = Model(inputs=inputs, outputs=outputs)
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
# 3. 训练模型
history = model.fit(X_train, y_train, epochs=50, batch_size=32, validation_split=0.2)
步骤5:效果对比
- 直接用原始数据训练Transformer:准确率75%,训练时间12小时;
- 用特征工程后的特征训练Transformer:准确率92%,训练时间2小时。
(4)协同价值
- 降维增效:特征工程将高维原始数据转换成低维有效特征,模型训练更快;
- 去噪提准:过滤掉噪声数据,让模型专注于“故障相关的模式”;
- 可解释性:比如“峰值因子超过5”对应齿轮箱的“齿面磨损”,工程师可以根据特征定位故障原因。
场景3:实时特征工程+实时AI——解决“动态场景”的痛点
(1)问题背景
在实时推荐系统中,需要根据用户的“实时行为”(比如最近10分钟的浏览、点击、收藏)推荐商品。传统的“离线特征工程”(每天凌晨计算用户的“昨日浏览次数”)无法满足实时性要求——比如用户刚浏览了“笔记本电脑”,推荐系统需要立刻调整推荐列表,展示“笔记本配件”。
(2)协同解决方案:实时特征工程+实时AI模型
实时场景的核心是低延迟(特征计算延迟≤1秒,模型预测延迟≤100ms),需要以下组件协同:
- 实时数据采集:用Flink、Kafka采集用户的实时行为数据;
- 实时特征计算:用Flink SQL或Spark Streaming计算实时特征(比如“最近10分钟的浏览次数”“最近5次点击的商品品类”);
- 特征存储:用Redis、HBase存储实时特征(比如用户的“当前浏览 session”特征);
- 实时AI模型:用TensorFlow Serving、TorchServe部署模型,实时读取特征并预测。
(3)实战案例:电商实时推荐的特征工程+AI协同
我们以某电商平台的实时推荐为例,演示流程:
步骤1:实时数据采集
用Kafka采集用户的实时行为数据(比如“用户点击了商品A”“用户收藏了商品B”),每条数据的格式如下:
{
"user_id": "12345",
"item_id": "67890",
"behavior_type": "click", # 行为类型:click、collect、purchase
"timestamp": 1696000000 # 时间戳(秒)
}
步骤2:实时特征计算
用Flink SQL计算两个实时特征:
recent_10min_click_count
:用户最近10分钟的点击次数;recent_5_click_categories
:用户最近5次点击的商品品类(用逗号分隔)。
Flink SQL代码示例:
-- 1. 定义Kafka数据源
CREATE TABLE user_behavior (
user_id STRING,
item_id STRING,
behavior_type STRING,
timestamp BIGINT,
WATERMARK FOR timestamp AS timestamp - INTERVAL '5' SECOND -- 水印:处理乱序数据
) WITH (
'connector' = 'kafka',
'topic' = 'user_behavior',
'properties.bootstrap.servers' = 'kafka:9092',
'format' = 'json'
);
-- 2. 计算最近10分钟的点击次数
CREATE TABLE recent_10min_click_count (
user_id STRING,
click_count BIGINT,
window_end TIMESTAMP(3)
) WITH (
'connector' = 'redis', -- 存储到Redis
'redis-mode' = 'single',
'redis-host' = 'redis:6379',
'redis-password' = '',
'redis-key-prefix' = 'recent_10min_click_count:'
) AS
SELECT
user_id,
COUNT(*) AS click_count,
TUMBLE_END(timestamp, INTERVAL '10' MINUTE) AS window_end -- 滚动窗口:10分钟
FROM user_behavior
WHERE behavior_type = 'click'
GROUP BY TUMBLE(timestamp, INTERVAL '10' MINUTE), user_id;
-- 3. 计算最近5次点击的商品品类(需要关联商品表)
CREATE TABLE item_info (
item_id STRING,
category STRING
) WITH (
'connector' = 'jdbc',
'url' = 'jdbc:mysql://mysql:3306/ecommerce',
'table-name' = 'item_info',
'username' = 'root',
'password' = 'root'
);
CREATE TABLE recent_5_click_categories (
user_id STRING,
categories STRING,
window_end TIMESTAMP(3)
) WITH (
'connector' = 'redis',
'redis-mode' = 'single',
'redis-host' = 'redis:6379',
'redis-password' = '',
'redis-key-prefix' = 'recent_5_click_categories:'
) AS
SELECT
ub.user_id,
COLLECT_LIST(ii.category) OVER ( -- 收集最近5次点击的品类
PARTITION BY ub.user_id
ORDER BY ub.timestamp
ROWS BETWEEN 4 PRECEDING AND CURRENT ROW -- 最近5条(包括当前)
) AS categories,
ub.timestamp AS window_end
FROM user_behavior ub
JOIN item_info ii ON ub.item_id = ii.item_id
WHERE behavior_type = 'click';
步骤3:实时特征存储
将计算好的实时特征存储到Redis中,键的格式为:
recent_10min_click_count:12345
:用户12345的最近10分钟点击次数;recent_5_click_categories:12345
:用户12345的最近5次点击品类。
步骤4:实时AI模型预测
当用户访问推荐页面时,推荐系统做以下操作:
- 从Redis中读取用户的实时特征(
recent_10min_click_count
、recent_5_click_categories
); - 读取用户的离线特征(比如“历史购买品类偏好”“月消费金额”);
- 将实时特征和离线特征拼接,喂给实时AI模型(比如LightGBM或小尺寸Transformer);
- 模型返回“用户可能喜欢的商品列表”,推荐系统展示给用户。
(4)协同价值
- 实时性:特征计算和模型预测都在秒级完成,满足用户的“即时兴趣”;
- 精准性:结合实时特征(比如“最近10分钟的点击”)和离线特征(比如“历史偏好”),推荐更符合用户当前需求;
- 扩展性:Flink和Redis的组合支持高并发(比如每秒处理10万次用户请求)。
四、进阶探讨:特征工程与AI协同的最佳实践与挑战
1. 最佳实践:避免踩坑的“黄金法则”
(1)永远以“业务目标”为导向设计特征
- 比如做“用户复购预测”,特征要围绕“用户的购买意愿”(比如“最近30天的浏览时长”“收藏商品的数量”),而不是“用户的身高体重”(无关特征);
- 比如做“工业故障预测”,特征要围绕“设备的损耗模式”(比如“振动频率的变化”“温度的上升速率”),而不是“设备的出厂日期”(如果出厂日期和损耗无关)。
(2)结合“人工特征”和“AI自动特征”
- 人工特征的优势是可解释性强(比如“连续30分钟温度上升”对应“设备过载”);
- AI自动特征的优势是覆盖隐藏模式(比如“交易时间的标准差”对应“用户的消费规律性”);
- 最佳组合:用AI自动生成特征,用人工经验筛选和验证。
(3)警惕“特征泄露”(Feature Leakage)
特征泄露是指特征中包含了目标变量的未来信息,比如:
- 做“明日房价预测”,用了“明日的贷款利率”作为特征(贷款利率是明日才公布的,属于未来信息);
- 做“用户逾期预测”,用了“逾期后的催收记录”作为特征(催收记录是逾期后才产生的,属于未来信息)。
如何避免:
- 用“时间分割”验证集(比如用2023年1-6月的数据训练,用2023年7月的数据验证,确保训练集的时间早于验证集);
- 检查特征的生成逻辑(比如“最近7天的交易次数”是否用了未来的交易数据)。
(4)处理“高维稀疏特征”的技巧
在电商、广告场景中,特征往往是高维稀疏的(比如“用户点击过的商品ID”有10万种,每个用户只点击过其中几十种),处理技巧包括:
- 特征哈希(Feature Hashing):将高维特征映射到低维空间(比如用哈希函数将10万种商品ID映射到1000维);
- 嵌入(Embedding):用深度学习将高维稀疏特征转换成低维稠密向量(比如用Word2Vec将商品ID转换成128维向量);
- 分箱(Binning):将连续特征分成离散区间(比如将“收入”分成“低、中、高”三箱)。
2. 当前的挑战与未来趋势
(1)挑战1:实时特征工程的“低延迟”与“高并发”
随着实时场景(比如实时推荐、实时风控)的普及,实时特征工程需要解决:
- 低延迟:特征计算延迟≤1秒,否则无法满足用户的即时需求;
- 高并发:支持每秒10万次以上的特征查询,否则会导致系统崩溃;
- 一致性:保证特征计算的结果在分布式环境中一致(比如不同的Flink Task计算同一个用户的特征,结果要相同)。
(2)挑战2:非结构化数据的特征工程
非结构化数据(文本、图像、音频、视频)占比越来越大(据IDC统计,2025年全球非结构化数据占比将达到80%),但非结构化数据的特征工程难度更高:
- 文本:需要提取“语义情感”“关键词频率”等特征(用BERT、TF-IDF);
- 图像:需要提取“边缘”“纹理”“物体识别”等特征(用CNN、YOLO);
- 音频:需要提取“梅尔频谱”“基频”等特征(用Librosa)。
这些特征的提取需要大量的计算资源(比如GPU),而且结果的可解释性差。
(3)未来趋势1:大模型(LLM)与特征工程的融合
大模型(比如GPT-4、PaLM 2)具有强大的“上下文理解”和“模式识别”能力,未来将在特征工程中发挥更大作用:
- 自动特征描述:用大模型生成特征的自然语言描述(比如“transactions.dayofweek.std”对应的描述是“用户交易时间的规律性”);
- 跨模态特征融合:用大模型将文本、图像、音频的特征融合成统一的向量(比如将“商品描述文本”和“商品图片”的特征融合,提升推荐准确率);
- 特征工程自动化:用大模型自动生成特征工程的代码(比如用户输入“我要做金融风控的特征工程”,大模型输出Featuretools的代码)。
(4)未来趋势2:联邦特征工程(Federated Feature Engineering)
在隐私保护越来越严格的今天(比如GDPR、《个人信息保护法》),数据无法跨机构共享(比如银行和电商无法共享用户数据),联邦特征工程应运而生:
- 本地特征工程:每个机构在本地做特征工程(比如银行计算用户的“贷款逾期次数”,电商计算用户的“购买次数”);
- 联邦特征融合:用联邦学习技术将多个机构的特征融合(比如银行的“贷款逾期次数”和电商的“购买次数”融合成“用户信用评分”);
- 隐私保护:特征融合过程中不传输原始数据,只传输加密后的特征向量,保证用户隐私。
五、结论:协同才是“数据到智能”的关键
回到文章开头的问题:为什么最先进的AI模型干不过“老司机”的经验总结?
因为“老司机”的经验,本质上是人工特征工程的成果——他们把“设备的振动频率”“用户的浏览时长”这些原始数据,翻译成了“能反映问题本质的特征”。而AI模型的强大,需要建立在“高质量特征”的基础上。
特征工程与AI的协同,本质上是**“人的经验”与“机器的算力”的结合**:
- 人负责“定义问题、设计核心特征、验证特征合理性”;
- 机器负责“自动化生成特征、处理高维数据、实时计算特征”。
在大数据时代,没有“完美的AI模型”,也没有“完美的特征工程”——只有两者协同,才能把“数据原料”做成“智能产品”。
行动号召:从今天开始实践协同
- 尝试一个自动特征工程工具:用Featuretools、H2O AutoML或Amazon SageMaker Autopilot生成特征,对比人工特征的效果;
- 做一个实时特征工程 Demo:用Flink和Redis搭建一个简单的实时特征计算系统,体验低延迟的魅力;
- 结合大模型优化特征:用GPT-4生成特征的自然语言描述,或者用BERT处理文本特征,提升模型的可解释性。
如果你在实践中有任何问题,欢迎在评论区留言——我们一起探讨,一起进步!
延伸学习资源
- 《Feature Engineering for Machine Learning》(O’Reilly,特征工程经典书籍);
- Featuretools官方文档:https://featuretools.alteryx.com/;
- Flink实时特征工程教程:https://nightlies.apache.org/flink/flink-docs-stable/;
- 联邦学习与特征工程论文:《Federated Feature Engineering: A Survey》(2023)。
下次再见!
—— 一个热爱特征工程的技术博主
更多推荐
所有评论(0)