通用智能体：面向数百万多风格公众号的轻量自适应风格化人工智能助手

WeStar：面向百万级公众号的轻量自适应风格化问答框架本文针对工业级公众号平台提出轻量自适应框架WeStar，解决现有方法在风格化语境问答任务中存在的延迟高、计算成本大和可扩展性差等问题。WeStar创新性地结合检索增强生成(RAG)和参数化检索增强生成(PRAG)，通过双渠道知识注入实现高效风格化生成。框架采用层次化风格聚类和风格增强型直接偏好优化(SeDPO)技术，在保证风格多样性的同时大

Paper易论

658人浏览 · 2025-09-26 06:51:28

Paper易论 · 2025-09-26 06:51:28 发布

在工业级公众号平台部署的对话智能体，生成的回复需同时满足语境贴合与风格匹配的要求，而现有方法难以实现这一目标。思维链（CoT）提示法因多轮推理会导致显著延迟；针对单个公众号的微调在计算上难以实现；基于长提示的方法则会降低模型对注入语境和风格的理解能力。本文提出轻量自适应框架 WeStar，用于风格化语境问答任务，可支持数百万公众号。WeStar 将基于检索增强生成（RAG）的语境贴合生成与基于参数化检索增强生成（PRAG）的风格感知生成相结合，其中低秩适应（LoRA）模块会根据风格簇动态激活。本文的贡献体现在四个方面：（1）提出 WeStar 这一统一框架，能以极低开销为大量公众号提供服务；（2）提出一种基于多维度簇的参数共享方案，在实现紧凑风格表示的同时保留风格多样性；（3）提出风格增强型直接偏好优化（SeDPO）方法，通过优化各风格簇的参数提升生成质量；（4）在大规模工业数据集上的实验验证了 WeStar 的有效性与高效性，凸显其在实际部署中的应用价值。

图 1：WeStar 框架总览

受大型语言模型在问答任务中卓越性能的启发，业界已将对话智能体应用于多个任务场景，如游戏人工智能、语音助手及公众号助手等。我们的工业级公众号平台是个人、媒体机构、企业、政府部门及其他组织的重要沟通渠道，这些主体可在平台生态内以文章形式传播信息。用户可通过留言与文章互动，作者通常会直接回复留言；此外，用户还可通过聊天界面向公众号智能助手提问，期望获得既贴合语境又符合风格的回复 —— 这类回复需基于作者已发表文章的内容，同时体现作者独特的沟通风格。

尽管文章包含丰富的事实性内容，但通常较为正式，无法体现作者的对话语气；相比之下，作者对用户留言的回复更能真实、细致地反映其在互动场景中的风格偏好。基于这一观察，我们将文章作为特定问题的知识来源，将作者过往的留言回复作为风格特定知识的基础，以解决 “风格化语境问答” 问题。

为解决该问题，现有方法大致可分为三类：基于微调的方法（直接在风格特定数据上对模型进行适配）、基于思维链的方法（通过多步提示分解并解决任务）以及基于提示的方法（将知识特定信息与风格特定信息注入单个提示）。然而，在工业级规模部署时，这些方法在可扩展性、效率或有效性方面均存在局限。

近年来，基于微调的方法在风格化文本生成领域展现出优异性能。一种广泛采用的策略是在定制化风格特定语料库上进行有监督微调（SFT），使大型语言模型（LLMs）通过更新模型参数调整输出分布。但在许多实际应用中，微调仍是一大瓶颈。例如，在公众号助手任务中，为确保风格一致性，需为每位作者单独微调并维护一个专属模型，这一过程需耗费大量时间与计算资源，严重限制了可扩展性。

基于思维链（CoT）的方法为减轻风格化文本生成的计算与部署负担提供了可行方向。一种直接方案是将风格化语境问答任务分解为两个连续子任务：（1）生成贴合语境的答案；（2）通过文本风格迁移模型将答案调整为目标风格。尽管概念简单，但这种两阶段流程存在实际局限 —— 两次调用大型语言模型不仅会增加计算开销，还会引入延迟，严重影响用户体验。

因此，基于提示的方法为风格化语境问答任务提供了更切实的解决方案。通过将检索到的特定问题文章与定制化风格特定语料库整合到端到端大型语言模型的输入中，系统可将外部风格知识与语义知识直接注入模型的语境窗口，实现无需参数更新的动态适配。然而，通过输入提示注入多源知识必然会增加语境长度。这种加长的输入不仅会在推理过程中增加计算开销与延迟，还会降低大型语言模型对注入信息的理解和利用能力，尤其在需要复杂推理的场景中。

为应对上述挑战，本文提出新颖框架 WeStar，用于构建轻量自适应、兼具风格感知与语境贴合能力的智能体，可支持数百万多风格公众号。在在线推理前，WeStar 首先对每个公众号作者语料库进行多风格维度的细粒度风格标注，将风格相似的作者归为一个簇，并为每个簇关联一组通过风格增强型直接偏好优化（SeDPO）训练的共享风格化模型参数。这种基于簇的参数共享机制既能实现风格知识的紧凑存储，又能支持面向数百万公众号作者的可扩展部署。

推理阶段，WeStar 将特定问题知识（即检索到的文章）注入输入提示，以丰富模型的领域理解并提升其问答能力；同时，不再单纯依赖基于提示的知识注入，而是借鉴 PRAG的思路采用参数注入方法，将风格特定知识直接嵌入模型参数。这种双渠道设计不仅能增强风格一致性，还能大幅缩短提示长度，从而避免语境溢出并提升推理效率。

为验证 WeStar 在实际工业场景中的有效性，我们在大规模公众号数据集上开展实验。结果显示，WeStar 在语境贴合度、问题相关性、风格强度与流畅度四个定制化评估维度上均达到最优性能，证明该框架在风格化语境生成任务中的实际应用价值。

本文的主要贡献如下：

提出 WeStar 框架，用于构建轻量自适应的风格化语境问答智能体，可支持数百万公众号；
提出基于多维度风格特定簇的参数共享方法，在实现参数紧凑存储的同时保留丰富的风格知识，为不同公众号作者提供可扩展部署方案；
采用风格增强型直接偏好优化（SeDPO）策略训练各风格簇的参数表示，提升模型的风格感知生成能力；
在大规模工业数据集上进行评估，通过四个关键指标验证所提方法的有效性，证明其在实际应用中的价值与效益。

文本风格迁移

文本风格迁移（TST）与本文研究任务不同但相关，其目标是在保留文本原始内容的前提下改变其风格属性。早期研究主要聚焦于基于规则和统计的方法；随着深度学习的兴起，基于神经网络的方法逐渐成为主流，尤其是利用内容 - 风格解耦或强化学习的无监督框架。近年来，有研究探索对比学习与模式挖掘在该领域的应用。大型语言模型也为文本风格迁移带来了新范式：Reif 等人与 Mukherjee 等人通过提示工程实现零样本与少样本风格迁移，展现出大型语言模型惊人的泛化能力；Ostheimer 等人进一步研究基于大型语言模型的评估方法，证明其评估结果与人类判断具有强相关性。

风格化答案生成

已有多项研究通过微调大型语言模型或采用风格控制解码策略实现风格化答案生成。为更好地将风格化生成与外部知识相结合，Sun 等人在知识驱动场景中引入解耦模板重写方法；此外，特征引导知识增强通过检索风格化句子指导内容规划，并利用对比学习提升流畅度与风格控制能力。

尽管取得这些进展，大多数现有研究仍基于小规模或合成风格语料库，限制了其在实际大规模场景中的应用。近年来已有研究开始关注可扩展性问题，但尚无任何研究能覆盖本文所涉及的部署场景规模与复杂性。

方法

给定用户提出的问题 Q、检索到的与 Q 相关的特定语境知识 C，以及代表目标回复风格的特定风格知识 S，本文的目标是生成兼具风格感知与语境贴合特性的答案 A，满足以下两点要求：

A 能准确回应用户在 Q 中表达的信息需求，且内容基于 C；
A 符合 S 所体现的风格特征。

为解决风格化语境问答面临的挑战，WeStar 采用双注入方法：将特定问题知识注入提示，将特定风格知识注入模型参数。本节首先介绍 WeStar 如何对风格相似的作者进行聚类，并为每个风格簇训练共享的特定风格参数；随后阐述 WeStar 的在线推理机制 —— 通过整合检索到的内容与相应的特定风格参数动态生成回复。

语境问答（CQA）构建

为构建高质量的训练用 CQA（语境、问题、答案）三元组，我们采用两种互补策略：

前瞻式方法
提示大型语言模型 M 根据给定文章片段生成问题与答案；
自下而上方法
提示 M 模拟真实用户角色，基于每个公众号的领域生成查询，再通过 M 进行语境检索与答案生成。

前瞻式方法具有高可扩展性，自下而上方法则能生成与领域相关、符合用户意图的查询，确保与真实问答流程更好地匹配。两种方法结合，可构建兼顾多样性、难度与语境贴合度的 CQA 数据集。完整的提示模板与示例详见附录。

风格标注

我们设计了 12 个风格分类标准，涵盖四个风格维度，具体如下：

语义层面
意图类型、权威性程度；
语法层面
省略特征、倒装用法、被动语态用法；
句法层面
句子复杂度、修辞特征、衔接机制；
词汇层面
词汇复杂度、情感极性、表情符号使用频率、正式程度。

对于每位公众号作者，我们利用大型语言模型 M，基于上述 12 个预定义分类标准，对其风格语料库进行细粒度标注。具体而言，对于语料库中的每个问答对，M 会为每个风格维度生成候选标签；随后，对作者语料库中所有问答对在各标准下的标签取多数值，得到聚合标签。这些聚合标签构成作者的风格档案，为后续构建风格树奠定基础。详细的提示模板详见附录。

风格树构建

完成风格标注后，我们构建层次化风格聚类树，将风格相似的作者归为同一簇。构建流程如算法 1 所示，通过按预设层次顺序遍历预定义风格标注标准集合 S 实现。对于当前树中的每个叶节点，若可通过某一标准 s∈S 对其关联的风格语料库进行划分，且划分后每个子集包含的样本数均超过 k，则将该节点扩展为多个子节点，每个子节点对应由 s 定义的一个独特风格子簇。算法结束后，最终生成的风格聚类树中每个叶节点代表原始语料库 c 的一个风格簇；从叶节点到根节点的路径则反映该簇的累积风格特征。

算法 1：风格树构建

输入：C—— 风格语料库集合；S—— 风格分类标准集合
输出：T—— 层次化风格树

初始化树 T，根节点包含所有语料库 C；
初始化队列 Q，将根节点加入 Q；
设置语料库规模阈值 k；
对于每个风格标准 s∈S：
　当 Q 不为空时：
　　取出 Q 队首节点 n，从 Q 中移除；
　　若节点 n 可通过 s 划分为子节点 {n₁, …, nₘ}，且每个子节点 nᵢ满足 | Cₙᵢ| > k，则：
　　　在 T 中将节点 n 扩展为子节点 {n₁, …, nₘ}；
　将 T 中所有新叶节点加入队列 Q；
返回 T

通过这种方式，风格特征相似的作者被归入同一簇。这种层次化结构不仅为特定风格参数训练提供了便利（支持同一簇内作者共享参数），降低训练成本与存储开销；还能让风格数据有限的作者借助风格相似作者的共享参数提升泛化能力，缓解数据稀缺问题。

风格化语境问答（CQSA）构建

近年来多项研究证明大型语言模型在文本风格迁移（TST）任务中具备强大能力。基于此，我们利用大型语言模型将标准 CQA 实例转换为符合各簇目标风格的 CQSA（语境、问题、风格化答案）实例。

对于从风格树得到的每个风格簇内的语料库，我们提示大型语言模型 M 在保留答案事实正确性的前提下，将原始答案重写为符合目标语料库风格的形式。提示包含以下要素：

原始 CQA 对中的输入语境与问题；
待重写的原始答案；
目标簇相关的全部 12 个风格分类标准及对应标签；
从同一簇中选取的 m 个语境示例，每个示例包含用户留言与相应作者回复。

为确保风格一致性，语境示例从同一簇内各作者的语料中随机均匀采样。详细提示内容详见附录。

数据筛选

受基于指标的强化学习人类反馈（RLHF）方法启发，我们在数据构建过程中引入基于指标的约束，使模型输出更符合目标风格预期，同时降低幻觉生成概率。参考现有研究，我们利用大型语言模型 M 从四个关键维度对每个 CQSA 实例进行自动评估：语境贴合度（C-A）、问题相关性（Q-A）、风格强度（S-A）与流畅度，具体评估方法详见附录（后续 “评估指标” 部分将进一步讨论这些指标）。我们对这四个维度的得分进行汇总，选取排名前 10,000 的 CQSA 实例作为高质量样本，用于后续特定风格参数训练。

风格增强型直接偏好优化（SeDPO）

此前，我们已为每个风格簇获取高质量 CQSA 实例，用于特定风格参数训练。本步骤采用风格增强型直接偏好优化（SeDPO）进行参数训练。具体而言，对于给定风格簇，将排名前 10,000 的 CQSA 实例作为 “优选样本”；通过检索与同一问题相关、风格相似度高（如风格树中的兄弟节点）但某一风格标签不同的答案，为每个优选样本构建对应的 “否决样本”。

这种构建方式符合控制变量实验原则：当否决样本与优选样本在语境和语义特征上高度相似时，模型会更专注于细粒度的风格差异，从而更有效地学习每个风格簇内的特定风格行为。

我们采用与 PRAG 相同的参数化与注入范式，将 LoRA 作为微调与参数存储策略。该设计使每个风格簇可关联一组独立训练的低秩适应参数，让模型能以参数高效的方式编码特定风格行为，无需训练或部署完整基础模型，即可实现对各类风格簇的可扩展、灵活部署。

在线推理

为每个风格簇训练好特定风格参数后，WeStar 在在线推理阶段应用这些参数，大规模生成兼具风格感知与语境贴合特性的回复。

WeStar 的推理过程通过在生成阶段联合注入特定问题知识与特定风格知识实现：将特定问题的文章片段插入输入提示，提供语境支撑；同时，通过 PRAG（参数化检索增强生成）方式检索与作者风格簇对应的特定风格 LoRA 参数，并将其注入模型参数空间。这种双注入策略使 WeStar 既能生成贴合语境且符合风格的回复，又能支持面向大量公众号作者的可扩展部署。

实验设置

数据集

据我们所知，目前尚无同时包含数百万作者的文章、用户查询与大规模风格化回复的公开数据集。因此，我们直接在广泛使用的实际工业级公众号平台专有数据上对所提方法进行评估。

我们在该平台部署 WeStar 框架，选取通过 “风格树构建” 部分所述方法构建的 10 个代表性风格簇开展评估。每个簇包含 2025 年 7 月前收集的真实用户留言及相应作者回复，作为风格化问答的风格参考；语境检索语料库包含同期作者发表的所有历史文章。

为进行评估，我们采用 “CQA 构建” 与 “CQSA 构建” 部分所述方法构建包含 2,000 个实例的测试集；为更好地模拟实际部署场景，进一步补充 3,000 个从实时互动中收集的用户生成信息查询问题。最终评估数据集包含 5,000 个查询，涵盖受控场景与真实场景下的用户意图。

评估指标

为确保一致性与可比性，我们采用 “数据筛选” 部分所述的四个评估指标衡量模型性能，这些指标已在现有研究中广泛应用，具体定义如下：

语境贴合度（C-A）
生成答案与检索到的语境在语义上的一致性程度；
问题相关性（Q-A）
答案对输入问题核心意图的准确回应程度；
风格强度（S-A）
答案对目标风格属性的符合程度；
流畅度
生成回复的语法正确性与自然度。

为实现一致且可扩展的评估，我们采用 DeepSeek-R1，通过标准化评估提示对每个输出在上述四个维度进行评分。具体提示模板详见附录。

基线模型

如引言部分所述，公众号平台等工业场景中的风格化语境问答需要端到端大型语言模型流程。由于延迟与系统复杂性问题，多步或连续提示方法无法满足需求；且目前尚无任何现有方法能支持面向数百万具有独特风格偏好的公众号作者的可扩展风格化语境问答。

为在这一挑战性场景下评估 WeStar 的有效性，我们选取五种涵盖不同方法范式的基线模型进行对比，包括两种基于提示的方法、两种 WeStar 的 SFT 变体以及一种 DPO 变体，具体如下：

R1-Prompt
采用近期发布的开源大型语言模型 DeepSeek-R1 作为基础模型。该模型在推理、指令遵循与语言理解等多项基准测试中表现优异，是当前最具代表性的开源大型语言模型之一。在这一基于提示的基线模型中，输入提示包含四个关键要素：（1）用户问题；（2）从对应公众号检索到的文章；（3）反映该公众号风格偏好的近期高质量作者回复；（4）符合智能助手场景的系统级指令。模型基于语境知识与风格提示生成答案。R1-Prompt 代表了基于提示方法的典型水平，它采用最先进的基础模型，仅通过提示工程模拟实际部署约束，未进行任何任务特定微调。
SFT-Prompt
尽管 DeepSeek-R1 性能优异，但其庞大的参数规模会导致显著推理延迟，难以应用于实时场景。为解决这一问题，我们基于 Qwen3-32B 模型构建第二个基线模型 SFT-Prompt—— 该模型在工业部署场景中能更好地平衡性能与延迟。具体而言，我们首先利用 10,000 个 CQA 实例对 Qwen3-32B 进行微调，提升其语境推理能力；微调后，采用与 R1-Prompt 相同的提示注入策略，将用户查询、检索文章、代表性风格回复与系统级任务指令整合到提示中。该模型代表了 “微调 + 提示” 范式在相似模型规模约束下的水平，是评估通过轻量级有监督适配结合提示增强大型语言模型效果的重要基线。
LoRA-SFT
该基线模型采用与 WeStar 相同的在线推理范式。对于每个风格语料库，通过 LoRA 进行有监督微调，训练一组特定风格参数；推理时，遵循 PRAG 参数加载机制，将这些参数动态注入基础模型。训练集为 “数据筛选” 步骤前随机选取的 10,000 个 CQSA 实例。
LoRA-SFT-S
该变体基于 LoRA-SFT，唯一区别在于训练数据质量 —— 不再采用随机采样，而是使用 “数据筛选” 部分所述基于指标筛选出的排名前 10,000 的高质量 CQSA 实例训练风格参数。通过该设置，可评估高质量精选训练数据对特定风格参数学习效果的影响。
WeStarₘₙₚₒ
该基线模型与 WeStar 具有相同的在线推理设置与训练范式，差异在于 DPO 训练中否决样本的构建方式。它不采用 “CQSA 构建” 与 “数据筛选” 部分所述方法筛选的风格感知高质量 CQSA 数据，而是通过提示基础模型对相应（C, Q）对生成回复，且不进行进一步质量筛选，以此获取否决样本。为增强学习信号，借鉴 MDPO 的思路采用基于指标的 DPO 策略，选取在四个评估维度上与优选样本差异最大的否决样本。

实现细节

本文采用 Qwen3-32B 作为基础语言模型，在整个框架中选用 DeepSeek-R1 作为辅助大型语言模型 M。在 CQA 构建阶段，提示 M 为每个公众号领域生成 3 个代表性用户角色，每个角色生成 3 个领域相关问题，构建多样化问题集；在风格树构建阶段，设置语料库规模阈值 k=100，确保每个节点在进一步划分前具有足够的风格代表性；在风格增强型 DPO 训练中，采用秩为 16 的 LoRA，训练 1 个 epoch，在实现每个风格语料库高效参数适配的同时，保证训练的可扩展性。

主要结果

WeStar 与基于提示方法的对比

图 2 展示了 WeStar 与基于提示方法在上述四个评估指标上的性能对比。其中，左上角、右上角、左下角、右下角子图分别呈现 WeStar、R1-Prompt 与 SFT-Prompt 在各指标上的簇级对比结果。x 轴代表不同风格语料库簇的标识，y 轴代表各方法在对应簇上的指标得分。详细数值结果如表 1 所示，表中第一列列出风格语料库簇及相关评估指标，第 2、3、7 列分别为 R1-Prompt、SFT-Prompt 与 WeStar 的性能数据。

图 2：WeStar 与基于提示方法的结果对比

结果显示，在问题相关性（Q-A）、语境贴合度（C-A）与流畅度三个指标上，WeStar 的平均性能始终优于两种基于提示的方法。这一优势源于基于提示方法在处理长输入序列时的局限性：这类方法需将检索到的文章与完整风格语料库均注入提示，导致语境长度大幅增加，超出大型语言模型的注意力窗口承载能力，进而削弱模型对注入信息的准确理解与利用能力。

在风格强度（S-A）指标上，仅 R1-Prompt 的平均性能与 WeStar 相当，原因主要有两点：（1）基于提示的方法可灵活地将作者原始完整风格语料库直接注入提示，而 WeStar 仅利用通过风格树筛选出的风格相似作者的语料库；（2）R1-Prompt 采用的基础模型 DeepSeek-R1 参数规模远大于本文选用的 Qwen3-32B，可能使其具备更强的风格生成能力。因此，WeStar 在风格强度维度上与 R1-Prompt 持平，但未实现超越。

WeStar 与 WeStar 变体的对比

图 3 对比分析了 WeStar 与其三种训练变体（LoRA-SFT、LoRA-SFT-S、WeStarₘₙₚₒ）在四个评估指标上的性能。详细结果如表 1 所示，表中第 4-7 列分别对应 LoRA-SFT、LoRA-SFT-S、WeStarₘₙₚₒ与 WeStar 的性能数据。

图 3：WeStar 与 WeStar 变体的结果对比

结果显示，LoRA-SFT 在所有指标上的平均性能均低于其他三种方法，这主要是因为其训练阶段未进行基于指标的数据筛选；而其余三种方法均受益于基于指标的数据筛选流程，通过高质量 CQSA 实例生成更准确的风格感知与语境贴合回复。

总体而言，WeStar 的平均性能最优，除在问题相关性（Q-A）指标上以 0.01 的微小差距略逊于 WeStarₘₙₚₒ外，在其他指标上均优于 LoRA-SFT-S 与 WeStarₘₙₚₒ。三种方法在所有指标上的性能差异相对较小（平均差距小于 0.06），表明数据质量是影响性能的主要因素，而训练目标仅带来细粒度的性能提升。

值得注意的是，WeStar 在风格强度（S-A）指标上得分最高，验证了在 DPO 训练中使用特定风格否决样本的有效性。相比之下，WeStarₘₙₚₒ在该指标上表现稍差，可能原因是其否决样本与优选样本在四个维度上均存在显著差异，模型可轻松区分两者并优化对数概率，无需专注于风格细节 —— 这种目标分散的情况可能削弱模型捕捉细粒度风格偏好的能力。

时间成本分析

在所有基线模型中，SFT-Prompt 采用的基础模型参数规模小于 R1-Prompt，因此推理时间更短。基于此，我们重点对比 SFT-Prompt 与 WeStar 的运行时间：在测试集上，WeStar 的平均单样本推理时间为 2.08 秒，SFT-Prompt 为 2.47 秒，WeStar 实现了 1.19 倍的速度提升。

这一提升源于两者在风格知识注入方式上的差异：SFT-Prompt 需注入风格相关 tokens，显著增加输入长度，导致解码过程产生大量开销；而 WeStar 通过 LoRA 模块注入风格知识，模块轻量化且加载高效。这一对比凸显了在对延迟敏感的应用场景中，基于参数的风格注入相比基于提示的风格注入具有更高的效率与可扩展性。

表 1：主要结果

案例研究

图 4 展示了一个案例研究，对比 WeStar 与两种基于提示方法针对同一输入问题生成的回复。该问题涉及某公众号的三篇文章片段；为使对比更直观易懂，我们选取中国文学中的虚构人物 —— 金庸小说中的黄蓉（wikipedia, 2025）—— 作为目标角色风格。受篇幅限制，文中省略了参考文章片段，仅展示各生成回复的开头部分，其中符合黄蓉风格的短语、词汇或句子片段已用下划线标注。

结果显示，WeStar 生成的回复更能持续体现目标风格。值得注意的是，图 4 中 WeStar 生成回复的最后一句省略了主语，这一特征与黄蓉说话的语法风格高度一致。相比之下，两种基于提示的方法在风格一致性上表现较差，原因可能是长文章片段的注入导致提示长度增加，超出模型注意力窗口承载能力。这一案例充分证明了 WeStar 基于参数的风格表示方法的有效性：通过将特定风格知识直接编码到模型参数空间，WeStar 避免了提示长度限制带来的问题，更好地保留了目标风格。

图 4：WeStar 与基于提示方法的案例对比

结论

本文针对公众号风格化语境问答这一尚未得到充分研究但具有重要实际意义的任务展开探讨，该任务要求生成的回复在大规模场景下同时满足风格感知与语境贴合的需求。现有微调、思维链与基于提示的方法在工业场景中均存在效率或可扩展性问题。

为此，本文提出面向数百万多风格公众号的轻量自适应人工智能助手 WeStar。WeStar 结合检索增强生成（RAG）实现语境检索，结合参数化检索增强生成（PRAG）注入特定风格 LoRA 模块；通过层次化风格聚类、基于大型语言模型的风格化重写与基于指标的数据筛选构建高质量训练数据，并利用风格增强型直接偏好优化（SeDPO）进一步提升风格匹配度。

在大规模工业数据集上的实验表明，WeStar 在语境相关性、风格保真度与流畅度方面均优于主流基线模型，为实际部署提供了一种高效、可扩展的解决方案。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

1747张YOLO标注奶牛水牛识别数据集：精准标注跨场景动物检测模型训练专用计算机视觉数据集，助力智慧农业与畜牧业AI算法研发

讯飞AI开发者社区

YOLOv8【卷积创新篇·第25节】Capsule Network胶囊卷积网络：让检测器拥有“空间想象力”！

讯飞AI开发者社区

机器学习与人工智能

python# 创建基类# 定义一对多关系# 定义多对一关系# 定义多对多关系（通过关联表）# 关联表（用于多对多关系）SQLAlchemy ORM提供了强大而灵活的数据库操作方式，通过本文的介绍，您应该能够：安装和配置SQLAlchemy定义数据模型和关系执行基本的CRUD操作构建复杂查询管理数据库事务遵循最佳实践SQLAlchemy还有更多高级特性，如混合属性、事件监听、自定义查询等，值得进一