国思软件 - 全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器

　　PreSelect 团队投稿

　　量子位 | 公众号 QbitAI

　　vivo 自研大模型用的数据筛选方法，公开了。

　　香港科技大学和 vivo AI Lab 联名提出PreSelect，目前已被 ICML 2025 接收。

　　这是一种轻量级且高效的数据选择方法：只需要训练和部署一个基于 fastText 的评分器，就可以减少 10 倍的计算需求。

　　该方法提出数据的预测强度(Predictive Strength) 的概念和计算公式，利用在不同模型上 Loss 有序性表征数据对特定能力的贡献，通过获取特定能力的有效样本训练 fastText 分类器对全量训练数据进行筛选。

　　△论文标题：Predictive Data Selection: The Data That Predicts Is the Data That Teaches

　　PreSelect：更客观、更轻量

　　现有的数据筛选方法主要分为两类：基于规则的筛选和基于模型的筛选。

　　基于规则的筛选依赖人工构建的先验规则，如 C4 pipeline、Gopher rules，以及 RefinedWeb 和 FineWeb 的数据筛选流程。此类方法虽然实现简单，但容易受到人工经验的限制，存在泛化能力弱或规则主观性强的问题。

　　基于模型的筛选则通过训练模型对数据分类或打分以筛选样本，如 CC Net 采用困惑度（Perplexity）打分，FineWeb-Edu 利用 Bert 分类器评估教育价值，DsDm 和 MATES 计算样本的 influence score，DCLM 利用 fastText 打分器评估样本与 SFT 数据的相似性。这类方法常面临计算成本高或者引入主观偏见等问题。

　　而 PreSelect 方法具有以下优势：

客观性
将传统的主观性的数据质量评估转化为对模型能力的贡献大小，通过“预测强度”指标，量化评估数据在不同能力上的价值；
泛化性
筛选的正样本不仅覆盖高质量内容来源，同时具备良好的多样性，避免过度集中于某一领域、来源或风格；
轻量级
通过 fastText 分类器近似打分，大幅降低计算成本，使得该方法可以高效应用于大规模数据筛选任务中；
高细粒度

支持样本级别的筛选
支持特定细分能力维度的数据筛选

△PreSelect 方法与现有 SOTA 方法的对比，数据效率提升 10 倍

　　PreSelect：压缩即智能

　　“压缩即智能”（compression represents intelligence）这一观点揭示了一个核心现象：大模型对数据的压缩能力（例如 BPC, bits per character）与其在该数据上的归一化 Loss 存在等价关系，且与模型在下游任务中的表现高度相关。

　　换言之，模型越能高效压缩数据，模型能力或智能水平越高。

　　核心思想

　　PreSelect 团队提出以数据预测强度（Predictive Strength）作为衡量模型 loss 与下游任务（benchmark）表现一致性的指标，其计算公式如下：

N代表模型数量，这些模型在 benchmark 的得分 {S1 < S2 < … < SN}
C代表模型在数据集d上的归一化 loss，即 BPC
Z为归一化因子
I{}为指示函数
S取值范围 [0,1]

　　当S=1 时，表示不同模型在 benchmark 上的得分排序与其在该数据上的 loss 排序完全一致，说明该数据具有很高的预测强度；相反，当S=0 时，说明两种排序之间没有相关性，该数据对下游任务的作用弱，预测强度很低。

　　根据预测强度的高低对数据进行筛选，优先保留那些使得不同模型在 benchmark 上的得分排序与在数据上的 loss 排序更一致的数据。

　　这类数据对模型能力的贡献更加显著，能够更有效地提升模型效果。

　　与现有方法相比，该方法具有更坚实的理论基础，减少了对人工启发规则的依赖，筛选过程更客观、更具有泛化性。

　　系统框架

　　计算预测强度需要多个模型分别对数据样本计算 loss，全量数据计算的成本将非常高。

　　为解决这一问题，使用 fastText 打分器作为代理模型近似预测强度，从而显著降低计算成本。

　　整体流程如下：

　　训练效果

　　PreSelect 团队从 RefinedWeb 数据集中随机抽取 80B、300B 和 1T tokens 作为基础数据，评估不同筛选方法的效果。筛选比例设置为 10% 和 30%，筛选后的数据量级包括 8B、30B、90B 和 100B。所训练模型的参数规模包括 400M、1B 和 3B。

　　实验对比的筛选方法包括 Random、Perplexity Filter、Perplexity Correlation（DD）、Perplexity Correlation（DP）、FineWeb-Edu、DCLM。

　　在下游 17 个任务上的实验结果表明，PreSelect 方法筛选出的数据在训练的模型效果上显著优于其他方法，对比 baseline 平均提升了3%，验证了其有效性。

　　在 C4 数据集上，进一步对比多种主流筛选方法，包括 Random、DSIR、DsDm、QuRating 和 MATES，所训练的模型为 Pythia。

　　实验结果显示，PreSelect 方法筛选的数据训练出的模型在多项指标上均优于其他方法。

　　从已通过人工规则集和多种质量评分模型筛选，并经过不同粒度的文本级和语义级去重的 vivo 自有 Web 数据集中，随机抽取 5T tokens 作为基础数据，分别采用 PreSelect 与 Random 方法各自筛选 10%（即 500B tokens），训练参数规模 3B 的模型并评估下游任务效果。

　　实验结果表明，即使在自有的经过优化处理的数据集上，PreSelect 方法依然有显著的性能提升，展现出其在高质量数据基础上的增益能力。

　　经过对不同数据筛选方法所选择的样本进行分析，结果表明 PreSelect 筛选的 domain 数据更多地采样了知识、问答和文学领域，更广泛地覆盖了高质量来源内容，能够显著提升模型在各个领域的效果。

　　通过对不同数据筛选方法所筛选出的数据长度进行比较，可以看到 DCLM 和 FineWeb-Edu 显示出明显的短数据向量和长数据向量趋势，而 PreSelect 筛选的数据在长度分布上更接近原始长度分布。表明其在筛选出高质量样本的同时，有效减少了样本长度偏差（length bias），具备更好的代表性与覆盖性。

　　论文链接：https://arxiv.org/abs/2503.00808

全新预训练数据筛选方案，让数据效率提升10倍！配置仅需fastText评分器｜港科大vivo出品

我们的产品

相关链接

关于我们

联系我们