OmniPred: Language Models as Universal Regressors

创建于 2025-04-28T20:26:47.425709+08:00 更新于 2025-05-19T18:36:16.642757+08:00

摘要

本报告提出OMNIPRED框架，基于大型语言模型，利用Google Vizier多任务异构黑盒优化数据，实现对不同输入空间和目标函数的通用回归预测。通过文本化参数及指标表达，LM在多任务混合训练中显著优于传统回归模型，且具备对新任务快速微调的迁移能力，展现了语言模型在实验设计中高精度、跨域数值回归的潜力 [pidx::0][pidx::1][pidx::3][pidx::6][pidx::8]

速读内容

OMNIPRED框架将语言模型训练成通用回归器，通过处理Google Vizier大量异构实验的(x,y)数字文本表示，实现精准指标预测，无需传统数值归一化或手工特征化 [pidx::0][pidx::1].

OMNIPRED采用基于T5 encoder-decoder的200M参数模型，输入参数和任务元数据用键值对文本化，目标值则用定制浮点数字符token表示，训练目标为交叉熵，以捕捉数值间距 [pidx::3].

- 实验中，模型能够同时多任务学习不同规模、类型和输入空间的标的，如BBOB合成函数与Google内部多种真实任务（图像分类、系统性能、蛋白质设计、AutoML等），都展示出高度拟合能力和不确定性表达 [pidx::5][pidx::6].

多任务训练带来的跨任务迁移提升明显，随着训练任务数量增加，平均预测误差显著下降且超越所有传统基线（GP，随机森林，树模型，MLP），特别是在输入空间未充分覆盖任务上优势显著 [pidx::6][pidx::7].

模型对任务元数据、参数名的文本信息敏感，数据经匿名处理后性能显著退化，证明了语言模型依赖语义相关的文本信号进行有效转移学习 [pidx::7].

- 预训练模型在未见任务上微调后性能提升明显，相比于从零训练的单任务方法，精调后的语言模型对新用户、新优化目标的预测平均误差最低，证明预训练知识可迁移且支持快速适配 [pidx::7][pidx::8].

OMNIPRED框架能够表达预测结果的不确定性，包括多模态分布，且样本预测标准差与真实误差正相关，适合用于贝叶斯优化等任务中的不确定性估计 [pidx::16].

细节方面，数字的token化处理、采样数量及中位数聚合对性能影响显著，样本数量增加与中位数采样能有效降低偶发极端预测，保证数值稳定性 [pidx::15].

传统回归模型（GP、Tree、MLP等）受限于固定输入空间、归一化依赖和多任务迁移能力欠缺，表格中显示OMNIPRED在动态输入空间、多任务学习、无需归一化方面拥有显著优势 [pidx::1].

- 多任务LM的排名相关性指标（Kendall-Tau和Spearman）整体优于传统模型和单任务LM，适合需要较强排序能力的下游优化和搜索算法 [pidx::17].

多任务训练增益与任务的训练样本量相关，样本偏少时多任务迁移带来最大提升，样本较多时单任务训练效果趋近，这为实际应用中选择训练方式提供参考 [pidx::18].

深度阅读

研究报告详尽分析报告

---

1. 元数据与概览（引言与报告总览）

报告标题：OmniPred: Language Models as Universal Regressors
作者：Xingyou Song, Oscar Li, Chansoo Lee, Bangding (Jeffrey) Yang, Daiyi Peng, Sagi Perel, Yutian Chen
机构：Google DeepMind, Carnegie Mellon University, Google
发表时间：文中未明示具体日期，但文献引用截止至2023年，为2023年底或2024年初的最新研究
报告主题：提出并验证一种基于语言模型的通用连续变量回归方法——OmniPred，目标是用大型语言模型（LMs）作为对多领域实验设计中多样输入空间的普适回归器

核心论点与贡献：
本报告围绕“能否使用语言模型进行高精度的数值回归”这一基础但前所未有的探索展开，提出了OmniPred框架，核心是利用语言模型结合文本化的输入-输出对，进行端到端多任务回归。其主要贡献体现在：

首次提出基于通用文本描述的回归框架，支持动态变化的输入域和多任务学习，解决传统回归方法固有的局限

- 充分利用Google Vizier这一世界最大规模、极具多样性的离线黑盒优化数据库，验证语言模型在不同任务中均取得了高精准度回归结果

显示语言模型在跨任务转移学习下的显著优势，并且在新任务的有限样本微调时保持强大的适应性和泛化力

[pidx::0][pidx::1]

---

2. 逐节深度解读（逐章精读与剖析）

2.1 引言（Introduction）

介绍回归作为实验设计中的核心问题：预测系统输出指标$y$，给定输入特征$x$，在诸多领域（超参数调优、工业设计、化学发现等）均有重要作用。

- 语言模型（LLMs）近来在文本、编码、符号数学等多领域表现出色，报告关注$“LMs是否可用于数值回归”$这一突破性问题，旨在构建一种无需传统复杂特征编码、独立于输入空间约束的统一回归工具。

该能力也将推动奖励建模、强化学习微调等前沿领域。

[pidx::0][pidx::1]

---

2.2 相关工作与动机（Related Work）

传统回归方法（高斯过程、决策树、MLP等）局限于固定长度的数值张量输入，需对数值和类别特征严格归一化（$x,y$均需）且难以处理动态空间变化。

- 输入张量依赖用户定义的静态边界及类别集，一旦变化需要重新设计模型。

表1清晰展示了典型回归器在动态输入、多任务学习能力及归一化需求上的比较，OmniPred支持动态输入空间、无需归一化，且支持多任务（唯一具备两者优势）。

- 基于token的表示及语言模型能突破这一桎梏，兼容长度变异输入和复杂元数据，且已有RLHF中的奖励建模显示了语言模型处理反馈分数的潜力，但数值预测的高精度挑战尚未被解决。

| 回归器 | 支持动态输入空间? | 支持多任务? | 归一化输入$x$? | 归一化输出$y$? |
|------------------|------------------|-----------------|-----------------|----------------|
| MLP | 否 | 仅固定空间 | 是 | 是 |
| Tree-based | 否 | 仅固定空间 | 是 | 否 |
| Gaussian Process | 否 | 仅固定空间 | 是 | 是 |
| GNN/Transformer/RNN | 否 | 仅固定域 | 是 | 是 |
| OmniPred (提出方法) | 是 | 是 | 否 | 否 |

[pidx::1]

---

2.3 方法论（Methodology）

2.3.1 问题定义及预备知识（Section 3.1）

定性地定义任务$\mathcal{T} = (\mathcal{X}, f, \mathcal{D}, m)$，其中$f:\mathcal{X}\to \mathbb{R}$是隐含目标函数，针对参数$x\in \chi$输出目标值$y$。

- 离线数据$\mathcal{D} =\{(xi, yi)\}$为观测结果集合，同时包含任务元数据$m$。

目标是训练一个预测器$s: \mathcal{X}\to \mathcal{P}(\mathbb{R})$（预测实值分布），在多任务设置下，使$s(x)$跨输入和任务分布能准确逼近$f(x)$。

- 评估指标采用“归一化平均绝对误差（Normalized MAE）”来解决不同任务目标值量纲差异：
\[
\text{Error} = \frac{1}{y{\max} - y{\min}} \frac{1}{|\mathcal{D}^{test}|} \sum_{(x,y)\in \mathcal{D}^{test}} |\alpha(s(x)) - y|
\]
其中$\alpha$通常为中位数或均值，用于聚合样本预测，不同研究数据范围千差万别，归一化确保指标可比较。

通过clip操作，将单次误差最大限制为1，避免异常样本影响整体评估。

[pidx::2]

2.3.2 语言模型框架设计（Section 3.2）

使用T5编码器-解码器架构，200M参数规模，支持任意任务编码，训练策略是多任务统一训练。

- 输入表示采用键值对（key-value）文本格式，参数名映射到对应数值，且不显式描述输入空间结构，支持嵌套条件参数、动态约束。

输出$y$采用定制浮点数分词，划分符号、指数和有效数字，确保解码准确，训练采用标准交叉熵，隐式学习数值距离。

- 预测阶段以温度采样生成多个候选值，采用中位数聚合预测，有异常值鲁棒性，本文附录还讨论了采样数量和聚合方法的实验。

支持新任务的本地小样本微调，辅助模型对未见任务快速适应，缓和预训练任务与目标任务分布差异。

| 表2 | OMNIPRED输入输出文本示例 |
|---|---|
| C (参数) | batch-size:128,kernel:'rbf',learning-rate:0.5,... |
| m (元数据) | title:'classification',user:'some-person',description:'spam detection' |
| y (目标) | objective:'accuracy' +<12<<12（表示1.23等定制浮点格式） |

[pidx::3]

---

2.4 数据集与预处理（Section 4）

2.4.1 Google Vizier及合成数据集

利用Google Vizier API生成的数千万量级Study和百亿级Trial大规模真实世界多任务离线数据。

- Vizier定义了灵活的复杂输入空间$\chi$，支持多种参数类型（DOUBLE，INTEGER，DISCRETE，CATEGORICAL），支持条件激活参数如贝塔仅在优化器为Adam时存在，典型示例图见Figure 2展示复杂嵌套。

元数据$m$包含任务标题、用户、描述、目标函数名等信息，为模型跨任务泛化提供上下文信息。

- 设计了 BBOB Shifted 多任务合成基准，将原函数域通过平移等变换得到不同任务，维度2-6不等，用于精准在线验证。

数据预处理包括去除不合格试验（失效、未评估）、限制单个Study最多1000 trial、防止过多试验数造成数据偏斜，剔除“超级用户”避免偏倚。

| Table 3 (Google Vizier数据库统计) |
| --- |
| 研究（Studies） | ~7000万＋ |
| 试验（Trials） | ~1200亿＋ |
| 独立用户数（Users） | ~14000 |

[pidx::4][pidx::5]

---

2.5 实验设计与评价（Section 5）

2.5.1 多任务同步回归能力（Section 5.1）

图3演示在4D BBOB合成任务上，模型在不同平移变换下对目标函数精确拟合，且能够通过采样表现预测分布的多样性及不确定性。

- 图4对内部真实任务进行可视化验证，涵盖机器学习任务（CIFAR10分类，语言模型LM1B），生产系统（广告竞价模拟，LLM推理延迟），科学应用（蛋白设计，硬件设计）等，多样输入空间类型（离散、连续、混合），点云图显示预测与真实目标分布接近，拟合较好。

| Figure 4概览 |
|---|
| 各任务名称 | CIFAR10 LM1B LM、Bid Simulation、Protein Design、LLM Latency、AutoML、MobileNet、Spam Filter等 |
| 输入参数空间规模及类型 | 4维实数，类别变量，条件空间（如3-H root parameters，42-T total parameters） |

[pidx::5][pidx::6]

2.5.2 多任务学习与转移能力（Section 5.2）

随着训练任务数增加，模型在AutoML和BBOB任务中的平均任务误差显著下降，超越单任务传统基线（GP、随机森林、决策树、MLP），展现多任务学习带来的共享知识增益。

- BBOB任务中对未见平移shift的任务测试，模型有效泛化，不降低性能。

数据“匿名化”（哈希掉元数据）显著削弱模型性能，表明模型确实利用了元数据中的语义信息进行知识传递。

- 图6进一步展示多任务OmniPred在不同领域全面优于单任务基线及多种方法，单任务模型在极低数据任务中依旧具有竞争力。

[pidx::6][pidx::7]

2.5.3 预训练及微调分析（Section 5.3）

表5显示，针对AutoML任务，从预训练好的模型微调能够快速提升精度，而无预训练模型（单任务训练从零）和纯BBOB预训练模型性能较差。

- 使用整合了多任务数据的预训练模型，可达与任务特化模型同等精度，显示通用预训练模型具备较强迁移能力。

针对“新出现”的未见任务，预训练+微调方案显著优于无预训练单任务模型，减少学习曲线。

- 也存在少量负迁移现象（部分任务微调后性能下降），强调训练数据多样化与任务选择的重要性。

[pidx::7][pidx::8]

---

2.6 限制与未来方向（Section 7）

模型在浮点数解码时易出现罕见但极端离群预测（“幻觉”），尤其当高位数码错误时。建议未来通过加权交叉熵强化重要数字准确性提升数值稳定性。

- 目前输入数字直接字符串化（如“1234.5”）送入tokenizer可能拆分不合理，未来可采用类似输出端的定制数值编码提高输入数字的语义清晰度和学习效率。

虽然输入包括英文参数名与元数据，但当前模型从零训练未充分利用语言语义，未来预训练英文语言模型再微调可能带来进一步性能提升。

- 计算成本较传统模型高（训练需多卡TPU，推理较慢），但通过200M参数设计已控制至实际可用范围。

输入空间限制于Vizier定义的超参数空间，未涉及组合结构、图结构或程序合成空间，未来可探索文本化策略扩展更多复杂空间。

- 进一步研究哪些元数据类型（用户、描述、代理指标等）最有利预测准确度，及如何结合领域特定辅助信息。

[pidx::9]

---

3. 图表深度解读

3.1 Figure 1 - OmniPred方法概览

该图流畅展示了从用户及自动化系统采集的异构离线黑盒函数评价数据入库（Google Vizier数据库），输入$x$以键值对文本格式传递，输出对应目标$y$。

- 该输入输出对用于对语言模型（LM）训练，获得统一的多任务通用回归器。

训练结束后，对未知输入进行预测输出，实现复杂系统性能、指标的预估。

- 图中配合示例：如卷积神经网络超参学习率，优化器等，或TPU tile数延迟等，体现了泛化输入与任务。

该架构展示了方法从数据采集、训练到测试的整体流程及多域适用性。

---

3.2 Figure 2 - Vizier输入空间及示例试验

上部分展示典型嵌套条件输入空间设计，任何参数均可为数值或类别类型，且支持多个条件父级激活关系（如模型类型为SVM时，激活核函数参数）。

- 下部分是具体试验示例，“Trial1”和“Trial2”均包含部分参数及所属类别，体现条件触发关系及多类型混合。

表明OmniPred能原生支持复杂的非固定输入空间，支持的表达能力远超传统固定维数张量。

- 该图支撑了文中关键论点——文本串行化的key-value编码突破了传统输入表示弊端。

---

3.3 Figure 3 - BBOB多任务4D函数回归示例

该图包含四个4D函数（如StepEllipsoidal、Weierstrass、RosenbrockRotated）不同维度固定部分输入变化时预测曲线，蓝线为真实目标，橙线为OmniPred预测，中粗橙线为预测样本众数，带状为预测范围（min/max）。

- 可见模型对多尺度函数形状均能精准近似，且捕获不确定性（样本预测分布带）。

突出展示了模型的多任务能力和对庞大、散乱数据的整合回归表现。

- 极大规模的函数值范围差异（数十到数十万）被准确刻画，说明模型对目标的scale不敏感。

---

3.4 Figure 4 - 真实企业级异质任务预测散点

横纵坐标分别是模型预测值与实际目标值，黑对角线表示理想预测（预测=目标）。

- 不同子图代表不同任务，如CIFAR10验证损失、Bid Simulation成本等。散点紧贴对角表明高回归精度，不同任务空间规模与性质差异巨大。

右表展示任务中输入维度特征差异，例如蛋白设计高维类别参数，LLM延迟任务混合参数，表明多任务统一回归基模型的广泛适用性。

---

3.5 Figure 5 - 训练任务数对预测误差的影响

横轴为训练任务数量（对数尺度），纵轴为平均任务误差（Normalized MAE），代表误差越低性能越好。

- 黑色曲线（语言模型，LM）误差随着训练任务数增加显著降低，且优于传统基线（GP、Random Forest、Tree、MLP的色条线）。

左图为AutoML真实数据，右图为BBOB合成数据（未见平移shift），验证多任务预训练有效助力转移学习。

- 该图凸显多任务训练的集群效应和语言模型泛化能力。

---

3.6 Figure 6 - 多任务LM与单任务基线对比

左图条形图比较多任务LM、单任务LM与传统基线在不同任务集（BBOB、Bid Simulation、Google-AML等）上的平均任务误差。

- 多任务LM（黑色条）在绝大多数任务上误差最低，显著优于同平台单任务LM和所有其他模型。

右表统计任务特征，包括研究数、每研究平均试验数（TpS）、空间大小等，体现不同任务的复杂性差异。

- 证实了多任务训练和一致的文本表示助力提升回归性能并稳定跨领域应用。

---

3.7 Figure 7 - 对比预训练对新任务微调效果

左图展示每个用户的“新研究”任务中，改用预训练模型微调（红色）和单任务模型（蓝色）的误差对比，模型很大程度上通过预训练提升了预测精度（红色条大部分低于蓝色条），极少负迁移示例。

- 右表综合展示三种方法（单任务LM，预训练LM，预训练+微调LM）的平均研究误差，预训练+微调最低（0.21），显著好于无预训练单任务（0.28）和仅预训练未微调（0.68）。

该图是模型实际应用中的关键指标，表明通用预训练有效推进新领域的快速适应。

---

4. 估值分析

本报告侧重提出以语言模型为核心的普适回归框架，估值部分主要体现在误差指标和多任务泛化能力的验证。报告中未采用传统估值法（DCF、P/E等）而采用归一化平均绝对误差用于回归预测准确性评价。该设计契合多领域输入输出尺度大幅差异的特点，避免了估值中因量纲差异导致的偏误。

模型训练策略采用标准语言模型的交叉熵损失在特征$y$固定格式token序列上，隐式学习函数映射。针对模型输出的不确定性方面，利用采样多次生成预测分布，通过聚合函数（如中位数）稳健获得点估计。部分附录分析采用性能最优的基于样本分布方差的辅助不确定性度量，支持贝叶斯优化中探索-利用平衡。

综上，报告通过精心设计的多任务训练与预训练策略获得了在多种输入空间和目标尺度下的高质量泛化，验证了语言模型作为通用回归器的巨大潜力。

---

5. 风险因素评估

报告涉及的潜在风险及挑战点包括：

数字预测幻觉风险：由于预测空间极大（接近$\mathbb{R}$），模型可能出现异常大偏差，尤其在关键数字（符号、指数）预测失误时。

- 数值输入编码不理想：当前输入数值使用默认文本格式，可能导致token分割不原子，影响学习效率和性能。

计算资源消耗：相较传统回归模型，语言模型训练和推理需用GPU/TPU加速，硬件要求较高。

- 数据覆盖度不足：部分任务空间较大，训练数据稀疏，影响模型学习和泛化。

负转移现象：预训练知识非总是益处，特定任务可能因预训练模型知识不匹配而性能下降。

报告未详述对应的风险缓解策略，但提及未来可通过更精细的token权重调整、加入更高质量预训练和元数据选择、软硬件协同优化提升等方向来改进。

[pidx::9][pidx::14]

---

6. 批判性视角与细微差别

报告理念创新且技术路线清晰，利用文本表示解决传统限制，实际数据规模宏大，验证充分。

- 语言模型的数值预测挑战被准确捕获，设计了有效的数值token化方案和采样聚合手段，体现实验严谨。

报告中充分讨论了输入数值编码不理想、计算代价高、预训练负迁移等弱点，体现科学态度。

- 样本采集存在用户分布不均，非完全均衡任务，可能带来“主流任务”偏好；模型对无元数据的泛化失败体现对上下文依赖较强。

对更复杂组合或图结构等空间的支持尚未实现，文本转化策略未来需深化。

- 预测指标侧重点值误差，排名指标与最终优化效果相关的定性联系未深入探讨。

报告结合了扩展附录详细分析，整体内容严密但仍有基于未来工作开放的改进空间。

---

7. 结论性综合

本篇报告成功开辟了将大型语言模型用作实验设计中高精度连续变量回归器的先河，提出了通用、领域无关、灵活支持动态输入空间的OmniPred框架。

其核心优势：

使用文本化的key-value对输入，消解传统张量表征对输入空间静态性和归一化的依赖，支持多任务混合训练。

- 对Google Vizier庞大真实数据及合成BBOB多任务均表现出卓越的回归能力，准确捕获目标函数形状并有效表达不确定性。

多任务训练显著优于传统基线与单任务模型，充分展示了跨任务知识迁移效应。

- 预训练+微调能够快速适应新任务，支持实际黑盒优化中对新实验的快速响应。

设计合理的浮点token化方案及采样中位数聚合策略有效缓解了语言模型本身数值处理的不稳定性问题。

纵观所有图表，模型均体现了跨域、跨输入空间的强泛化及高准确性。
该研究为实验设计领域注入了语言模型的强大算力与语义理解能力，未来有望拓展至更加复杂输入空间和多模态任务。

综上，OmniPred不仅拓宽了语言模型应用边界，也为自动化机器学习和黑盒优化提供了全新视角。该方法展示了语言模型作为“普适回归器”的强大潜力和广阔前景，预示着实验设计、超参数调优及科学工程领域的深远变革。

---

参考页码溯源

本文所有主要结论均来源于报告正文及附录内容，对应页码标注为[pidx::0]至[pidx::18]，具体如上文中对应引用标示。

总结

这份以“OmniPred”为名的报告，展示了通过基于文本编码的大型语言模型实现通用回归器的创新实验和理论贡献。它通过详实且规模庞大的谷歌内部数据支撑，系统验证了语言模型在传统回归任务中极具竞争力的表现，并从多角度探讨了其优势、风险与改进空间，为后续研究和工业应用奠定了坚实基础。