作者:陈yl 时间:2025-11-19
加州大学洛杉矶分校(UCLA)Aydogan Ozcan教授团队在国际顶级期刊《自然》(Nature)发表研究成果(论文标题:《Optical generative models》,Nature volume 644, pages903–911 (2025),DOI: https://doi.org/10.1038/s41586-025-09446-5),首次实现完全基于光学物理定律的生成式AI模型。光学生成式模型利用空间光调制器(SLM)作为核心硬件,配上准直器、偏振器和分束器实现图像的全光学生成。偏振器将激光偏振方向与SLM液晶的工作方向对齐,其中一块SLM加载由浅层数字编码器生成的相位图案(光学生成种子),通过分束器后另一块SLM则作为可重构的衍射解码器,通过精确调控光波的相位分布,使光在自由空间传播后直接形成目标图像(包括单色和多色梵高风格艺术作品)。SLM不仅承担了编码与解码的关键角色,其相位调制能力(如8μm像素间距、2π相位范围)直接决定了生成图像的质量与多样性。
生成模型涵盖多种应用领域,包括图像和视频合成、自然语言处理和分子设计等1–11。随着数字生成模型规模的扩大,以快速且节能的方式实现可扩展推理成为一项挑战12–14。在此,我们提出了一种受扩散模型启发的光生成模型4,(使用空间光调制器SLM/偏振器/分束器/准直器),其中浅层快速数字编码器首先将随机噪声映射为相位模式,这些相位模式作为期望数据分布的光生成种子;联合训练的自由空间可重构解码器通过全光方式处理这些生成种子,以创建遵循目标数据分布的、前所未见的图像。除了照明功率和通过浅层编码器生成的随机种子外,这些光生成模型在图像合成过程中不消耗计算能力。我们报告了遵循MNIST15,Fashion‑MNIST16,蝴蝶‑10017,Celeb‑A数据集18,和梵高画作与绘画19,的数据分布,生成的单色和多色手写数字、时尚产品、蝴蝶、人脸和艺术品图像,其整体性能与基于数字神经网络的生成模型相当。为了实验验证光生成模型,我们使用可见光生成了手写数字和时尚产品的图像。此外,我们使用单色和多波长照明生成了梵高风格的艺术品。这些光生成模型可能为节能和可扩展推理任务铺平道路,进一步挖掘光学和光子学在人工智能生成内容方面的潜力。
生成数字模型最近发展起来,能够创建多样、高质量的合成图像1–4、类人的自然语言处理能力5,、新的音乐作品6,甚至新的蛋白质设计7。这些新兴的生成人工智能(AI)技术对于从大型语言模型(LLMs)5,11到具身智能8和生成式AI生成内容9,10的广泛应用至关重要。随着它们的成功,这些模型正在变得更大,需要大量的电力、内存和更长的推理时间11。生成式AI模型的可扩展性和碳足迹也正成为一个日益增长的问题13,14。虽然已经有一些新兴方法20–39旨在减小此类模型的大小和降低其功耗,同时提高其推理速度,但仍然迫切需要开发替代方法来设计和实现节能且可扩展的生成式AI模型。
这里我们展示了使用空间光调制器SLM/偏振器/分束器/准直器的光生成模型,该模型能够光学合成遵循期望数据分布的单色或彩色图像——即,为给定分布生成此前未曾报道过的图像。受扩散模型4,的启发,该概念使用浅层数字编码器快速将随机二维(2D)高斯噪声模式转换为代表光生成种子的二维相位结构。这种光种子生成是一次性工作,涉及作用于随机二维噪声模式的浅层快速相位空间编码器。每个图像或遵循快照光学生成的输出数据
一种期望的分布可以通过随机访问这些预先计算的光生成种子来按需产生。这个广义概念可以通过不同的光学硬件实现,例如集成光子学或基于自由空间的实现(扩展数据图1)。不失一般性,这里我们报告基于自由空间的可重构光学生成模型(图1和扩展数据图1b)。每个光生成种子一旦呈现在空间光调制器( SLM)上并被平面波照射,就会通过针对给定数据分布优化的可重构衍射解码器合成图像;刷新率受限于显示预先计算的光生成种子的SLM的帧率。快照图像生成所需的计算的光学部分完全通过优化且固定(即静态)的衍射解码器进行自由空间光传播来完成。我们报告的图像生成性能在统计上与基于数字神经网络的生成模型相当,这通过生成手写数字、时尚产品、蝴蝶、人脸和梵高风格艺术品的单色和多色图像得到了证实,这些图像分别遵循修改后的美国国家标准与技术研究院(MNIST)15,Fashion‑MNIST16,Butterflies‑10017,Celeb‑A数据集18和梵高的画作19,的分布。为了实验性地演示快照和多色光生成模型,我们构建了工作在可见光谱中的自由空间硬件。
图1|快照光学生成模型的设计。a、b和c面板中的图像为AI生成。a、快照光学生成模型的方案。随机高斯噪声输入首先由浅层数字编码器编码,该编码器创建大量光学生成种子,这些种子被空间光调制器随机访问。输入光场通过可重构和优化的衍射解码器传播后,生成的图像被记录在传感器阵列上。对于给定的目标数据分布,生成光学模型可以合成无数图像。输入光通过衍射解码器生成输出图像的光学传播需要<1ns;然而,图像生成的整体速度受限于输入空间光调制器的刷新时间。b、快照光学生成模型由学习型DDPM训练,DDPM生成的数据对用于指导快照光学生成模型的优化。c,对于图像的盲推理,预先计算的光学生成种子通过云服务器等随机访问,其中快照图像生成通过自由空间光学和波传播在本地实现。d0,1, SLM与衍射解码器之间的距离;d1,2,衍射解码器与传感器之间的距离;εθ噪声预测模型,其中θ表示模型的参数;αt扩散过程中的时变噪声调度系数;z,从正态分布中采样的随机变量;σt在时间步t时添加的噪声的标准差;H,浅层数字编码器的输出;MSE,均方误差;KL,Kullback–Leibler散度;I中间去噪结果;O生成的强度。
我们的实验结果证实,学习到的光学生成模型成功地掌握了每个目标数据分布中的底层特征和关系。所提出的框架具有高度灵活性,因为针对不同数据分布的不同生成模型共享相同的光学架构,该架构具有针对每个任务固定的或静态优化的衍射解码器,使用从随机噪声相位编码的光生成种子合成无数图像。因此,通过更改光生成种子和相应的可重构解码器表面,可以将期望的数据分布从一个生成任务切换到另一个生成任务,而无需更改光学设置。光生成模型的能效、可扩展性和灵活性将刺激进一步的研究和发展,为各种与生成式AI相关的应用提供有前景的解决方案,例如,AI生成内容、图像和视频处理与合成等。
快照图像生成图1展示了我们单色快照图像生成模型的示意图。如图1a所示,随机2D输入,每个都遵循正态分布,被数字编码器编码成2D相位模式,该编码器快速提取潜在特征并将它们编码到相位通道中以进行后续模拟处理。这些由随机噪声生成的相位编码输入作为我们的光生成种子,并加载到空间光调制器( SLM)上,以向我们的衍射光生成模型提供信息。在相干照明下,携带这些编码相位模式的光场传播,并由针对给定目标数据分布优化的衍射解码器进行处理。最后,生成的图像由图像传感器捕获,代表遵循目标数据分布的图像。训练过程如图1b所示,我们首先基于去噪扩散概率模型(DDPM)训练一个教师数字生成模型,以学习目标数据分布。
一旦训练完成,学习的DDPM就会被冻结,并持续生成用于训练快照光生成模型的噪声‑图像数据对。浅层数字相位编码器和光生成模型联合训练,使模型能够以简单且可重构的架构高效学习目标分布。图1c展示了我们的盲推理程序:数字编码器从随机噪声模式生成的编码相位模式(即光种子)是预先计算的,而光生成模型通过自由空间解码这些生成相位种子,使用固定或静态解码器。为了快速从随机高斯噪声合成光生成相位种子,数字编码器包含三个全连接层,其中前两层后接非线性激活函数(方法)。可重构的衍射解码器使用例如400×400可学习相位特征进行优化,每个特征覆盖0–2π范围,在其优化后,对于每个目标数据分布保持静态。快照图像生成过程和联合优化的解码层细节在方法部分和补充图1中描述。
在MNIST数据集15和Fashion‑MNIST数据集16,上分别训练对应模型后,我们收敛到了两种不同的光生成模型。在扩展数据图2a,b中,展示了之前从未见过的手写数字和时尚产品的快照图像生成,显示了这两个数据分布中所有数据类别的输出图像质量都很高。我们使用inception分数(IS)41和Fréchetinception距离(FID)42作为图像质量指标来评估快照图像生成性能(扩展数据图2c,d)。这两个指标均使用批大小为1,000生成的图像进行测量,随机整数种子s∈[0,10,000)控制随机高斯输入xy(,)I的采样。在IS评估中,我们生成了与原始数据集相同数量的图像,旨在测量整个数据分布。我们还对光生成图像数据和原始数据集进行了t检验43,使用P值来评估IS指标改进的统计显著性(扩展数据图2c)。较高的IS值,结合P值43小于<0.05的小值,表明我们的快照光图像生成模型与原始数据集相比,创建了统计上更多样化的图像。基于FID的评估还显示了100次重复计算的统计数据,证明了光生成图像与原始数据分布之间的一致性。
为了进一步评估快照光学生成模型的有效性,我们训练了三组十个二分类器,每组基于卷积神经网络架构15。第一组分类器仅使用标准MNIST训练数据进行训练;第二组分类器在由标准和光学生成的图像数据组成的50%–50%混合数据集上进行训练;第三组分类器在100%光学生成的数据上进行训练(方法)。每个分类器负责识别特定的手写数字,所有训练集具有相同数量的样本。然后,这些分类器在标准MNIST数据集上进行盲法评估,分类准确率展示在扩展数据图2e中。使用100%生成图像数据训练的分类器平均达到了99.18%的分类准确率(扩展数据图2e中的绿色曲线),与基于标准MNIST数据训练的结果(扩展数据图2e中的蓝色曲线)相比,平均减少了0.4%。结合我们在扩展数据图2f中报告的每个类别的出色IS和FID性能指标,这些分析表明,快照光学生成产生的新的手写数字图像遵循目标分布(通过较低的FID平均值揭示),但从未以这种风格出现过(如光生成图像较高的IS平均值所示)。
接下来,我们评估了输出衍射效率(η)对光学生成模型图像生成性能的影响;η被定义为总光功率的分布比率在图像传感器上,将总输入功率照射到空间光调制器平面的光学相位种子上进行划分。根据可用的照明功率和光学硬件中遇到的噪声水平,可以通过在训练过程中添加与η相关的损失项来优化衍射效率。通过训练多个针对不同级别η的光生成模型,我们在扩展数据图2g中报告了这些模型之间的FID和输出衍射效率的经验关系,使用批大小为200并在不同的随机种子中重复100次进行测量。值得注意的是,对于具有单个解码层(蓝线)的光生成模型,η平均可以增加到41.8%,图像质量略有妥协,突出了快照光生成模型在实现功率高效图像合成方面的能力。我们还训练了具有5个连续解码层(扩展数据图2g中的橙色线)的附加光生成模型,展示了在给定的输出衍射效率水平下进一步提高了图像质量;例如,η平均可以增加到约50%,同时保持FID≈100(扩展数据图2g)。这些分析表明,对于期望的给定图像质量指标,与单层光解码器相比,使用更深的解码器架构可以实现更高的输出衍射效率。我们进一步扩展了用于多色图像生成的光生成模型,使用了三种照明波长(即,λR、λG和λB)。有关我们的多色图像生成结果和分析,请参阅扩展数据图3和方法部分。
迭代光生成模型
迄今为止进行的结果和分析都是基于快照光生成模型,其中每个相位编码的光生成种子通过单个照明中的光解码器来创建图像。我们还设计了一个迭代光通用模型,用于从高斯噪声4中递归地重建目标数据分布。如图2a所示,迭代光生成模型也在三种照明波长下运行,其中浅层数字相位编码器编码的多通道相位模式被依次加载到同一 SLM上。为了展示该迭代光模型的生成能力,我们使用了Lo=5解码层,这些解码层针对所需的目标数据分布进行了联合优化和固定。与之前讨论的快照光生成模型不同,在记录初始强度图像It在图像传感器平面上后,测量的It被设计方差的高斯噪声扰动,这被视为下一个时间步(时间步tT∈[0,]和II~N0(,)T)的迭代光输入It−1,其中T是总时间步,N表示高斯分布。这种迭代光生成模型的训练过程如图2b所示,我们从一批时间步(t1,t2,...)中采样,并相应地向原始数据I0添加噪声以获得带噪声样本(t,t,…)12II。这些带噪声样本通过浅层数字编码器和迭代光生成模型以获得连续输出。与标准的DDPM实现不同,迭代光生成模型直接预测去噪样本,损失函数针对I0计算。图2c概述了迭代光生成模型的盲推理过程,其中学习到的光学模型从时间步T递归地对从T到0的扰动样本进行去噪,最终生成的图像在传感器平面上捕获(有关详细信息,请参阅方法部分)。
图2|迭代光学生成模型。使用空间光调制器SLM/偏振器/分束器/准直器,a、b和c面板中的图像为AI生成。a、迭代光学生成模型的示意图。在每个时间步,上一个时间步的噪声扰动样本输入到光学模型中。波传播后,记录多色信息以供下一个光学迭代使用,并添加一些调度噪声。对于最后一个时间步,图像传感器阵列记录最终图像生成的输出强度。b、迭代光学生成模型像数字DDPM一样进行训练。c、经过训练后,在盲推理中,迭代光学生成模型从高斯噪声分布(时间步T)逐渐重建目标数据分布(在时间步0生成图像)。SNR,分布转换系数;p2|,正态分布;p{v2},原始数据分布;q,近似后验概率;x{v3},时间步t的状态,即{v4}。数字DDPM。c、经过训练后,在盲推理中,迭代光学生成模型从高斯噪声分布(时间步T)逐渐重建目标数据分布(在时间步0生成图像)。SNR,分布转换系数;pprior,正态分布;pdata,原始数据分布;q,近似后验概率;xt,时间步t的状态,即It。
针对蝴蝶‑10017和Celeb‑A18数据集的分布,我们训练了两种不同的迭代光学生成模型用于多色图像生成(例如,参见扩展数据图4a)。与每个波长通道使用快照照明生成的多色图像(例如,参见扩展数据图3b)相比,迭代光学生成模型生成的图像具有更清晰的背景,质量更高,这表明它在无需数字扩散指导的情况下实现多样化图像生成的潜力。迭代光学生成模型的另一个关键优势在于,我们在整个训练过程中没有遇到模式崩溃,因为连续的迭代将分布映射任务分解为受不同时间步控制的独立高斯过程。为了更好地突出浅层数字编码器和衍射解码器之间协作的关键作用,我们实现了一个替代的迭代光学生成模型,该模型在Celeb‑A数据集上训练,而没有使用数字编码器。这个无数字编码器的迭代光生成模型也可以创建具有不同风格和背景的人脸多色图像。这表明通过在SLM上直接实现强度到相位的转换,而不使用任何编码器,并结合图像传感器平面上的光电转换,我们可以使用迭代光生成模型实现复杂的域映射——尽管与使用数字编码器的迭代光生成模型的结果相比,性能和图像多样性有所降低。
图3|快照光学生成模型的实验验证。使用空间光调制器SLM/偏振器/分束器/准直器,a,我们实验快照光学生成模型的示意图。编码相位模式,即光生成种子,是预先计算的,并且为每个图像推理任务随机访问。b,快照光学生成模型的照片。c,此面板包含AI生成图像。使用分别针对手写数字和时尚产品训练的光学生成模型进行图像生成的实验结果,遵循MNIST和Fashion‑MNIST的目标数据分布。颜色条(用于归一化强度)和比例尺也显示出来。与原始数据集相比的实验FID评估也显示出来。
通过在SLM上直接实现强度到相位的转换,而不使用任何编码器,并结合图像传感器平面上的光电转换,我们可以使用迭代光生成模型实现复杂的域映射——尽管与使用数字编码器的迭代光生成模型的结果相比,性能和图像多样性有所降低。扩展数据图4a中迭代光学生成模型的中间结果It(t−1=100080020,1,,,...,)也显示在扩展数据图4b中,生动地展示了光生成模型如何逐步将噪声分布映射到目标数据域。迭代光生成模型的FID和IS指标分别显示在扩展数据图4c,d中,其中这些性能评估的细节与扩展数据图3c,d中使用的相同。结果表明,迭代光学生成模型的图像生成性能有了重要提升,其中较低的FID分数表明生成的图像更接近目标分布。此外,更高的IS值以及统计t检验评估表明,迭代光学生成模型可以生成比原始图像数据集更多样化的结果。我们在同一图中还报告了未使用数字编码器训练的迭代光学生成模型的FID和IS值,与联合训练浅层数字编码器的迭代光学生成模型相比,其性能相对较差。
实验演示
我们使用可在可见光谱(图3a)中工作的可重构系统,实验性地演示了快照光学生成模型。激光光(520nm)被准直,以均匀地照射SLM。SLM显示包含由浅层数字编码器处理的预计算相位模式ϕxy(,)的生成光学种子。通过分束器后,由编码相位模式对应的生成光学种子调制的光场由另一个用作固定或静态解码器的SLM进行处理。对于每个光生成模型,优化解码器的状态被固定,相同的架构从一个状态切换到另一个状态,生成遵循不同目标分布的图像。在快照光学生成模型的输出端,图像传感器的强度捕获了生成的图像(参见图3b和详细方法)。
对于初始实验,我们分别基于MNIST15和Fashion‑MNIST数据集16,训练了两个不同的模型,用于生成手写数字和时尚产品的图像。图3c可视化了这两个模型的实验结果,它们在MNIST和Fashion‑MNIST数据集上分别实现了131.08和180.57的实验FID分数。这些图像按照两个目标分布的成功生成突出了所设计系统的通用性,进一步验证了快照光学生成模型的可行性。整体推理时间受限于SLM加载时间,可以通过使用更快的相位光调制器或具有>1kHz帧率的SLM来最小化。手写数字和时尚产品的其他光生成快照图像示例报告在补充图2和3以及补充视频1和2中。
为了进一步探索快照光学生成模型的潜在空间,我们还进行了实验,以研究随机噪声输入与生成图像之间的关系(有关这些潜在空间插值实验和相关分析,请参见方法、扩展数据图5和补充视频3‑9)。我们还使用受限光学设置(补充图4a,b和5)实验性地评估了在有限相位编码空间(例如,0–π/2与0–2π)和有限解码器位深度(例如,4位深度与8位深度)下的快照光学图像生成。图3和补充图4的实验结果性能比较表明,采用大相位位深度对衍射解码器以及增加输入空间光调制器的编码相位范围具有重要意义。
我们进一步扩展了我们的实验结果,以创建梵高风格艺术品的更高分辨率图像,这些图像使用了与图3b中相同的设置。我们通过使用与联合训练的衍射解码器配对的数字编码器,实验性地演示了梵高风格艺术品的快照单色图像生成(扩展数据图6)。数字编码器的架构和处理流程如图6所示。补充图7中的额外比较揭示了衍射解码器在自由空间解码方面的优越性能,使用了相同的数字编码器架构。值得注意的是,尽管自由空间解码在某些情况下完全失败,对比语言图像预训练分数(CLIP分数)44低于10–15,但衍射解码器实现了稳定的图像生成,输出图像质量更好。正如预期的那样,当增加SLM到解码器的距离以匹配我们的实验条件时(补充图7与补充图8对比),我们观察到与数值孔径相关的图像分辨率轻微下降;然而,与自由空间解码相比,基于衍射解码器的方法仍然保持了稳定的图像生成,尽管自由空间解码在多种情况下失败,如图8所示,尽管使用了相同的数字编码器架构。
通过进一步增加数字编码器参数数量(补充表1),我们可以提高光生成的梵高风格艺术品在快照中的分辨率和图像质量;关于可训练参数数量跨越4400万至5.8亿的训练参数的比较,详细内容请参见扩展数据图7。图4和图5展示了使用参数数量为5.8亿的数字编码器进行更高分辨率单色和彩色(红‑绿‑蓝(RGB))图像生成的实验结果。梵高风格艺术品的单色图像是用520纳米照明生成的,而彩色图像则使用了按顺序的波长{450,520,638}纳米为B、G和R通道。在图4中,左侧三列展示了由光学生成模型单次通过创建的快照图像结果,这些结果与数字扩散模型(即具有1.07亿可训练参数和每张图像1000个推理步骤的教师模型)产生的结果非常相似,这表明我们的图像生成过程与教师扩散模型的一致性。相反,右侧三列,用橙色框突出显示,展示了光学模型生成与教师数字扩散模型不同的多样化图像的能力,说明了其在输出端的创造性变化(也请参见补充图9和10中支持我们结论的梵高风格艺术品的额外实验结果)。
对于多色梵高风格艺术品生成,在每个波长通道生成了相位编码的生成种子模式,并依次加载到SLM上。在相应波长的照射下,通过固定或静态衍射解码器生成多色图像,并进行数字合并;换句话说,相同的解码器状态被共享到所有照明波长的图像生成中。图5展示了多色梵高风格艺术品生成结果,包括与教师数字扩散模型输出匹配或不同的艺术示例,该模型使用了10.7亿个可训练参数和每张图像1000个推理步骤。尽管观察到轻微的色差,但生成的高分辨率彩色图像保持了高质量。补充图11和12提供了额外的梵高风格彩色艺术品实验结果。
为了量化实验光生成模型的保真度,补充图13报告了数值模拟结果与实验生成结果之间的峰值信噪比值。这些定量比较针对快照单色和多色光生成模型,表明实验输出与模拟结果一致。此外,补充图14展示了与图4和5所示结果对应的CLIP分数评估,突出了光生成模型实现的语义一致性。
讨论
这项工作通过利用衍射网络架构,从噪声模式中展示了快照光学图像生成。早期的自由空间光学网络主要关注于任务,例如计算成像和传感、噪声估计和滤波,或数据分类22,35,36,45–51。相比之下,我们的框架从噪声中光生成多样图像,展示了一种高度期望的“创造”快照图像生成能力,超出了先前研究的范围。此外,无需改变其架构或物理硬件,通过将衍射解码器重新配置为新的优化状态,可以实现针对不同数据分布的光学生成。这种光学生成模型的灵活性可能对边缘计算、增强现实或虚拟现实显示器特别重要,同时也涵盖了不同的与娱乐相关的应用。
我们的结果还表明,在教师DDPM的指导下,目标分布的知识可以被蒸馏,正如我们光学生成模型合成的图像所展示的那样。这种蒸馏使光学生成模型能够有效地捕获语义信息,如扩展数据图8和方法中详细所述。此外,通过模仿扩散过程,我们的迭代光学生成模型可以以自监督的方式学习目标分布,避免了模式崩溃,生成的结果比原始数据集更加多样化,如扩展数据图4所示。此外,迭代光学生成模型有潜力消除对数字编码器的使用,并按照不同的数据分布生成多样输出。相位编码策略也为光学生成模型提供了一种关键的非线性信息编码机制,如扩展数据图9和方法中详细所述。光生成模型通常也存在一些挑战。光学硬件和/或设置中的潜在错位以及物理缺陷带来了挑战。
图4|比较了高分辨率快照光学生成模型在单色梵高风格艺术作品生成方面的数值和实验结果,与使用1,000步的教师数字扩散模型进行对比。该图包含AI生成图像。我们展示了数字教师扩散模型(使用1.07亿可训练参数和每次推理使用1,000步)和快照光学生成模型在单色梵高风格艺术作品生成方面的比较结果,以及快照光学生成模型的实验结果。右边的橙色框揭示了快照光学生成模型与数字DDPM教师和光学模型之间观察到的明显差异,展示了快照光学生成模型创建多样化图像的能力,这些图像超出了数字教师扩散模型产生的图像。数字相位编码器有5.8亿可训练参数,每个快照光学图像都是由唯一的随机噪声输入生成的。输入文本(‘架构’或‘植物’或‘人物’)用于生成不同的艺术品。色条和比例尺也显示出来。更多梵高风格艺术作品生成的实验结果在补充图9和10中提供。快照数字DDPM教师和光学模型之间的差异,展示了快照光学生成模型创建多样化图像的能力,这些图像超出了数字教师扩散模型产生的图像。数字相位编码器有5.8亿可训练参数,每个快照光学图像都是由唯一的随机噪声输入生成的。输入文本(‘架构’或‘植物’或‘人物’)用于生成不同的艺术品。色条和比例尺也显示出来。更多梵高风格艺术作品生成的实验结果在补充图9和10中提供。
另一个挑战是用于物理表示生成光学种子和解码器层的光学调制器设备或表面的相位位深有限。为了研究这一点,我们数值分析了三种相位位深级别不同的场景,并通过在测试过程中施加这些约束来评估其影响(补充图15)。值得注意的是,未施加这些约束训练的模型尽管在测试过程中存在相位位深限制,仍然能够生成手写数字。为了缓解这些光学设置中的挑战,可以将这些限制直接整合到训练过程中,使基于计算机模拟优化的系统更好地与物理限制和本地硬件的能力相匹配。这种策略与在训练过程中未考虑此类位深限制的模型相比,带来了显著的性能提升(补充图15)。这项分析的一个关键见解是,一个相对简单的解码器表面,只需三个离散相位级别(每个特征仅覆盖0,2π/3或4π/3)就足够了,这为用被动、薄的表面替代解码器打开了大门,例如通过双光子聚合或基于光学光刻的纳米加工技术2π制造。这将进一步简化本地光学生成模型的物理设置,同时也使其更加紧凑、轻便和成本效益高,为用被动、薄的表面替代解码器打开了大门,例如通过双光子聚合或基于光学光刻的纳米加工技术52,53制造。这将进一步简化本地光学生成模型的物理设置,同时也使其更加紧凑、轻便和成本效益高。采用所提出的方法,还可以设计空间和/或光谱复用的光生成模型,以在不同的空间和光谱通道上并行生成许多独立的图像(例如,参见方法和扩展数据图10,用于光谱复用光生成模型)。此外,受益于衍射解码器在快速处理视觉信息方面的固有优势,光生成模型还可以实现体积内的三维图像生成,这可能为增强现实、虚拟现实和与娱乐相关的应用等开辟机会。在线内容任何方法、附加参考文献、自然组合报告摘要、源数据、扩展数据、补充信息、致谢、同行评审信息;作者贡献和竞争利益的详细信息;以及数据和代码可用性声明可在https://doi.org/10.1038/s41586‑025‑09446‑5获取。