版本对比 - 灵光算法及模型备案公示说明

灵光算法及模型备案公示说明

平台：支付宝

🔗 查看政策原文

📄 上一个版本

2025年12月29日

📄 当前版本

2026年05月08日

🤖 AI智能分析

分析时间: 2026年05月08日

好的，作为一位严谨的政策分析专家，我将对您提供的这两份文件版本进行一次深入的、按时间顺序的比较分析。 --- ### **1. 总体评估** 本次从 **2025年12月29日** 到 **2026年05月08日** 的更新，属于 **重大修订**。核心标志是新增了两个全新的生成式AI算法：`视频生成算法` 和 `音乐生成算法`。这表明“灵光”服务在数月内实现了从“对话与图像生成”到“多模态内容生成”的重大功能升级，从根本上扩展了其应用范围和能力边界。这部分变更不仅是内容的增加，更涉及服务本质的重大变化。 ### **2. 详细变更点分析** 以下分析了所有实质性变更，并按其在文件中的出现顺序排列。 1. **变更类型**: **新增** * **变更内容**: 在原有的“智能对话生成算法”和“图像生成算法”之后，新增了 **“支付宝视频生成算法”** 及其详细信息。包括其算法基本原理（基于时空扩散模型）、运行机制（多模态输入解析、潜空间扩散去噪、后处理）、应用场景（AIGC内容创作）和备案编号（`网信算备330106616449901260079号`）。 * **潜在影响**: 对用户而言，这意味着灵光服务的能力大幅拓展。用户现在不仅可以用文字对话或生成图片，还能通过简单的文本或图片输入，生成高保真的动态视频片段。这极大降低了专业视频制作的门槛，但同时也引入了关于AI生成视频的版权、真实性、用于深度伪造等新的风险点和责任。用户需要特别注意文件中“特别提示”部分关于禁止滥用和标识的要求。 2. **变更类型**: **新增** * **变更内容**: 在新增的视频生成算法之后，继续新增了 **“支付宝音乐生成算法”** 及其详细信息。该算法基于大语言模型和扩散模型，能够根据用户输入的文本或图片生成包含歌词和伴奏的完整音乐。其备案编号为`网信算备330106616449901260087号`。 * **潜在影响**: 这是另一项里程碑式的功能提升。灵光从一个纯文本/图像交互工具，进一步跃升为能被用于音乐创作的平台。用户可以根据个人学习、研究、欣赏、娱乐等需求创作音乐。这带来了音乐版权归属（用户输入 vs AI生成内容）、AI生成音乐是否受著作权保护等新的法律和伦理问题。 3. **变更类型**: **修改** * **变更内容**: 原文件“二、算法原理说明”下的算法表格仅有两个：`智能对话生成算法` 和 `图像生成算法`。新版本在此列表中插入了上述两个新算法，形成了一个包含四个算法的列表。文件结构未发生根本变化，但内容体量显著增加。 * **潜在影响**: 文件变得更长、更详细，信息量剧增。虽然有利于用户全面了解服务，但也可能增加用户阅读和理解的难度。 4. **变更类型**: **修改** (实质上是结构保持，但内容已随上述新增变化) * **变更内容**: 旧文件中的“三、大模型原理说明”仅在概念上描述了`AntGLM`。新版本未修改这部分内容，但整个文档的功能背景已经完全改变。之前`AntGLM`是底层核心模型，而现在新增的四个算法（特别是生成类算法）也均依赖深度学习模型。 * **潜在影响**: 这揭示了灵光平台的AI能力架构正在从单一的“大模型对话应用”向“多算法模型协同”的复杂生态演进。用户在享受多样化服务时，实际上在使用一个由多套独立备案的算法和基础大模型构成的复合系统。 ### **3. 结论** 本次更新是一次 **功能层面的重大升级**。核心变化在于“灵光”服务正式引入了视频和音频内容的AI生成能力，从文本和图像领域扩展到了更广泛的多模态内容创作。这对用户而言，意味着获得了功能更强大、场景更丰富的AI工具。然而，用户也必须清醒认识到，随着生成能力的大幅增强，误用、滥用（如生成虚假视频或侵犯版权）的风险也随之增加。用户需要更加仔细地阅读和理解“灵光服务的局限性以及对您的特别提示”部分，特别是关于标注AI生成内容和禁止传播虚假信息的条款，以合法、合规、负责任地使用这些新功能。 --- *分析由 DeepSeek 提供*

删除的内容

新增的内容

修改的内容

上一个版本 (2025年12月29日 )		当前版本 (2026年05月08日)
1	灵光算法及模型备案公示说明	1	灵光算法及模型备案公示说明
2		2
3	灵光算法及模型备案公示说明	3	灵光算法及模型备案公示说明
4		4
5	为依法保障用户对灵光算法及模型的基本原理、目的意图和主要运行机制的知情权，告知用户灵光提供的算法及模型情况，并保障用户的知情权，我们特别制定本《灵光算法及模型备案公示说明》，帮助用户充分了解在使用灵光产品和服务的过程中我们如何通过算法及模型向用户提供信息和服务，以便用户更好地作出选择。	5	为依法保障用户对灵光算法及模型的基本原理、目的意图和主要运行机制的知情权，告知用户灵光提供的算法及模型情况，并保障用户的知情权，我们特别制定本《灵光算法及模型备案公示说明》，帮助用户充分了解在使用灵光产品和服务的过程中我们如何通过算法及模型向用户提供信息和服务，以便用户更好地作出选择。
6		6
7	一、适用范围	7	一、适用范围
8	本说明适用于灵光服务提供者以客户端形态向您提供的各项产品和服务。	8	本说明适用于灵光服务提供者以客户端形态向您提供的各项产品和服务。
9		9
10	二、算法原理说明	10	二、算法原理说明
11		11
12	灵光使用的部分算法如下：	12	灵光使用的部分算法如下：
13		13
14	\| \| \|	14	\| \| \|
15	\| --- \| --- \|	15	\| --- \| --- \|
16	\| 算法名称 \| 支付宝智能对话生成算法 \|	16	\| 算法名称 \| 支付宝智能对话生成算法 \|
17	\| 算法基本原理 \| 应用场景：主要是用于客戶在蚂蚁灵光 “Fast Research”功能进行问题求助及搜索时的回复。主要功能：智能对话算法原理：生成算法是输入为文本，输出为文本的自回归生成模型，以Transformer 为主要模型架构，结合蚂蚁标准问题库和知识库，通过算法模型对用户咨询问题进行理解并进行交互回复，和用户进行完整的多轮对话。目标提供用户包含对话理解，问题解决的智能多轮对话服务。输入模态：文本；输出模态：文本 \|	17	\| 算法基本原理 \| 应用场景：主要是用于客戶在蚂蚁灵光 “Fast Research”功能进行问题求助及搜索时的回复。主要功能：智能对话算法原理：生成算法是输入为文本，输出为文本的自回归生成模型，以Transformer 为主要模型架构，结合蚂蚁标准问题库和知识库，通过算法模型对用户咨询问题进行理解并进行交互回复，和用户进行完整的多轮对话。目标提供用户包含对话理解，问题解决的智能多轮对话服务。输入模态：文本；输出模态：文本 \|
18	\| 算法运行机制 \| 用户通过蚂蚁灵光“Fast Research”功能进行问题搜索时，咨询及搜索对话经过去标识化处理，在无法识别用户身份的情况下进行存储。在模型训练阶段，从问题维度对已存储对话进行抽样，用于智能客服/智能助理算法模型训练，获得不断优化的算法模型。通过部署已训练模型对用户提供智能算法服务时，对用户咨询/搜索内容进行标识化处理后，基于模型提供问题理解、话术推荐、内容推荐和內容生成等能力完成对话。 \|	18	\| 算法运行机制 \| 用户通过蚂蚁灵光“Fast Research”功能进行问题搜索时，咨询及搜索对话经过去标识化处理，在无法识别用户身份的情况下进行存储。在模型训练阶段，从问题维度对已存储对话进行抽样，用于智能客服/智能助理算法模型训练，获得不断优化的算法模型。通过部署已训练模型对用户提供智能算法服务时，对用户咨询/搜索内容进行标识化处理后，基于模型提供问题理解、话术推荐、内容推荐和內容生成等能力完成对话。 \|
19	\| 算法应用场景 \| 蚂蚁灵光“Fast Research”功能 \|	19	\| 算法应用场景 \| 蚂蚁灵光“Fast Research”功能 \|
20	\| 算法目的意图 \| 通过提供包含对话理解，问题解决的智能多轮对话服务，能更高效，快捷的响应用户咨询和诉求。 \|	20	\| 算法目的意图 \| 通过提供包含对话理解，问题解决的智能多轮对话服务，能更高效，快捷的响应用户咨询和诉求。 \|
21	\| 备案编号 \| 网信算备330106616449901230019号 \|	21	\| 备案编号 \| 网信算备330106616449901230019号 \|
22		22
23	\| \| \|	23	\| \| \|
24	\| --- \| --- \|	24	\| --- \| --- \|
25	\| 算法名称 \| 支付宝图像生成算法 \|	25	\| 算法名称 \| 支付宝图像生成算法 \|
26	\| 算法基本原理 \| 基于用户上传的文本或者图像，借助深度学习和扩散模型等技术，在完成主体扣取和低质量输入过滤等前置处理后，实现文本到图像、图像到全新图像的扩散条件生成。 \|	26	\| 算法基本原理 \| 基于用户上传的文本或者图像，借助深度学习和扩散模型等技术，在完成主体扣取和低质量输入过滤等前置处理后，实现文本到图像、图像到全新图像的扩散条件生成。 \|
27	\| 算法运行机制 \| 支付宝图像生成算法，基于用户上传的文本或者图像，通过主体元素检测和分割，以及全新的深度学习和扩散模型算法，完成文本到图像、图像到全新图像等智能生成过程，实现商品图生成、图像风格化等一系列生图类任务。基本的算法流程如下： 1. 输入文本或者1到多张图像 2. 对输入数据预处理，如主体扣取，质量过滤等 3. 将输入数据送到扩散模型中，完成图像生成 4. 输出图像过质量和安全模块 \|	27	\| 算法运行机制 \| 支付宝图像生成算法，基于用户上传的文本或者图像，通过主体元素检测和分割，以及全新的深度学习和扩散模型算法，完成文本到图像、图像到全新图像等智能生成过程，实现商品图生成、图像风格化等一系列生图类任务。基本的算法流程如下： 1. 输入文本或者1到多张图像 2. 对输入数据预处理，如主体扣取，质量过滤等 3. 将输入数据送到扩散模型中，完成图像生成 4. 输出图像过质量和安全模块 \|
28	\| 算法应用场景 \| 支付宝相关app的C端运营等各类场景。 \|	28	\| 算法应用场景 \| 支付宝相关app的C端运营等各类场景。 \|
29	\| 算法目的意图 \| 通过智能生图算法，完成高质量、有艺术性的图像效果生成，提升C端用户参与度等。 \|	29	\| 算法目的意图 \| 通过智能生图算法，完成高质量、有艺术性的图像效果生成，提升C端用户参与度等。 \|
30	\| 备案编号 \| 网信算备330106616449901240021号 \|	30	\| 备案编号 \| 网信算备330106616449901240021号 \|
31		31
		32	\| \| \|
		33	\| --- \| --- \|
		34	\| 算法名称 \| 支付宝视频生成算法 \|
		35	\| 算法基本原理 \| 基于时空扩散模型(Spatio-Temporal Diffusion Model)和多模态融合技术，该算法能够接收文本、单张或多张图像作为输入，生成高保真度的动态视频。其核心是利用一个大型的Transformer架构，在潜空间(Latent Space)中学习视频数据在空间(画面内容)和时间(运动变化)上的联合分布。模型通过在巨大的视频-文本-图像数据集上进行预训练，理解语义、风格和动态变化规律，并在生成时通过迭代去噪过程，将随机噪声逐步精炼成符合用户输入条件的、连贯的视频片段。输入模态：文本和图像；输出模态：视频 \|
		36	\| 算法运行机制 \| 该算法是一个复杂的、异步执行的多模态生成系统，其运行机制可分解为以下核心步骤: 1. 多模态输入解析与编码: 文本(Prompt)输入：接收用户的文本描述(prompt)和负向提示(negative\_prompt)，通过一个文本编码器(如 CLIP Text Encoder)将其转换为语义向量。图像(Image)输入：接收用户上传的图像(images或img\id)，通过一个图像编码器(如 CLIP Vision Encoder)将其转换为视觉特征向量，用于初始化视频内容、定义角色或指定整体风格。 * 控制参数解析：解析camera\movement、movement\amplitude、style 等控制参数，将其转换为引导信号，用于在生成过程中精确控制镜头动态和视觉风格。 2. 核心视频生成(潜空间扩散去噪): * 将编码后的文本向量、图像特征和控制信号进行融合，作为扩散模型的条件输入。 * 在潜空间中，模型从一个符合目标分辨率和时长的随机噪声张量开始。 * 在多个时间步(timestep)上迭代地预测并去除噪声，每一步都依据融合后的条件信号进行引导，逐步生成清晰、连贯的视频潜空间表示。 3. 视频解码与后处理: * 将最终去噪完成的视频潜空间表示通过一个视频解码器(Decoder VAE)，还原成像素级别的视频帧序列。 * 音频合成(可选)：如果audio为true，则调用一个文本到语音(TTS)模型，使用prompt作为文本和指定的voice\id，生成同步的旁白或音效，并将其与视频流合并(Muxing)。任务状态管理：整个过程作为后台异步任务执行，并通过task\_id 和state(queueing, processing, success/failed)向用户反馈处理进度。输出：任务成功后，生成带有可选水印(watermark)的最终视频文件，并提供访问链接。 \|
		37	\| 算法应用场景 \| 该算法凭借其强大的文本/图像到视频生成能力和丰富的可控性，适用于广泛的创意场景: * AIGC 内容创作：个人快速生成富有创意的视频/Vlog 片段、多媒体内容、动态表情包和视觉故事。 \|
		38	\| 算法目的意图 \| 通过提供一个高度可控、多模态驱动的智能视频生成服务，实现以下核心目标: 降低创作门槛：使不具备专业视频制作技能的普通用户，也能通过简单的文本或图片输入，创作出具有专业水准的视频内容，赋能个体创作者。提升生产效率：将传统数小时甚至数天的视频制作流程缩短至分钟级别，实现内容生产的规模化和自动化。 \|
		39	\| 备案编号 \| 网信算备330106616449901260079号 \|
		40
		41	\| \| \|
		42	\| --- \| --- \|
		43	\| 算法名称 \| 支付宝音乐生成算法 \|
		44	\| 算法基本原理 \| 支付宝音乐生成算法能够基于用户上传的文本、图片等信息，使用基于深度学习的大语言模型和扩散模型算法，结合用户输入的提示词指令完成音乐及歌词生成。 \|
		45	\| 算法运行机制 \| 用户输入提示词文本(或上传图片)后，符合要求的请求会进入意图识别模块，采用大语言模型识别用户的具体生成意图，并生成相应风格和需求的歌词及曲风描述文本；随后歌词和曲风描述文本会经过音乐生成模型，生成相应的音乐，包含人声对歌词的演唱及背景伴奏乐；最后，返回音乐和歌词，显示到用户界面。具体包括: 文生音乐和图生音乐：1)基于上述生成的歌词和歌曲描述文本，通过文本token化，基于全新的扩散模型，完成文/图生成音乐的过程；2)输入模态：文本(文生音乐)或文本加图像 (图生音乐)；3)输出模态：音乐/音频歌词生成：1)基于用户上传的意图提示词文本和/或图像，通过大语言模型判断意图，并生成相应的歌词文本和歌曲风格描述文本；2)输入模态：文本和或图像；3)输出模态：文本 \|
		46	\| 算法应用场景 \| 算法应用于人工智能相关应用产品文生音乐/图生音乐场景。 \|
		47	\| 算法目的意图 \| 根据用户指令为用户基于个人学习、研究、欣赏、娱乐等需求提供专业的内容和服务，实现文生音乐、图生音乐等音乐生成类任务。 \|
		48	\| 备案编号 \| 网信算备330106616449901260087号 \|
		49
32	三、大模型原理说明	50	三、大模型原理说明
33		51
34	灵光使用的通用大模型信息如下：	52	灵光使用的通用大模型信息如下：
35		53
36	模型名称：AntGLM	54	模型名称：AntGLM
37		55
38	模型备案编号：ZheJiang-AntGLM-20231019	56	模型备案编号：ZheJiang-AntGLM-20231019
39		57
40	模型应用场景：AntGLM主要应用于灵光端内的文生文、问答对话等共功能。	58	模型应用场景：AntGLM主要应用于灵光端内的文生文、问答对话等共功能。
41		59
42	四、模型的控制与管理	60	四、模型的控制与管理
43		61
44	如果您认为模型的回复可以改进或纠正，可使用灵光的反馈功能告知我们。感谢您的反馈！	62	如果您认为模型的回复可以改进或纠正，可使用灵光的反馈功能告知我们。感谢您的反馈！
45		63
46	五、管理您的个人信息	64	五、管理您的个人信息
47		65
48	我们非常重视您对个人信息的管理，如果您对相关法律赋予的个人信息权利的行使，有任何主张、要求或者疑问，您可以通过privacy-protection-officer@service.alipay.com与我们联系，我们将尽快审核所涉问题，并在验证您的用户身份后的十五个工作日内回复。	66	我们非常重视您对个人信息的管理，如果您对相关法律赋予的个人信息权利的行使，有任何主张、要求或者疑问，您可以通过privacy-protection-officer@service.alipay.com与我们联系，我们将尽快审核所涉问题，并在验证您的用户身份后的十五个工作日内回复。
49	如果我们停止运营，我们将及时停止收集您个人信息的活动，将停止运营的通知以逐一送达或公告的形式通知您，并对所持有的您的个人信息进行删除或匿名化处理。	67	如果我们停止运营，我们将及时停止收集您个人信息的活动，将停止运营的通知以逐一送达或公告的形式通知您，并对所持有的您的个人信息进行删除或匿名化处理。
50		68
51	六、灵光服务的局限性以及对您的特别提示	69	六、灵光服务的局限性以及对您的特别提示
52		70
53	生成式人工智能可以为社会带来当前和潜在的好处，但是，由于技术限制或伦理问题，我们也十分关注模型被滥用的可能。如您选择继续使用灵光，您应充分知悉并同意以下：	71	生成式人工智能可以为社会带来当前和潜在的好处，但是，由于技术限制或伦理问题，我们也十分关注模型被滥用的可能。如您选择继续使用灵光，您应充分知悉并同意以下：
54	鉴于机器学习和人工智能的性质，灵光难以保证模型生成内容的真实性、准确性、可靠性，灵光可能会提供不正确、虚假的输出。输出仅供一般信息和参考之用，不构成您应该依赖的信息或建议，也不应成为您采取或避免采取任何行动的依据。您应该根据您的需求评估任何输出的准确性。在根据输出采取或避免采取任何行动之前，应当严肃考虑进一步咨询专业人士的建议。	72	鉴于机器学习和人工智能的性质，灵光难以保证模型生成内容的真实性、准确性、可靠性，灵光可能会提供不正确、虚假的输出。输出仅供一般信息和参考之用，不构成您应该依赖的信息或建议，也不应成为您采取或避免采取任何行动的依据。您应该根据您的需求评估任何输出的准确性。在根据输出采取或避免采取任何行动之前，应当严肃考虑进一步咨询专业人士的建议。
55	我们非常重视模型的内容安全问题，将努力采取合理的安全措施来过滤模型产出的不当/有害内容，保障其输出结果尽量符合规范预期，但无法完全排除仍有失误出现的情况。如果您遇到此种情况，请及时与我们反馈，我们将及时处理虚假、危险、偏见信息，以进一步优化模型。	73	我们非常重视模型的内容安全问题，将努力采取合理的安全措施来过滤模型产出的不当/有害内容，保障其输出结果尽量符合规范预期，但无法完全排除仍有失误出现的情况。如果您遇到此种情况，请及时与我们反馈，我们将及时处理虚假、危险、偏见信息，以进一步优化模型。
56	您应对您输入的内容负责，应确保您输入的内容未侵害他人权利，且请勿输入涉嫌违法、不良的内容。	74	您应对您输入的内容负责，应确保您输入的内容未侵害他人权利，且请勿输入涉嫌违法、不良的内容。
57	特别提示，您不得利用深度学习等新技术新应用制作、发布、传播虚假信息。您在发布或传播基于深度学习等新技术新应用生成的信息时，应当以显著方式予以标识或提示。您不应删除或者以令人误导的方式修改本软件基于深度学习、虚拟现实等新技术新应用添加的标识。	75	特别提示，您不得利用深度学习等新技术新应用制作、发布、传播虚假信息。您在发布或传播基于深度学习等新技术新应用生成的信息时，应当以显著方式予以标识或提示。您不应删除或者以令人误导的方式修改本软件基于深度学习、虚拟现实等新技术新应用添加的标识。
58		76
59	七、联系我们	77	七、联系我们
60		78
61	privacy-protection-officer@service.alipay.com	79	privacy-protection-officer@service.alipay.com