【人工智能通识专栏】第十五讲：视频生成

在这一流程中，DeepSeek并不直接生成视频，而是承担了“从构想到脚本”的关键环节：它能将模糊的想法扩展为具体的分镜，提示合适的镜头角度和拍摄手法，并为画面增加情绪化的表达（如“夕阳”“灯火通明”“轻松氛围”）。过去，这样的任务需要团队拍摄和后期剪辑，如今只需一段简洁的文字，就能在数分钟内得到可播放的视频成品。两者结合，使视频编辑不再只是专业人士的技能，而成为人人可用的表达工具。在视频生成平台（

AI小书房

882人浏览 · 2025-09-14 17:09:05

AI小书房 · 2025-09-14 17:09:05 发布

在多模态内容中，视频是最具综合表现力的一种形式。它能够把图像、文字和声音串联在时间线上，带来沉浸感和叙事效果。无论是课程展示、科研汇报，还是日常表达与创意创作，视频都已经成为不可或缺的媒介。

如今，生成式人工智能大幅降低了视频制作门槛。只需输入一段文字，或提供一张图片，就能通过“可灵”等平台生成动态画面。而DeepSeek的价值更多体现在前端支持，帮助构思主题、润色脚本、整理字幕与解说稿，使后续的视频生成与编辑更加高效和专业。

5.3.1 文生视频

基于文字生成视频是指通过输入一段文字描述，让人工智能模型自动生成与之相匹配的视频内容。过去，这样的任务需要团队拍摄和后期剪辑，如今只需一段简洁的文字，就能在数分钟内得到可播放的视频成品。这一技术大大降低了视频创作的门槛，让更多人能够通过视频来记录和表达。

应用示例：大一学生的一天

假设有人想制作一段40秒的短视频，展示“大一学生的一天”，用来作为开学季的分享视频。最初的想法可能只是：“拍一个新生一天的生活。”这样的描述过于笼统，不利于生成视频。通过DeepSeek的辅助，模糊的想法可以被扩展为更具体的分镜脚本。

在DeepSeek中输入：“我想制作40秒的短视频，展示“大一学生的一天”，用来作为开学季的分享视频。要标注出分镜的镜头角度和镜头距离，可以出5-6个分镜头。需要加上分镜头描述。”

输出结果如下：

镜头一：清晨食堂（中景+特写）

镜头扫过餐盘：热气腾腾的包子和一杯豆浆。切换到一位新生端着餐盘坐下，神情专注，背景虚化，只隐约可见其他同学。

镜头二：上午课堂（推近镜头）

教室场景，老师在讲解 PPT。镜头对准一名新生翻开课本、认真做笔记的动作，手中的钢笔特写。背景点缀少量学生轮廓，氛围安静。

镜头三：午后校园小道（远景+慢推）

阳光透过树叶洒下，林荫道上一到两名同学边走边交谈。镜头从远处缓慢推进，突出校园环境的静谧美感。

镜头四：傍晚操场（广角+背影）

夕阳余晖下，操场跑道上两三位学生慢跑，镜头聚焦他们的背影。背景传来远处球场的模糊欢呼声，烘托氛围。

镜头五：夜晚自习室（环绕+定格）

自习室一角，几位学生在安静学习。镜头环绕到一位新生，特写桌上摊开的书本与电脑屏幕，灯光柔和。

镜头六：校园夜景收尾（拉远镜头）

夜色渐浓，图书馆灯火通明。镜头缓缓拉远，整个校园在点点灯光中显得安静而庄重。字幕出现：“新的旅程，从这里开始。”

有了这样的分镜脚本，接下来就可以依次将文字提示输入到视频生成平台（如“可灵”）。每一段提示会生成一小段视频素材，如图5-7所示，画面风格也能在过程中进行微调，例如强调写实感、增强夕阳氛围或营造安静的学习气息。待所有分镜素材生成完毕，再导入视频剪辑工具（如“剪映”）进行整合，加入配音、字幕、背景音乐或转场效果，一段叙事完整的短片便宣告完成。

图5-7：生成分镜

在这一流程中，DeepSeek并不直接生成视频，而是承担了“从构想到脚本”的关键环节：它能将模糊的想法扩展为具体的分镜，提示合适的镜头角度和拍摄手法，并为画面增加情绪化的表达（如“夕阳”“灯火通明”“轻松氛围”）。有了这样的前期准备，后续的视频生成就会更加贴近设想，从而让文字真正化为流动的影像。

5.3.2 图生视频

与文字生成视频不同，“图生视频”是指通过输入一张静态图片，AI 模型在此基础上生成短暂的动态画面。它的特点在于能让静止的画面获得短暂的动态延展，哪怕只有几秒钟，也能营造出身临其境的感受。

应用示例：德国小镇广场的旅行照片

设想某人在德国南部旅行时，拍下了一张小镇广场的照片。画面中是色彩鲜艳的楼宇和广场前的摊位，蓝色和黄色的遮阳伞格外醒目，人群在伞下熙熙攘攘，如图5-8所示。原本这只是一张静态留影，而通过图生视频的方式，可以让它变成一段约5秒的短视频。

图5-8：德国南部小镇广场

在DeepSeek的辅助下，首先需要对画面进行扩展性描述，例如：“德国南部小镇的夏日广场。画面中心是一栋橙色外墙的四层旅馆，屋顶在阳光下闪耀。广场上摆满蓝色和黄色的遮阳伞，摊位上人群熙熙攘攘。天空中白云慢慢漂移，树叶在微风中轻轻摇动。前景中行人悠闲走动，偶尔有游客停下脚步。画面整体保持节日般的热闹氛围，色彩明亮，阳光温暖。”

在视频生成平台（如“可灵”）中，将照片与扩展后的文字描述一并输入，选择时长和画面比例后，几分钟内就能生成一段动态视频，如图5-9所示。

图5-9：图生视频效果

应用场景

图生视频特别适合旅行照片、校园合影或学术海报的再加工。它能在保留原始内容的同时，让画面更有表现力和感染力：一张普通的照片因此转化为动态的故事片段，更适合分享到课堂展示、个人vlog或社交平台。DeepSeek在其中的作用，就像一个‘描述扩展器’，帮助使用者把照片里潜藏的细节转化为生动的语言，再交给视频生成工具实现。

5.3.3 视频编辑

视频编辑往往被认为是门槛较高的工作，需要专业软件、熟练技巧，以及大量的时间投入。对于大多数人而言，哪怕只是给一段校园活动视频加上字幕、旁白或背景音乐，也可能显得复杂。但随着人工智能工具的发展，视频编辑的部分环节正在被简化，AI成为了一种“辅助策划者”和“自动化助手”。

在这个环节，DeepSeek虽然不能直接完成剪辑操作，但它能够提供前期和后期的关键支持。比如：

文案生成：为活动视频写解说稿、为短片设计开场和收尾的字幕。
字幕整理：将语音识别得到的文字转化为合适的字幕样式，并润色语言。
配音脚本：把零散的内容组织成流畅的口播稿，便于后续用配音工具合成。
剪辑思路：根据素材描述，提出镜头保留、转场衔接或氛围营造的建议。

应用示例：校园宣传片的后期加工

设想某个社团准备发布一段迎新活动的视频，原始素材已经拍摄好，包括舞台表演、观众互动和场地布置等。此时，DeepSeek可以先根据活动主题，生成一份简短的宣传文案，用作视频开场字幕；再为素材编写一段解说稿，突出社团氛围和亮点。随后，这些文字可以交由语音合成工具生成自然的配音。最后，字幕文本与宣传文案一并导入剪辑软件，与画面匹配。通过这种方式，复杂的后期环节就被大大简化。

应用场景

AI辅助视频编辑尤其适合：