在多模态内容中,视频是最具综合表现力的一种形式。它能够把图像、文字和声音串联在时间线上,带来沉浸感和叙事效果。无论是课程展示、科研汇报,还是日常表达与创意创作,视频都已经成为不可或缺的媒介。

如今,生成式人工智能大幅降低了视频制作门槛。只需输入一段文字,或提供一张图片,就能通过“可灵”等平台生成动态画面。而DeepSeek的价值更多体现在前端支持,帮助构思主题、润色脚本、整理字幕与解说稿,使后续的视频生成与编辑更加高效和专业。

5.3.1 文生视频

基于文字生成视频是指通过输入一段文字描述,让人工智能模型自动生成与之相匹配的视频内容。过去,这样的任务需要团队拍摄和后期剪辑,如今只需一段简洁的文字,就能在数分钟内得到可播放的视频成品。这一技术大大降低了视频创作的门槛,让更多人能够通过视频来记录和表达。

应用示例:大一学生的一天

假设有人想制作一段40秒的短视频,展示“大一学生的一天”,用来作为开学季的分享视频。最初的想法可能只是:“拍一个新生一天的生活。”这样的描述过于笼统,不利于生成视频。通过DeepSeek的辅助,模糊的想法可以被扩展为更具体的分镜脚本。

在DeepSeek中输入:“我想制作40秒的短视频,展示“大一学生的一天”,用来作为开学季的分享视频。要标注出分镜的镜头角度和镜头距离,可以出5-6个分镜头。需要加上分镜头描述。”

输出结果如下:

镜头一:清晨食堂(中景+特写)

镜头扫过餐盘:热气腾腾的包子和一杯豆浆。切换到一位新生端着餐盘坐下,神情专注,背景虚化,只隐约可见其他同学。

镜头二:上午课堂(推近镜头)

教室场景,老师在讲解 PPT。镜头对准一名新生翻开课本、认真做笔记的动作,手中的钢笔特写。背景点缀少量学生轮廓,氛围安静。

镜头三:午后校园小道(远景+慢推)

阳光透过树叶洒下,林荫道上一到两名同学边走边交谈。镜头从远处缓慢推进,突出校园环境的静谧美感。

镜头四:傍晚操场(广角+背影)

夕阳余晖下,操场跑道上两三位学生慢跑,镜头聚焦他们的背影。背景传来远处球场的模糊欢呼声,烘托氛围。

镜头五:夜晚自习室(环绕+定格)

自习室一角,几位学生在安静学习。镜头环绕到一位新生,特写桌上摊开的书本与电脑屏幕,灯光柔和。

镜头六:校园夜景收尾(拉远镜头)

夜色渐浓,图书馆灯火通明。镜头缓缓拉远,整个校园在点点灯光中显得安静而庄重。字幕出现:“新的旅程,从这里开始。”

有了这样的分镜脚本,接下来就可以依次将文字提示输入到视频生成平台(如“可灵”)。每一段提示会生成一小段视频素材,如图5-7所示,画面风格也能在过程中进行微调,例如强调写实感、增强夕阳氛围或营造安静的学习气息。待所有分镜素材生成完毕,再导入视频剪辑工具(如“剪映”)进行整合,加入配音、字幕、背景音乐或转场效果,一段叙事完整的短片便宣告完成。

图5-7:生成分镜

在这一流程中,DeepSeek并不直接生成视频,而是承担了“从构想到脚本”的关键环节:它能将模糊的想法扩展为具体的分镜,提示合适的镜头角度和拍摄手法,并为画面增加情绪化的表达(如“夕阳”“灯火通明”“轻松氛围”)。有了这样的前期准备,后续的视频生成就会更加贴近设想,从而让文字真正化为流动的影像。

5.3.2 图生视频

与文字生成视频不同,“图生视频”是指通过输入一张静态图片,AI 模型在此基础上生成短暂的动态画面。它的特点在于能让静止的画面获得短暂的动态延展,哪怕只有几秒钟,也能营造出身临其境的感受。

应用示例:德国小镇广场的旅行照片

设想某人在德国南部旅行时,拍下了一张小镇广场的照片。画面中是色彩鲜艳的楼宇和广场前的摊位,蓝色和黄色的遮阳伞格外醒目,人群在伞下熙熙攘攘,如图5-8所示。原本这只是一张静态留影,而通过图生视频的方式,可以让它变成一段约5秒的短视频。

图5-8:德国南部小镇广场

在DeepSeek的辅助下,首先需要对画面进行扩展性描述,例如:“德国南部小镇的夏日广场。画面中心是一栋橙色外墙的四层旅馆,屋顶在阳光下闪耀。广场上摆满蓝色和黄色的遮阳伞,摊位上人群熙熙攘攘。天空中白云慢慢漂移,树叶在微风中轻轻摇动。前景中行人悠闲走动,偶尔有游客停下脚步。画面整体保持节日般的热闹氛围,色彩明亮,阳光温暖。”

在视频生成平台(如“可灵”)中,将照片与扩展后的文字描述一并输入,选择时长和画面比例后,几分钟内就能生成一段动态视频,如图5-9所示。

图5-9:图生视频效果

应用场景

图生视频特别适合旅行照片、校园合影或学术海报的再加工。它能在保留原始内容的同时,让画面更有表现力和感染力:一张普通的照片因此转化为动态的故事片段,更适合分享到课堂展示、个人vlog或社交平台。DeepSeek在其中的作用,就像一个‘描述扩展器’,帮助使用者把照片里潜藏的细节转化为生动的语言,再交给视频生成工具实现。

5.3.3 视频编辑

视频编辑往往被认为是门槛较高的工作,需要专业软件、熟练技巧,以及大量的时间投入。对于大多数人而言,哪怕只是给一段校园活动视频加上字幕、旁白或背景音乐,也可能显得复杂。但随着人工智能工具的发展,视频编辑的部分环节正在被简化,AI成为了一种“辅助策划者”和“自动化助手”。

在这个环节,DeepSeek虽然不能直接完成剪辑操作,但它能够提供前期和后期的关键支持。比如:

  • 文案生成:为活动视频写解说稿、为短片设计开场和收尾的字幕。
  • 字幕整理:将语音识别得到的文字转化为合适的字幕样式,并润色语言。
  • 配音脚本:把零散的内容组织成流畅的口播稿,便于后续用配音工具合成。
  • 剪辑思路:根据素材描述,提出镜头保留、转场衔接或氛围营造的建议。

应用示例:校园宣传片的后期加工

设想某个社团准备发布一段迎新活动的视频,原始素材已经拍摄好,包括舞台表演、观众互动和场地布置等。此时,DeepSeek可以先根据活动主题,生成一份简短的宣传文案,用作视频开场字幕;再为素材编写一段解说稿,突出社团氛围和亮点。随后,这些文字可以交由语音合成工具生成自然的配音。最后,字幕文本与宣传文案一并导入剪辑软件,与画面匹配。通过这种方式,复杂的后期环节就被大大简化。

应用场景

AI辅助视频编辑尤其适合:

  • 校园活动:迎新晚会、毕业典礼、学生活动视频的解说与字幕。
  • 学术汇报:为实验过程或研究成果视频生成简洁的旁白和展示文案。
  • 日常创作:Vlog、学习笔记或社交短片的快速加工。

在这一过程中,DeepSeek更像是一个“文字与创意顾问”,帮助梳理逻辑、润色文案,并将抽象的构想转化为清晰的语言表达。视频生成平台和剪辑软件则完成具体的画面与声音处理。两者结合,使视频编辑不再只是专业人士的技能,而成为人人可用的表达工具。


往期回顾:

【人工智能通识专栏】第一讲:LLM的发展历程

【人工智能通识专栏】第二讲:学会使用DeepSeek

【人工智能通识专栏】第三讲:DeepSeek API调用

【人工智能通识专栏】第四讲:DeepSeek接入渠道

【人工智能通识专栏】第五讲:DeepSeek插件

【人工智能通识专栏】第六讲:DeepSeek第三方应用

【人工智能通识专栏】第七讲:准确描述问题

【人工智能通识专栏】第八讲:精细控制输出

【人工智能通识专栏】第九讲:迭代优化对话

【人工智能通识专栏】第十讲:阅读理解

【人工智能通识专栏】第十一讲:内容写作

【人工智能通识专栏】第十二讲:应用文写作   

【人工智能通识专栏】第十三讲:图像处理

【人工智能通识专栏】第十四讲:语音交互

Logo

技术共进,成长同行——讯飞AI开发者社区

更多推荐