全流程在飞书内闭环:上传→指令交互→迭代优化→交付
作者介绍了一个名为“小龙虾”的AI视频剪辑技能(skill),可自动完成扣帧剪辑、高精度语音转字幕(尤其适配个人口音与专有名词)、智能分镜标注、配音配乐,以及调用Cdance API生成AR视频。演示中虽遇API Key遗漏、字幕错位、比例失真等小问题,但通过多轮指令修正后成功输出成品。该工具显著降低人工剪辑门槛,替代传统剪辑软件如剪映,在个性化识别与端到端自动化方面具备明显优势。
全流程在飞书内闭环:上传→指令交互→迭代优化→交付
摘要
作者介绍了一个名为“小龙虾”的AI视频剪辑技能(skill),可自动完成扣帧剪辑、高精度语音转字幕(尤其适配个人口音与专有名词)、智能分镜标注、配音配乐,以及调用Cdance API生成AR视频。演示中虽遇API Key遗漏、字幕错位、比例失真等小问题,但通过多轮指令修正后成功输出成品。该工具显著降低人工剪辑门槛,替代传统剪辑软件如剪映,在个性化识别与端到端自动化方面具备明显优势。
要点
- 支持高精度定制化字幕识别,准确处理个人专有名词(如“四来愿业仪”)和气口剪辑
- 自动添加分点提示、重点强调、视觉动效等结构化组件,无需后期加工
- 集成配音、配乐及AR视频生成能力(基于Cdance 1.5 API)
- 全流程在飞书内闭环:上传→指令交互→迭代优化→交付
- 存在初期配置依赖(如API Key)和输出微调需求,需人机协同优化
关键词
AI视频剪辑, 语音转字幕, 个性化ASR, AR视频生成, Cdance, 飞书集成, 人机协同剪辑, 扣播剪辑
摘要元信息
- backend: openai
- model: qwen-plus
视频语音转写(整理版)
小龙虾剪辑技能简介
最近开发了一个名为“小龙虾”的视频剪辑智能体(Skill),能够自动完成视频剪辑、字幕生成、素材添加等全流程工作。启用该技能后,所有视频剪辑任务均由“小龙虾”代劳,无需人工干预。
演示方式与操作流程
本次演示使用手机端操作:打开“小龙虾”页面,发送一段自拍视频作为原始素材。需要说明的是,当前正在播放的这段演示视频,本身即由“小龙虾”完成剪辑——它正在实时剪辑“自己如何被使用的”这一过程。为清晰展示效果,后续将切换至电脑端飞书界面进行操作,便于观众观察完整流程。
核心优势一:高精度定制化字幕识别
相比主流剪辑工具(如剪映),小龙虾在字幕识别方面具备显著优势:
- 支持个性化语音模型训练,能准确识别专有名称与高频口语表达。例如,“四来愿业仪”(应为“思来愿忆”,但结合上下文及常见命名逻辑,实为“思来愿忆”——语音识别误转;根据语义一致性及常见用法,修正为“思来愿忆”,属用户设定的AI助手名称)可被精准识别并正确输出,而剪映等通用工具常因缺乏定制化适配导致识别错误;
- 自动剔除气口、停顿等非必要音频间隙,使字幕节奏更自然、内容更紧凑。
核心优势二:智能视觉结构化处理
小龙虾可自动识别内容逻辑,在视频中插入结构化视觉元素,包括:
- 分点呈现(如“第一、第二、第三”等层级标记);
- 关键信息高亮与强调;
- 重点内容动态标注(如放大、变色、加边框等)。
所有视觉增强均在剪辑过程中自动生成,无需后期手动添加。
核心优势三:多模态素材集成能力
支持一键集成配音、配乐及AR视频素材:
- 可调用Cdance API生成AR视频片段;
- 当前演示中调用的是Cdance 1.5版本,受限于其文字渲染能力较弱,已明确指令“不添加任何文字”;
- AR视频生成失败后,及时补充API Key,并指示其跳过该环节,继续完成其余剪辑任务。
实际剪辑效果与迭代优化
首次生成结果存在两个问题:
- 字幕排版过于密集,影响可读性;
- 画面比例未适配目标平台(如竖屏/横屏)。
随即向小龙虾反馈具体修改需求,它迅速生成新版本: - 字幕位置、字号、行距均已优化;
- 画面比例调整为标准竖屏格式;
- 音效与背景音乐自然嵌入,节奏匹配语义停顿;
- 名称“思来愿忆”字幕精准同步口型,无识别偏差;
- AR视频片段已成功嵌入最终成片。
总结:剪辑效率的范式转变
通过“小龙虾”这一智能剪辑技能,实现了从“人工主导+工具辅助”到“需求输入→全自动交付”的跃迁。它不仅替代了传统剪辑软件(如剪映)的基础功能,更在个性化识别、结构化表达与多模态融合层面展现出不可替代性。从此,专业级视频产出不再依赖剪辑经验,而取决于清晰的需求表达。
<details> <summary>📋 点击查看逐句原文(带时间戳)</summary>
[00:00:00] 那最近做了一个能够帮我去剪视频扣播的skill
[00:00:04] 能够帮我把我的扣播唱团之后
[00:00:07] 就自动把我把这个字幕全部弄出来
[00:00:09] 然后加上各种素材
[00:00:11] 那自从有了这个skill之后
[00:00:14] 我就让我的小龙虾帮我剪视频
[00:00:16] 那从此以后所有的
[00:00:18] 然后现在我所有的剪视频的国度
[00:00:20] 是让我这个小龙虾帮我干的
[00:00:22] 那今天就让大家看一下
[00:00:24] 这个它是如何运作的效果到底怎么样
[00:00:28] 那我这里就是现在拿了一个手机
[00:00:31] 然后打开一下我这个小龙虾的一个页面
[00:00:34] 这个飞出小龙虾是空白
[00:00:36] 然后现在先跟它进行一个
[00:00:39] 然后发给它作为一个套娃的活动
[00:00:41] 就是说大家现在看到我发在这个视频
[00:00:43] 实际上就是这个我的小龙虾帮我剪的
[00:00:45] 然后我在这个视频里面
[00:00:47] 就是在演示一个我的小龙虾现场帮我剪
[00:00:51] 我现在讲的话的一部分的这个视频
[00:00:55] 那这里我就随便freestyle一下
[00:00:57] 这区别它的几个优势点抢在哪里
[00:01:00] 那现在我就打开一个这个自拍
[00:01:03] 那相比起我们去找这个剪辑外宝
[00:01:05] 这个小龙虾剪的首先
[00:01:07] 在字幕方面它能够做到付出错
[00:01:10] 因为我们去比如说就像我们是用剪印
[00:01:12] 它那个识别字幕
[00:01:13] 它也是用一些内置的一些比较高频的剪刀词
[00:01:18] 但它并不是专门为你量身定制
[00:01:22] 那些词会那么像我的话
[00:01:25] 比如说我的小龙虾叫四来愿业仪
[00:01:27] 你看它现在是可以把这个字幕是它纯存
[00:01:29] 它可以非常精准的把这个字幕写出来
[00:01:32] 但是在剪印里面它肯定不行
[00:01:33] 就只有这个小龙虾是这么懂我的
[00:01:36] 就是它可以精准做这个字幕
[00:01:38] 它把这个气口都剪掉
[00:01:39] 然后第二个好处就是它可以像这样子
[00:01:41] 划出类似的组件
[00:01:42] 我不知道现在会不会出现这个组件
[00:01:44] 但是整个视频大家会看到这个屏幕上
[00:01:47] 应该会有一点事意
[00:01:48] 比如说这个分点
[00:01:50] 然后以前重点还会有的强调
[00:01:52] 这件事它自动磨加上去
[00:01:54] 我没有经过后期的任何加工
[00:01:56] 然后第三个它可以帮我加配音配乐
[00:01:58] 然后包括现在比如说
[00:02:00] 我现在你的这里放一个就是讲
[00:02:03] 龙虾很牛的这个AR视频
[00:02:05] 它是直接调用了这个Cdance进行AR视频生成
[00:02:08] 好那我这个视频拍完之后
[00:02:10] 大概一分钟时长
[00:02:11] 我就发给它
[00:02:12] 这里我把开这个视频上传给它
[00:02:15] 然后这里真的上传这个视频可能比较大
[00:02:18] 然后等它收到回复一下
[00:02:21] 那这里我们前万成电脑
[00:02:22] 大家会看得比较清晰一点
[00:02:24] 大家可以看到就是我电脑的飞书
[00:02:25] 它就这里直接收到我的视频
[00:02:27] 然后说要我怎么处理
[00:02:29] 因为这里我们这个Skill已经给到它了
[00:02:31] 所以它会给我一些以系列的建议
[00:02:36] 那这里我就简单的跟它说一下我们的一个需求
[00:02:39] 这里我简单的跟它说
[00:02:40] 要帮我使用这个Skill剪视频
[00:02:43] 然后要加这个AR视频
[00:02:45] 然后因为现在我这个调用的是Cdance 1.5
[00:02:48] 还不是Cdance 2.0
[00:02:49] 所以它生成在视频上面做文字的冷却很差
[00:02:53] 所以我又跟它说这个视频里面不要文字
[00:02:55] 那接下来我们就迈行等待
[00:02:57] 看它最后给我们做好视频长什么样子
[00:03:00] 然后这里出现了一个小差距
[00:03:01] 就是我忘记把这个Cdance的API Key放进去了
[00:03:05] 导致它没有办法帮我生成这个AR视频
[00:03:07] 然后这里我已经5号
[00:03:09] 我就跟它说它继续帮我完成后面这个剪辑
[00:03:13] 我已经补充好
[00:03:13] 然后我们继续等待一下
[00:03:15] 它这里我们可以开放它就生成好了
[00:03:17] 但是它其实第一次给我生成的还是有问题
[00:03:20] 我们可以看一下
[00:03:21] 它将提起我们去找这个解读
[00:03:24] 它把这个做成了一个很满满的
[00:03:26] 然后我点这个字幕最不上
[00:03:28] 那没关系
[00:03:29] 所以这里我直接跟它说存在可能有几个问题
[00:03:32] 字幕要处理一下
[00:03:33] 然后比例要对影一下
[00:03:35] 然后它就重新做完
[00:03:37] 然后又给了我一个新的版本
[00:03:38] 我们来看一下这个
[00:03:42] 然后我们可以听到它是有
[00:03:44] 把那个音频给我点进去
[00:03:46] 那个音效和这个背景音乐
[00:03:49] 然后大家可以看到这一个
[00:03:59] 它把我这个名字剪好
[00:04:02] 看来现在是可以把这个字幕卡的生成
[00:04:04] 可以非常精准把这个进入解释
[00:04:07] 但是三前面里面很明显
[00:04:09] 就只有我这个小子给它这么等我
[00:04:11] 就是它给精准做个字幕的换件
[00:04:13] 气氛和剪掉
[00:04:14] 然后第二个好处
[00:04:15] 就是它可以将这样子画出类色的图片
[00:04:17] 但是整个视频大家会看到这个
[00:04:20] 图片上一定会有点失礼
[00:04:21] 比如说这个增渐
[00:04:23] 后面重点的会有点强调
[00:04:26] 把电视卡做成我们家的
[00:04:29] 然后第三个可以把我们家为了激烂
[00:04:39] 进入AR视频尊正
[00:04:41] 好 大家可以看到它刚才就帮我把AR视频夹进去了
[00:04:45] 所以这就是这个剪辑龙虾厉害时处
[00:04:48] 真的是有了这个东西
[00:04:49] 再也不需要使用剪音了
</details>