卡卡字幕助手(VideoCaptioner)是一款基于大型语言模型(LLM)的开源免费视频字幕处理软件,适用于自媒体短视频字幕制作、网课或讲座视频转文字稿、多语种内容本地化等,适用于视频创作者、教育内容制作者、自媒体运营者、字幕翻译团队、视频编辑爱好者等人群。其项目地址为。
- 下载地址见文末
功能特点
- 多平台视频下载与处理:支持从国内外主流视频平台如 B 站、YouTube 等下载视频,并能自动提取视频中的原有字幕进行处理,还支持导入 Cookie 信息,下载需要登录的视频资源。
- 专业的语音识别引擎:提供多种在线识别接口,如 B 接口、J 接口,免费且速度快,效果媲美专业剪辑软件。同时支持本地 Whisper 模型,如 WhisperCpp、fasterWhisper,可保护用户隐私并实现离线处理,其中 fasterWhisper 支持 CUDA,速度更快,时间轴更准确,且能识别中文、英文等 99 种语言,外语效果优秀。还支持人声分离和背景噪音过滤,提升语音识别准确率。
- 字幕智能纠错:利用 LLM 对生成的字幕进行智能纠错,自动优化专业术语、代码片段和数学公式格式,基于上下文进行断句优化,提升阅读体验,还支持文稿提示,使用原有文稿或者相关提示优化字幕断句。
- 高质量字幕翻译:结合上下文进行智能翻译,确保译文兼顾全文,采用 “翻译 – 反思 – 翻译” 方法论,通过 Prompt 指导大模型反思翻译,提升翻译质量,使用序列模糊匹配算法,保证翻译后的时间轴与原视频完全一致,支持多种语言翻译。
- 字幕样式调整:提供丰富的字幕样式模板,如科普风、新闻风、番剧风等,支持 SRT、ASS、VTT、TXT 等多种字幕文件格式输出,还支持自定义字幕位置、字体、颜色等样式设置。
- 高效处理:支持批量处理视频,用户可以一次性处理多个视频文件,大大缩短了字幕制作时间,提升处理效率。
技术架构
- 语音识别:基于 OpenAI Whisper 模型。
- 视频处理:采用 FFmpeg 多媒体框架。
- 翻译引擎:支持 Google/Microsoft 翻译 API 等。
软件优势
- 零成本:开源免费,适合个人创作者和小型团队。
- 全链路自动化:支持从视频到语音分离、字幕生成、翻译到导出的一条龙处理。
- 格式兼容性强:可导出与 Premiere/Final Cut Pro 等专业软件兼容的字幕文件。
- 隐私保护:支持本地离线运行,保护用户隐私。
下载地址
- 登录后即可查看网盘地址
- 网盘图标旁数字或英文既是提取码
- 如无对应网盘会员,请先下载到设备再进行解压
© 版权声明
THE END
暂无评论内容