客至汲泉烹茶, 抚琴听者知音

字幕自动生成软件VideoSrt使用介绍

相信大家都有面对外语资料却没有字幕时的无奈经历,之前有个项目,利用Google API实现从语音识别到字幕翻译输出的全流程,不过这个项目配置有点复杂,而且国内使用Google不太方便,因此我也一直没有用。后来国内开发者对其进行了改进,添加了讯飞、百度API,国内使用更方便了,而且提供了发行版,无需再配置python环境,见autosub

今天介绍的软件和auto类似,语音识别使用的是阿里云,翻译可选腾讯和百度。而且提供了GUI界面,小白也能轻松上手。

项目地址:https://github.com/wxbool/video-srt-windows

使用手册:https://www.yuque.com/viggo-t7cdi/videosrt

[scode type="yellow"]本项目只支持在windows系统下使用,如果需要Linux,可以尝试用autosub[/scode]

使用方法

首先下载发行版:https://github.com/wxbool/video-srt-windows/releases

如果你电脑中有ffmpeg环境,可以下载`video-srt-gui-0.2.9.5-x64.zip
版本,如果没有的话,必须下载video-srt-gui-ffmpeg-0.2.9.5-x64.zip`版本

下载后,打开videosrt.exe即可进入程序主界面。

接着就要进行各种配置,在菜单栏里可以找到设置->OSS对象存储设置新建->语音引擎、翻译引擎

阿里云OSS

首先注册一个阿里云账号,进入开通OSS服务:https://oss.console.aliyun.com/

在右侧找到创建Bucket

名称随便填(但不能和其他人的Bucket名一样),区域随便选,其他的默认,但读写权限要改成公共读

接着进入你刚刚创建好的Bucket,可以找到EndPointBucket域名(即软件配置里的EndPointBucketDomain),而BucketName就是你的Bucket名称。

至于AccessKeyIdAccessKeySecret,可以在右上角头像->AccessKey管理中找到。

阿里云语音引擎

登录并开通语音引擎服务:https://nls-portal.console.aliyun.com/

接着在全部项目创建项目,名字随便填

场景中勾选非电话、通用和多语言通用->英语(当然下面也有日语)

发布之后可以在项目名称后面看到appkey,至于AccessKeyIdAccessKeySecret,和上一步的一样。

百度翻译

当然你也可以使用腾讯翻译,只是我觉得百度的效果比较好。

登录百度翻译开放平台:https://fanyi-api.baidu.com/api/trans/product/desktop?req=developer

注册并开通翻译API服务(可以通过实名认证免费升级到高级版)

开发者信息中找到APP ID密匙

使用

没啥好说的,右上角打开某一视频文件,勾选相应选项,生成字幕即可

看看效果:

实际使用下来,感觉影响翻译结果最大的因素是音频分隔方式,比如一段完整的话,本地可能会分割成多段上传识别翻译,这就大大影响了准确度。不过拿它当成辅助字幕生成软件还是不错的。

注意

关于费用:

  • 阿里云OSS上传是免费的,存储的话,不超过40G是不收费的,因此一般这一块是不会产生费用的。
  • 阿里云引擎试用版,录音文件识别每个自然日识别时长不超过2小时,免费试用期限为三个月。超过的话,会产生2.5元/h的费用。
  • 百度云翻译,基础版免费,高级版每月前200万字符免费,超出后49元/百万字符。

添加新评论取消回复