这次想讲一下通过合成音直播。

我自己也不是非常了解,只是简单地说一下自己的想法,还请各位大佬留情。

说到使用语音合成的vtuber,大家比较熟悉的可能是野良喵(のらきゃっと,不是2434的野良猫)。野良喵用voiceroid的绁星灯来说话。从直播里不难看出,他是先进行语音识别,然后转合成。

那么这种功能怎么实现呢?霓虹有一款软件叫ゆかりねっと(yukari net,下文就简称YN吧),完全免费、一直在更新、轻便小巧。

在YN之前,有一款叫NAMAROID的软件,大概算是识别转合成的始祖了。但是NAMAROID比较老旧,而且很久没更新了,不是特别好用。

所以我们就只说YN。YN可以连接voiceroid、cevio、softalk之类的经典软件,还可以配置字幕,但是连接不了网页朗读,并且上述支持都没有中文声库

这咋办嘛,我不会日语啊,识别后合成语音这条路就走不通了呀……

下面是我自己想的笨办法,有两条:

第一个是使用语音识别软件输入,然后手动合成语音。搜狗输入法就有这项功能,所以应该不难实现。

第二个是完 全 手 打。自己打字,然后点击输出。其实也好,不用说话了……而且还能练出祖安手速。

输出的话其实可以不用手点,通过语音也可以实现,大概。我在找资料的时候看到了龙声(Nuance Dragon)这个软件,它就可以根据语音编辑文档。这样打游戏的时候应该也不会当哑巴了。

live2d音频对口型设定:

首先你的面捕需要有基于音频对口型的设定,如果没有则下文没有任何意义~

首先在设备上安装虚拟声卡,这里推荐Virtual Audio Cable。

之后将合成语音的程序声音输出到虚拟声卡。(如果该程序设置里没有音频输出则戳这里看教程)

将面捕软件的音频对口型设定的输入麦克风选为虚拟声卡。

然后微调细节,完成了√


一段意义不明的话,象征着虚无。