非常标准的胜利。假以时日,您一定能胜过所有弱小生物。——《明日方舟》歌蕾蒂娅
假如《原神》的钟离去《明日方舟》的泰拉大陆转一圈,结果会是如何,会发生什么样的故事?或者, 去FGO的世界呢?啊,反正版权问题那么复杂,我这辈子大概是看不到这样的if线梦幻联动了。B站有一些UP(比如波尔rururu)在做这样的视频,算是实现了一部分这样的幻想。
【资料图】
此外不论是《舟》《原》还是其他的二游,我在玩的时候,经常会有,啊,如果我来做,这里应该“这样这样”的感觉。有一些纯粹是个人喜好,有些则属于是发现游戏中的客观不足。
举例来说,即使是《原神》,也不是所有的剧情对话都有配音。显然,有配音完爆没配音。那么官方为什么不给配音呢?只能是节约成本,毕竟声优是要钱的,多国声优就更烧钱了。此外,还有一个可能的原因就是,语音作为实在的文件,也会增加包体大小,而原神本来包体就大的要命了,但我估计钱的问题是主要的。
只是,玩过有配音的游戏,再玩没配音的,多少觉得差点意思。那么,官方不配,我配,行不行呢?
首先,自己亲自出声读稿子,显然是不太靠谱的。那样对不上声优的声线,会觉得是另外的搞笑配音节目,而不是原本的角色。就算勉强对上了一个角色,(比如我的声音比较接近《白夜极光》里的李天闲),也很难再对上其他的角色了。
那么,官方可以花钱请声优,我们玩家自己可以不可以呢?理论上是可以的。
知乎这里有一篇关于动漫请日本声优的介绍。
https://zhuanlan.zhihu.com/p/450408057
根据我在项目组里的相关同事介绍,游戏业的有所不同。日本的声优不接私活,工作需要由事务所交接,是按照小时收费的。不同声优价格有所不同。我听了价格,具体的数我忘了,但反正不是楼下买个冰棍那样随便买的东西,大概是个显卡的价格。比较糟糕的事,如果想给活动补配音,活动里一般是出场了很多角色,这就导致需要每个声优都请过来,相当贵。
最近随着AI技术的发展,出现了理论上声优配音的可能。当然,除了这种AI短语音生成的VITS模型、AI模仿音色唱歌的SO-VITS-SVC之外,也有一些其他的专门口播API,类似谷歌翻译那样的,跑团记录软件《活字引擎》就接入了百度等提供的这类服务。只是,要做出角色感来,用固定的几个音色还是差一些。尤其是,有的角色已经有配音了,要想模仿他们的声线,就得靠AI重塑了。
AI重做的效果怎么样?只能说,目前还不是很好。我把我做了一上午的《白夜极光》补配音给我妈(没玩过任何二次元游戏)看了。我问,妈,如果满分一百分,你给这个配音打多少分?
三十分儿。
实际上确实有相当的不足。我用的语料是完全中文普通话,但配音出来却时不时地有一股日本大佐味,或者是方言味。就算是偏北京口音的角色“李天闲”,训练出来的也时不时会冒出东北、山东、河南口音,甚至是协和语大佐味,让我满头大汗。这种时候,我会去微调AI的输入文本。比如,
我这手艺,名为算卦。
我给AI念出来的,实在是太大佐味了,那个“卦”字居然读了轻声。所以,我就会把输入文本调整为:
我这手艺啊,名为算案 卦啊。
在“艺”后面加一个“啊”,使得生成结果更接近北京的语气,加一个语气助词也不会太影响观感。我作为一个北京人,如果要说这句话,那么“算卦”两个字我语速一定会变慢,一个个字地念。为了尽量还原这种感觉,我就把“算”字后面补了一个“案”,使得它的拼音实际上变成了suan an这样的的效果,AI连读之后更接近了重音停顿的感觉。“卦”字后面的“啊”也是同理。
当然,还有更离谱的。比如,原文是:
哎哎哎,拉拉扯扯的不成体统,我跟你们的贵客还没说完话呢。
实际的配音用文本是:
AAA,拉拉扯扯的 步成体统,我跟你们的 贵客恶 还没说完话呢。
AI在读“啊”“哈”“诶”“哎”“唉”这样的语气词时,可以说是一团糟,我干脆把英文字母都弄上去了。就像巴黎贝甜那个“AUV”。这一段剧情里也有个“哎呦喂”,但我用字母试了试不是很好。多音字也是灾难。“不”这个字可以读作二声(我不知道怎么命令AI读二声,因为没有这样的字),或者四声(写成“布”),“一”在实际读的时候,一二四声都有,就换作“衣”“移”“议”。
这样的调整几乎每一句都要做,因此,我几乎没有考虑过用MoeGUI这样的批量语音生成套壳。毕竟,每一句都是要人工干预的,没有什么批量性可言。即使同样是用AI生成,人工干预之后也会比不干预好一些,AI不等于敷衍了事,这种方式仍然是投入人的精力越多,成品越好的无底洞。
这是结果,我就先不介绍我的完整工作流了,训练、最终的剪辑什么的以后单开一篇文章,不然根本说不完。
各位想必见过各种好和不好、色和不色的AI图了。
项目组实际生产中,AI一般会用来出一个草图,最后人工修正不合理的部分,不会纯用AI生成然后丢到产品里。就像我们项目组主美的说的,确实是节省了不少时间,但是还不到直接用的程度。
最开始AI没法生成MC这样的16x16像素方块、物品贴图,也不能生成MC皮肤。我训练的模型攻克了生成方块和物品贴图的问题。c站有人训练了MC皮肤的,但问题在于他的完全不受语义控制,比如你说“red eyes”,并不能让ai画出来的皮肤是红眼。UV重新展开后,AI不认得哪里是眼睛了。我试图解决这个问题,成果寥寥。
我的几个视频里,最典型的AI代码视频莫过于用GPT做MC地牢的这期。你可以看到,AI卡在某些bug上过不去,但是写出来的有一点意思了。它能做基本的火柴盒,但是在尖顶屋檐的问题上死活搞不定。
我在做视频的时候,比较克制,有一部分代码问题我没有亲自上阵给他解决(比如梯子的问题),如果我亲自教他的话,还是很有可能学会的。但这里的一个关键是,必须得我自己知道这个问题的解决方案。
实际上,我也经常只让它打个下手,比如“写一个python脚本,把input目录下所有的png图片无插值缩放成256x256,透明部分用纯绿色填充”。这种任务他能完成的很好。但你要是说,“给我写个原神”,那就拉倒吧。
能在网上冲浪的人基本都能打字,虽然可能写的文章没几个人爱看吧。实际上写作往往是最有可能人类不想交给AI的部分,毕竟每个人都觉得我上我也行。
我用过的写作,主要有GPT和彩云小梦。彩云小梦的AI功能接近于续写,一股网文味,如果任由他自己续写自己,很快人物就乱了,需要经常人工干预。GPT写出来的东西条理更清晰,但是他说话一股……翻译腔?如果让他来写作人物的中文对话,实在是太别扭了。
这里面我们省略了动画、特效、音效,不过上面四种素材凑在一起,也足够生产游戏……了吗?
怎么说呢,直接凑在一起,依托答辩。很多UI交互的美观性和易用性都没有考虑到,实际做的时候,直接把四种东西拼在一起,并不能行。有审美能力的人、懂写作技巧、会代码的人,生产出的每种素材都会比不会的更好。
但是,我相信,“假以时日,您一定能胜过所有弱小生物。”
软件在一直迭代,AI也是。小学的我没法考高考,但是上了高中之后就能了。人会变强,AI也会。等到有一天,普通人生产出的东西,在外行人看来与真正的杰作没有区别的时候,就是AI生产胜利的时候,就像抖音里口水歌冲击经典作品一样。那是好是坏呢?不知道,只怕是未来必然的一环。
关键词: