AI生产，一个人能做二次元游戏吗？|世界头条

哔哩哔哩来源：2023-06-22 18:52:16

非常标准的胜利。假以时日，您一定能胜过所有弱小生物。——《明日方舟》歌蕾蒂娅

假如《原神》的钟离去《明日方舟》的泰拉大陆转一圈，结果会是如何，会发生什么样的故事？或者，去FGO的世界呢？啊，反正版权问题那么复杂，我这辈子大概是看不到这样的if线梦幻联动了。B站有一些UP（比如波尔rururu）在做这样的视频，算是实现了一部分这样的幻想。

【资料图】

此外不论是《舟》《原》还是其他的二游，我在玩的时候，经常会有，啊，如果我来做，这里应该“这样这样”的感觉。有一些纯粹是个人喜好，有些则属于是发现游戏中的客观不足。

AI配音

举例来说，即使是《原神》，也不是所有的剧情对话都有配音。显然，有配音完爆没配音。那么官方为什么不给配音呢？只能是节约成本，毕竟声优是要钱的，多国声优就更烧钱了。此外，还有一个可能的原因就是，语音作为实在的文件，也会增加包体大小，而原神本来包体就大的要命了，但我估计钱的问题是主要的。

只是，玩过有配音的游戏，再玩没配音的，多少觉得差点意思。那么，官方不配，我配，行不行呢？

首先，自己亲自出声读稿子，显然是不太靠谱的。那样对不上声优的声线，会觉得是另外的搞笑配音节目，而不是原本的角色。就算勉强对上了一个角色，（比如我的声音比较接近《白夜极光》里的李天闲），也很难再对上其他的角色了。

那么，官方可以花钱请声优，我们玩家自己可以不可以呢？理论上是可以的。

知乎这里有一篇关于动漫请日本声优的介绍。

https://zhuanlan.zhihu.com/p/450408057

根据我在项目组里的相关同事介绍，游戏业的有所不同。日本的声优不接私活，工作需要由事务所交接，是按照小时收费的。不同声优价格有所不同。我听了价格，具体的数我忘了，但反正不是楼下买个冰棍那样随便买的东西，大概是个显卡的价格。比较糟糕的事，如果想给活动补配音，活动里一般是出场了很多角色，这就导致需要每个声优都请过来，相当贵。

最近随着AI技术的发展，出现了理论上声优配音的可能。当然，除了这种AI短语音生成的VITS模型、AI模仿音色唱歌的SO-VITS-SVC之外，也有一些其他的专门口播API，类似谷歌翻译那样的，跑团记录软件《活字引擎》就接入了百度等提供的这类服务。只是，要做出角色感来，用固定的几个音色还是差一些。尤其是，有的角色已经有配音了，要想模仿他们的声线，就得靠AI重塑了。

AI重做的效果怎么样？只能说，目前还不是很好。我把我做了一上午的《白夜极光》补配音给我妈（没玩过任何二次元游戏）看了。我问，妈，如果满分一百分，你给这个配音打多少分？

三十分儿。

实际上确实有相当的不足。我用的语料是完全中文普通话，但配音出来却时不时地有一股日本大佐味，或者是方言味。就算是偏北京口音的角色“李天闲”，训练出来的也时不时会冒出东北、山东、河南口音，甚至是协和语大佐味，让我满头大汗。这种时候，我会去微调AI的输入文本。比如，

我这手艺，名为算卦。

我给AI念出来的，实在是太大佐味了，那个“卦”字居然读了轻声。所以，我就会把输入文本调整为：

我这手艺啊，名为算案卦啊。

在“艺”后面加一个“啊”，使得生成结果更接近北京的语气，加一个语气助词也不会太影响观感。我作为一个北京人，如果要说这句话，那么“算卦”两个字我语速一定会变慢，一个个字地念。为了尽量还原这种感觉，我就把“算”字后面补了一个“案”，使得它的拼音实际上变成了suan an这样的的效果，AI连读之后更接近了重音停顿的感觉。“卦”字后面的“啊”也是同理。

当然，还有更离谱的。比如，原文是：

哎哎哎，拉拉扯扯的不成体统，我跟你们的贵客还没说完话呢。

实际的配音用文本是：

AAA，拉拉扯扯的步成体统，我跟你们的贵客恶还没说完话呢。

AI在读“啊”“哈”“诶”“哎”“唉”这样的语气词时，可以说是一团糟，我干脆把英文字母都弄上去了。就像巴黎贝甜那个“AUV”。这一段剧情里也有个“哎呦喂”，但我用字母试了试不是很好。多音字也是灾难。“不”这个字可以读作二声（我不知道怎么命令AI读二声，因为没有这样的字），或者四声（写成“布”），“一”在实际读的时候，一二四声都有，就换作“衣”“移”“议”。

这样的调整几乎每一句都要做，因此，我几乎没有考虑过用MoeGUI这样的批量语音生成套壳。毕竟，每一句都是要人工干预的，没有什么批量性可言。即使同样是用AI生成，人工干预之后也会比不干预好一些，AI不等于敷衍了事，这种方式仍然是投入人的精力越多，成品越好的无底洞。

这是结果，我就先不介绍我的完整工作流了，训练、最终的剪辑什么的以后单开一篇文章，不然根本说不完。

AI绘图

各位想必见过各种好和不好、色和不色的AI图了。

项目组实际生产中，AI一般会用来出一个草图，最后人工修正不合理的部分，不会纯用AI生成然后丢到产品里。就像我们项目组主美的说的，确实是节省了不少时间，但是还不到直接用的程度。

最开始AI没法生成MC这样的16x16像素方块、物品贴图，也不能生成MC皮肤。我训练的模型攻克了生成方块和物品贴图的问题。c站有人训练了MC皮肤的，但问题在于他的完全不受语义控制，比如你说“red eyes”,并不能让ai画出来的皮肤是红眼。UV重新展开后，AI不认得哪里是眼睛了。我试图解决这个问题，成果寥寥。

AI代码

我的几个视频里，最典型的AI代码视频莫过于用GPT做MC地牢的这期。你可以看到，AI卡在某些bug上过不去，但是写出来的有一点意思了。它能做基本的火柴盒，但是在尖顶屋檐的问题上死活搞不定。

我在做视频的时候，比较克制，有一部分代码问题我没有亲自上阵给他解决（比如梯子的问题），如果我亲自教他的话，还是很有可能学会的。但这里的一个关键是，必须得我自己知道这个问题的解决方案。

实际上，我也经常只让它打个下手，比如“写一个python脚本，把input目录下所有的png图片无插值缩放成256x256，透明部分用纯绿色填充”。这种任务他能完成的很好。但你要是说，“给我写个原神”，那就拉倒吧。

AI写作

能在网上冲浪的人基本都能打字，虽然可能写的文章没几个人爱看吧。实际上写作往往是最有可能人类不想交给AI的部分，毕竟每个人都觉得我上我也行。

我用过的写作，主要有GPT和彩云小梦。彩云小梦的AI功能接近于续写，一股网文味，如果任由他自己续写自己，很快人物就乱了，需要经常人工干预。GPT写出来的东西条理更清晰，但是他说话一股……翻译腔？如果让他来写作人物的中文对话，实在是太别扭了。

黑暗大法师，启动！

这里面我们省略了动画、特效、音效，不过上面四种素材凑在一起，也足够生产游戏……了吗？

怎么说呢，直接凑在一起，依托答辩。很多UI交互的美观性和易用性都没有考虑到，实际做的时候，直接把四种东西拼在一起，并不能行。有审美能力的人、懂写作技巧、会代码的人，生产出的每种素材都会比不会的更好。

但是，我相信，“假以时日，您一定能胜过所有弱小生物。”

软件在一直迭代，AI也是。小学的我没法考高考，但是上了高中之后就能了。人会变强，AI也会。等到有一天，普通人生产出的东西，在外行人看来与真正的杰作没有区别的时候，就是AI生产胜利的时候，就像抖音里口水歌冲击经典作品一样。那是好是坏呢？不知道，只怕是未来必然的一环。

关键词：