日本人终于点对了一次科技树：柯南实时变声领带不是梦，RealChan voice 隆重登场

RealChan voice在东京乐展上隆重登场！该技术可将自己的声音实时变换成其他人物角色的声音。

通过声音信号处理，把自己的声音完全变成另一个人的声音，此类如科幻小说般的技术终于登场。位于东京世田谷区的Crimoson Technology公司开发的“RealChan voice”就能将科幻的剧情变成现实。该技术名源自于“Real”（真实）&“Realtime”（实时）地改变声音，已从8月开始对外销售。

该技术由奈良先端科学技术大学院大学的户田智基客座教授（名古屋大学教授）所在的户田智基教授研究团队与Crimoson Technology公司共同开发而成，产品共有标准版和专业版两种。笔者有幸在现场见到了这个技术在实际应用中能如何被使用，在此想进行介绍。

RealChan voice可将人声实时地转换成角色声音

近几年，吉祥物的人偶服活跃在各地的主题公园等游乐场所。但是，如果还要让这些吉祥物张嘴说话，可能就有些为难他们了。动漫作品中都是声优进行配音的，如果主角换成了人偶，也就没法让他们进行声音出演了吧？

名字源于该技术可以“真实”（Real）“实时”(Realtime）地进行声音变换

Crimoson Technology公司的董事长飞河和生先生说：

“为角色配音的工作是交给指定的声优来完成的，但随着吉祥物活动的范围越来越广，声优人员的负担也随之加重，由此产生了问题的根源。于是有人呼吁，是否可以为声优减轻一些工作量，这时我想到用我们公司的声音合成技术来解决这一问题，由此开始进行开发工作。”

Crimoson Technology公司的同事。左前方的是社长飞河先生，左后方起为尾崎先生、高桥先生、金森先生

飞河先生还担任AMEI的MIDI规格委员会的委员长一职，早前笔者曾在“翻新的MIDI规格、AMEI的MIDI审定背景”一文中对飞河先生进行过采访。飞河先生的主业所在的Crimoson Technology公司，主要进行各类音乐、乐器应用程序的开发，进行音乐传送的聚合等业务。

Crimoson Technology公司进一步进行了研究和开发，通过该技术，无论让哪位工作人员发出声音，都能形成与原有角色相近的声音特质，“RealChan voice”便由此诞生。

但仔细想来，实时地对声音特质进行更改的系统，其实早已存在了吧，比如常用在电视上对匿名人士的声音进行更改之类的。那么这次开发的系统与以往的有什么不一样呢？

负责开发的高桥贤一先生向我们解释道：

“现有的系统是通过变调对声音的音高进行变形，在固定的数值处进行格式转换，从而实现声音特质的更改。与此相比，RealChan voice则如同与目标声优的声音进行配对一样，是一个可以对不同人群的声音进行变换的系统。使用时，由于已将变换所产生的延迟时间控制在100mse以下，因此可以毫无压力的进行使用。”

我们让高桥先生进行了演示，请戳视频：

感觉如何？第一个声音来自中性的女声Risa，第二个是男神Takuya的声音，第三个是角色系的男性声音Ryota。从这几个声音中我们可以感受到，这次的RealChan voice技术与已有的那些音色更改技术完全不是一个次元的。那么我们就来看一看，这个RealChan voice到底是怎样的一个技术呢？

高桥先生告诉我们：

“我们使用了以往开发的名为Metamorphone的一项技术，但在这次的开发中，我们重新将角色的声音做成一个数据库，同时还将现场穿着人偶服的演员的声音也登陆到数据库中，如同配对组合一般对声音进行学习。然后生成变换模型的数据，从而轻松实现了实时声音的变换。”

也就是说，无论是谁在说话，并非都会变换成指定角色的声音，而是任意与预先登录在数据库中的某个人声进行交换。如果有三位演员，则需要事先把这三个人的声音记录在数据库中，并制作变换模型数据。

在此笔者还想向大家介绍一下RealChan voice的两个版本：专业版和标准版。

可对角色本身自由进行设定的专业版

负责营业的金森均先生说：

“专业版是以主题公园、大型设施等场所为目标而开发的，其中收录了时下人气角色声优的声音，实际使用时系统可以让其出声。而标准版则是以自治团体、广告公司或是客服中心等为对象开发的，该系统可以发出预先准备好的角色的声音。比如，可以发出吉祥物的声音，或是在热线电话或电话销售时，即便说话的人是男性，也能伪装成女性正在说话，从而使得对话更为顺利地进行……我们在系统开发时就是这样设想的。”

预先准备了3种角色声音的标准版

顺便提一下，标准版中能够用到的声音就是之前视频中所演示的Takuya、Risa和Ryota的三个声音，今后音色库也会有所扩充。

无论如何，目前这个产品主要是面向商用的，并不是面向个人使用的系统。这里笔者想关注一下，声音的录音工作到底需要多长的时间呢？

RealChan voice导入前的流程

高桥先生向我们介绍，用于对1位演员录音的时间大约是2小时。首先会先对角色的说话方式进行模仿练习，接下来就开始试着读台词。现在正在开发新的录音方法，希望以后能够更加高效地进行作业。

声音的收录以及变换模型数据的生成是由Crimoson Technology公司进行的，尚未对用户开放。由于系统可以完全改变声音，可能也有人会将其用于不正当的事儿，但是我们会清楚地记录哪家公司正在使用该系统，使用了谁的声音等信息，因此不太可能被恶用。

同时，音质虽然会改变，音高变化虽然可以设定在上下一个八度内，但音高的移动本身其实是保持不变的。也就是说，如果你唱歌的话，系统不会把你的歌声变得五音不全，只要把范围设定在上下一个八度内，一边进行监听一边唱歌也并非难事了。

Windows版的RealChan voice 变换器的画面

但用户端的系统就相对比较简单了。用户端没有录音用的系统，只安装了名为“RealChan vocie变换器”的声音变换软件，以及用于变换的数据库“Metamorphone变换模型数据”。为了减小延迟，提升音质，采用了音频界面卡以及ASIO驱动。

RealChan voice的规格

截止到目前，产品只支持Windows系统，采样频率为44.1kHz/48kHz，采样大小为16bit。好消息是据说iOS版已基本完成，表演者可以拿着手机在人偶服里进行变声了。

以上就是笔者对Realtime Character Voice Changer“RealChan voice”的介绍，各位看官觉得如何？

最后附上两个东京乐展 2016 上的真实演示视频：

第 233 期电子杂志

叮咚音频三周年店庆正式开始，店面展机二手价全清

不从众的少数派：深度评测 Sunset Sound Tutti 话放，在经典与个性间选择声音本真

音质与便携性的完美平衡：PreSonus Eris 3.5 英寸书架式监听音箱评测

掌控移动音乐制作：M-VAVE 移动创作新生态之 SMC 系列控制器篇

移动创作新生态：M-VAVE 蓝牙口袋工作站 SMK 系列 MIDI 键盘 + 合成器评测

日本人终于点对了一次科技树：柯南实时变声领带不是梦，RealChan voice 隆重登场

共有 2 条评论

Crimson 相关新闻