海螺语音让文本转语音更像真人

  • 来源:电脑报
  • 关键字:海螺,语音,文本
  • 发布时间:2025-04-25 11:28

  ■ 梁筱

  从机械齿轮到AI 之声

  文本转语音(Text-to-Speech,TTS)技术,作为人机交互的重要桥梁,从早期的机械合成音到如今接近真人表现的自然语音,经历了数十年的技术革新。

  早期的语音合成依赖规则驱动法,通过模拟人类发音器官的物理特性生成语音。然而,这种方法生成的语音生硬且缺乏自然感,仅能用于基础实验,直至2016 年DeepMind 推出WaveNet,彻底改变了TTS 技术格局。在AI 技术的加持下,TTS 技术正从“能说话”向“会思考”跨越,通过上下文感知和情感特征建模,现代TTS可调整语速、语调,甚至模拟“喜怒哀乐”,而以海螺语音为代表的中文TTS 平台能给大家带来多少惊喜呢?

  庞大的音色库

  海螺语音目前属于“限免”阶段,用户直接通过PC浏览器访问hailuoai.com/audio 即可使用。进入海螺语音首界面后,其庞大的音色库让笔者多少有些惊讶。目前,不少AI 视频工具都提供了文本转语音功能,但作为文/ 图生视频的附属功能,提供的音色库往往只具备十余种常见音色,充当聊胜于无的角色,而海螺语音作为专业的TTS技术平台,其音色库分为语言、口音、性别、年龄四个类别,用户可根据个人需要在类别下选择自己想要的音色(如图1)。

  海螺语音每一个类别都提供了十分丰富的可选项,点开“语言”下拉菜单后,除看到最基础的中文- 普通话、英语外,更有俄语、西班牙语、越南语等种类可选,“口音”下拉菜单更是提供中国-南方、中国-北方、英语-美音、英语-印度口音等多个接地气的选项,对于初次使用的用户而言,大概率会造成“琳琅满目”的感觉。

  用户看到感兴趣的音色后,可点击试听按钮,如果满意该音色的话,则可点击右侧收藏按钮,将其放到“我的音色”里面,进而打造自己的专属音色库,方便用户后面高效选择需要的音效。

  能够输出情感的声音

  熟悉海螺语音音色库并搭建自己的专属音色库后,即可点击左侧工具栏中的“文生音”项,进入正式的操作界面。UI 界面中央是“文字转语音”的内容输入界面,单次能转5000 字符(约2500 字)的文字内容,用户可以在句子之间插入“<#0.5#>”,这样就能添加0.5s 的停顿,让整个语音表达更自然流畅。完成文字的输入后,可点击右上角的模型下拉菜单,海螺语音目前提供T2A-01-HD、T2A-01-Turbo 两款模型供用户使用,前者适合对音质要求高的场景,后者主打生成效率(如图2)。

  接下来用户就可以在UI 界面右侧的“调试台”进行细节设置了,首先要选择的是音色,这里可以从刚建立好的“我的音色”里面选择,接下来就是音色效果调节和输出情绪两个目前“限免”的体验功能了,前者可以从低沉、力量感、回声等多方面进一步优化预置音色,相当于让用户拥有独属于自己的音色。

  而情绪方面则是预置了开心、难过、害怕、厌恶等多重情感,方便用户根据文字内容为语音融入相应情感,最后则是语速、声调、音量等常规参数的设置。

  完成细节设置后,点击“生成音频”,静候几分钟即可获得自己想要的音频文件了。

  克隆自己的声音

  复刻自己的声音,有趣但多少有些风险,海螺语音目前将这一功能放到了海螺 AI 海外版上,用户同样在PC 浏览器上访问www.minimax.io/audio/voices 即可进入操作界面。

  完成一系列账号登录后,用户只要进入“voice”模块,选择创建声音,并上传10 秒至60 秒长度的音频素材,就能对声音进行克隆。另外,系统支持12 种语言,包括中文、粤语、英语等,极大地满足了用户的需求。

  当然,克隆声音涉及用户隐私,用户即便尝试体验,也一定要保护好自己的声音数据。

关注读览天下微信, 100万篇深度好文, 等你来看……