Bark是一个开源的文本转语音的AI模型。Bark 可以生成高度逼真的多语言语音以及其他音频 – 包括音乐、背景噪音和简单的音效。该模型可以模拟正常说话口气的语音,如笑、叹息和哭泣。支持多语言,包括中文。

一、Bark的项目地址:

1、论文地址:

https://arxiv.org/abs/2209.03143

2、Github仓库:

https://github.com/suno-ai/bark

3、项目地址:

https://yiconghong.me/LRM/

4、在线体验:

https://replicate.com/suno-ai/bark

https://huggingface.co/spaces/suno/bark

二、Bark支持的语言

语言 是否支持
英语(en)
德语 (de)
西班牙语(西班牙文)
法语(fr)
印地语(嗨)
意大利语(它)
日语 (ja)
韩语 (ko)
波兰语(pl)
葡萄牙语(点)
俄语 (ru)
土耳其语 (tr)
简体中文 (zh)

三、Bark的常见问题:

1、如何指定模型的下载和缓存位置?

Bark 使用 Hugging Face 来下载和存储模型。您可以在此处查看更多信息。

2、Bark 支持哪些声音?

Bark 支持 100 多种语言的扬声器预设。您可以在此处浏览扬声器预设库。社区还共享Discord中的预设。Bark 还支持生成适合输入文本的独特随机语音。Bark 目前不支持自定义语音克隆。

3、为什么输出限制在 ~13-14 秒?

Bark 是一种 GPT 风格的模型,其架构/上下文窗口经过优化,可以输出大约这个长度的生成。

4、我需要多少显存?

Bark 的完整版本需要大约 12Gb 内存才能同时保存 GPU 上的所有内容。然而,即使是低至约 2Gb 的较小卡也可以使用一些额外的设置。只需在生成之前添加以下代码片段:

  1. import os os.environ["SUNO_OFFLOAD_CPU"] = "True" os.environ["SUNO_USE_SMALL_MODELS"] = "True"

5、我生成的音频听起来像 20 世纪 80 年代的电话。发生了什么?

Bark 从头开始​​生成音频。它不仅仅旨在创造高保真、录音室品质的语音。相反,输出可以是任何东西,从完美的演讲到用糟糕的麦克风录制的棒球比赛中多人争论。

Bark - 高度逼真的开源文本转语音AI工具,最强TTS本地整合包
服务声明: 本网站所有发布的软件和学习资料以及牵涉到的源码均为网友推荐收集各大资源网站整理而来,仅供功能验证和学习研究使用,您必须在下载后24小时内删除。不得使用于非法商业用途,不得违反国家法律,否则后果自负!一切关于该资源商业行为与本站无关。如果您喜欢该程序,请支持购买正版源码,得到更好的正版服务。如有侵犯你的版权合法权益,请邮件与我们联系处理删除(邮箱:83855733@qq.com),本站将立即更正。