快速开始

资源需求

资源	数量
RTX 4090 24GB	1
数据盘	50GB

使用步骤

0. 创建镜像

您可以参考平台的快速开始来创建镜像。在选择镜像时，选择Diffrhythm: alt text

1. 启动webui

使用浏览器访问, 打开webui: alt text

alt text

2. 生成歌曲

在webui的"Music Generate"界面，输入包含时间戳的歌词，“Audio Prompt”可以选择音乐使用的音色（可以上传音频文件或使用麦克风录制音频）或者在“Text Prompt”中输入音色的描述。webui页面最下方有多个示例，可以直接使用示例进行生成。 alt text

用户可以根据需要，在页面右侧进行设置
alt text 然后点击“Generate”按钮生成音乐。大约30~40秒可以生成音乐。若直接从网页上下载生成的音乐文件，该文件不存在后缀名，需要用户手动重命名该文件，添加对应的后缀名（查看“Output Format”），默认是mp3格式。暂时无法在飞书文档外展示此内容

3. 歌词生成

左侧点击“Lyrics Generate”按钮，切换到歌词生成的界面 alt text

镜像内置了ollama以及qwen2.5:14b模型，默认使用ollama的qwen2.5:14b模型生成歌词。先使用方法1从主题生成歌词，选择语言并输入主题和标签（主题和标签可以使用中文，可以在标签中限制歌曲时长，如“歌曲时长不超过1分45秒”），然后点击生成。 alt text

方法1生成的歌曲包含了时间戳。由于ollama的qwen2.5:14b能力较弱，所以歌词的时间戳可能存在跨度较大、标记空白的问题，用户需要手动删除这些时间戳和空白，然后复制歌词到方法2，为歌词添加时间戳 alt text

alt text

然后复制最终生成的歌词到歌曲生成界面，填写歌词和Text Prompt，点击生成按钮生成音乐 alt text

暂时无法在飞书文档外展示此内容生成歌词也可以使用其他模型，用户可以自行配置。在实例界面点击“jupyterlab”按钮打开jupyterlab alt text

alt text

左侧的文件浏览器中可以看到文件“config.json”，右键点击该文件，在打开方式中选择“编辑器” alt text

alt text

然后用户可以根据需要设置其他的ollama模型或者使用豆包、deepseek、gpt官方提供的大模型api。需要注意的是，使用ollama运行模型会占用一定显存，如果模型还没从显存中卸载（ollama默认5分钟不使用就从显存中卸载模型）就生成音乐，可能导致爆显存。所以尽量使用ollama运行较小的模型或者等待模型从显存中卸载再生成音乐。或者用户可以在jupyterlab的终端中，使用命令行立刻从显存中卸载模型

# 查看正在显存中的模型
ollama ps
# 将“<模型名称>”替换为查找到的模型的名称
ollama stop <模型名称>

4. 补充

镜像使用的是最多生成1分35秒音乐的模型“DiffRhythm-1_2”，生成的音频长度固定为1分35秒。因此使用镜像生成的音频长度不能超过1分35秒，歌词中时间戳超过1分35秒的部分都会被截断，歌词太短也会导致生成的音频变成空白。目前使用“DiffRhythm-full”模型存在音频空白和音频时长固定4分45秒的问题，基本不可用。如果用户需要使用“DiffRhythm-full”模型，可以自行下载该模型并克隆官方项目使用

常见问题汇总

RAGFlow

Qwen3

ChatTTS

ComfyUI-Video

Fooocus

LoraScript

RVC-WebUI

通义万象

FramePack

Step1X-Edit

UNO

Diffrhythm

DreamO

N8N

ACE-Step

Index-TTS

Bagel

HunyuanPortrait

Direct3D

Nunchaku

ComfyUI-FusionxPhantom

ComfyUI-HiDream

Omnigen2

快速开始

资源需求

使用步骤

0. 创建镜像

1. 启动webui

2. 生成歌曲

3. 歌词生成

4. 补充

快速开始 ​

资源需求 ​

使用步骤 ​

0. 创建镜像 ​

1. 启动webui ​

2. 生成歌曲 ​

3. 歌词生成 ​

4. 补充 ​

快速开始

资源需求

使用步骤

0. 创建镜像

1. 启动webui

2. 生成歌曲

3. 歌词生成

4. 补充