3.5 KiB

Raw Blame History

项目依赖安装指南

📋 环境要求

Python: 3.10+
CUDA: 11.8+ (可选，用于 GPU 加速)
系统: Windows 10/11, Linux, macOS

🚀 快速安装

1. 创建虚拟环境

python -m venv funasr_env

2. 激活虚拟环境

Windows:

funasr_env\Scripts\activate

Linux/macOS:

source funasr_env/bin/activate

3. 安装 PyTorch (带 CUDA 支持)

CUDA 11.8:

pip install torch torchaudio --index-url https://download.pytorch.org/whl/cu118

CPU 版本:

pip install torch torchaudio

4. 安装 3D-Speaker

# 克隆 3D-Speaker 项目到父目录
cd ..
git clone https://github.com/alibaba-damo-academy/3D-Speaker.git

# 安装 3D-Speaker 依赖
cd 3D-Speaker
pip install -e .

5. 安装其他依赖

# 返回项目目录
cd ../audio2

# 安装 requirements.txt
pip install -r requirements.txt

📦 依赖说明

核心依赖

包名	用途	必需
torch	深度学习框架	✅
funasr	语音识别引擎	✅
modelscope	模型下载与管理	✅
speakerlab	3D-Speaker 说话人分离	✅
soundfile	音频文件读写	✅
librosa	音频分析	✅

可选依赖

包名	用途	何时需要
onnxruntime-gpu	ONNX 推理加速	需要更高性能时
Flask	Web API 服务	需要部署 Web 服务时
SQLAlchemy	数据库 ORM	需要持久化存储时

🔧 验证安装

运行测试脚本验证安装：

# 测试模型加载
python test_model_load.py

# 运行主程序
python main.py

⚠️ 常见问题

1. CUDA 版本不匹配

错误信息:

RuntimeError: CUDA error: no kernel image is available for execution

解决方案:

# 卸载当前 PyTorch
pip uninstall torch torchvision torchaudio

# 根据 CUDA 版本重新安装
# CUDA 11.8
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

# CUDA 12.1
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

2. 3D-Speaker 导入失败

错误信息:

ModuleNotFoundError: No module named 'speakerlab'

解决方案:

# 确保 3D-Speaker 在项目父目录
# 结构应为:
#   project/
#     ├── audio2/
#     └── 3D-Speaker/

# 重新安装 3D-Speaker
cd 3D-Speaker
pip install -e .

3. 模型下载失败

错误信息:

ConnectionError: Failed to download model from ModelScope

解决方案:

# 使用阿里云镜像
export MODELSCOPE_CACHE="./models"

# 或手动下载模型后放入缓存目录

4. 内存不足

错误信息:

RuntimeError: CUDA out of memory

解决方案:

减少并发数：修改 main.py 中的 max_workers=1
使用 CPU 模式：device='cpu'
关闭其他占用 GPU 的程序

📝 依赖版本锁定

如需精确控制版本，使用：

# 生成当前环境的依赖快照
pip freeze > requirements.lock.txt

# 使用锁定的版本安装
pip install -r requirements.lock.txt

🎯 最小化安装

如果只需要基础功能：

# 最小依赖集
pip install torch funasr modelscope soundfile scipy numpy tqdm pyyaml

📊 磁盘空间需求

组件	空间需求
基础依赖	~2 GB
PyTorch (CUDA)	~3 GB
FunASR 模型	~2 GB
3D-Speaker 模型	~1 GB
总计	~8 GB

建议预留 10 GB 以上可用空间。

3.5 KiB Raw Blame History

项目依赖安装指南

📋 环境要求

🚀 快速安装

1. 创建虚拟环境

2. 激活虚拟环境

3. 安装 PyTorch (带 CUDA 支持)

4. 安装 3D-Speaker

5. 安装其他依赖

📦 依赖说明

核心依赖

可选依赖

🔧 验证安装

⚠️ 常见问题

1. CUDA 版本不匹配

2. 3D-Speaker 导入失败

3. 模型下载失败

4. 内存不足

📝 依赖版本锁定

🎯 最小化安装

📊 磁盘空间需求

3.5 KiB

Raw Blame History