✨ 新機能(main.py, requirements.txt, pyproject.toml): 依存関係の追加とpyproject.tomlによるパッケージ管理

Lqm1 · Lqm1 · commit 2b9994c8b6f0 · 2025-02-25T17:54:02.000+09:00
🐛 修正(main.py): 音声ファイル正規化とサイレンストリミングにlibrosaを使用
✨ 新機能(main.py): コマンドライン引数の検証を追加
✨ 新機能(main.py): バージョン情報を追加
🐛 修正(main.py): SOFAモデルのパスを修正
🐛 修正(main.py): TextGridの作成を修正
✨ 新機能(main.py): 音声ファイルの長さを取得する方法を変更
♻️ リファクタ(main.py): コードの整理と不要なインポートの削除
diff --git a/.gitignore b/.gitignore
@@ -161,9 +161,9 @@ cython_debug/
 #  option (not recommended) you can uncomment the following to ignore the entire idea folder.
 #.idea/
 
-src/cktp/**
-!src/cktp/**/
-!src/cktp/**/.gitkeep
+src/ckpt/**
+!src/ckpt/**/
+!src/ckpt/**/.gitkeep
 
 src/dictionaries/**
 !src/dictionaries/**/
diff --git a/.python-version b/.python-version
@@ -0,0 +1 @@
+3.11
diff --git a/README.md b/README.md
@@ -1,31 +1,55 @@
 # Voicebank2DiffSinger
-UTAUの音源ファイルからSOFAとMakeDiffSingerを用いて、学習前のデータセットを生成する
+UTAU音源からSOFAとMakeDiffSingerを用いて、DiffSinger用の学習用データセットを作成する
 
 ## 前提要件
+- Windows
 - C++ によるデスクトップ開発 (Visual Studio)
 - CMake
-- Python 3.12未満 (3.10.11にてテスト済み)
+- Python 3.12未満 (3.11.11にてテスト済み)
 
-## 使い方 (Windows)
-1. このリポジトリをsubmoduleを含めcloneする
-    ```sh
+## インストール方法 (uv (高速) ) 
+1. uvをセットアップ (オプション)
+    ```powershell
+    powershell -ExecutionPolicy ByPass -c "irm https://astral.sh/uv/install.ps1 | iex"
+    ```
+2. このリポジトリをsubmoduleを含めcloneし、ディレクトリに移動
+    ```powershell
+    git clone --recursive
+    cd Voicebank2DiffSinger
+    ```
+3. 必要なモジュールをインストールする
+    ```powershell
+    uv sync
+    ```
+4. [日本語のSOFAモデル](https://github.com/Greenleaf2001/SOFA_Models/releases/tag/JPN_Test2)から「step.100000.ckpt」と「japanese-extension-sofa.txt
+」をダウンロードし、「step.100000.ckpt」を「src/ckpt」に配置し、「japanese-extension-sofa.txt
+」を「src/dictionaries」に配置する
+
+## インストール方法 (pip)
+1. このリポジトリをsubmoduleを含めcloneし、ディレクトリに移動
+    ```powershell
     git clone --recursive
+    cd Voicebank2DiffSinger
     ```
 2. 仮想環境を構築し、入る
-    ```sh
+    ```powershell
     python -m venv .venv
     .venv/scripts/activate
     ```
 3. 必要なモジュールをインストールする
-    ```sh
+    ```powershell
     pip install -r requirements.txt
-    pip install -r src/SOFA/requirements.txt
-    pip install -r src/MakeDiffSinger/acoustic_forced_alignment/requirements.txt
-    pip install -r src/MakeDiffSinger/variance-temp-solution/requirements.txt
-    ```
-4. [PyTorchの公式サイト](https://pytorch.org/get-started/locally/)にて、セットアップをする
-5. [日本語のSOFAモデル](https://github.com/colstone/SOFA_Models/releases/tag/JPN-V0.0.2b)をダウンロードし、解凍後中にある「japanese-v2.0-45000.ckpt」を「src/cktp」に配置し、同じく「japanese-dictionary.txt」を「src/dictionaries」に配置する
-6. src/main.py の args に音源フォルダを一つ(もしくは複数)渡し起動する
-    ```sh
+    ```
+4. [日本語のSOFAモデル](https://github.com/Greenleaf2001/SOFA_Models/releases/tag/JPN_Test2)から「step.100000.ckpt」と「japanese-extension-sofa.txt
+」をダウンロードし、「step.100000.ckpt」を「src/ckpt」に配置し、「japanese-extension-sofa.txt
+」を「src/dictionaries」に配置する
+
+## 使用方法
+1. 仮想環境に入る (オプション)
+    ```powershell
+    .venv/scripts/activate
+    ```
+2. src/main.py の args に音源 (音階) フォルダを一つ(もしくは複数)渡し起動する
+    ```powershell
     python src/main.py example/A3 example/A2 example/A4
     ```
diff --git a/pyproject.toml b/pyproject.toml
@@ -0,0 +1,34 @@
+[project]
+name = "voicebank2diffsinger"
+version = "0.1.0"
+description = "Convert the UTAU Voicebank to a configuration compatible with DiffSinger Dataset"
+readme = "README.md"
+requires-python = ">=3.11"
+dependencies = [
+    "beautifulsoup4>=4.13.3",
+    "biopython==1.78",
+    "chardet>=5.2.0",
+    "click>=8.1.8",
+    "einops==0.6.1",
+    "h5py>=3.13.0",
+    "librosa<0.10.0",
+    "lightning>=2.0.0",
+    "matplotlib~=3.7.3",
+    "numba>=0.61.0",
+    "numpy~=1.24.1",
+    "pandas~=2.0.3",
+    "praat-parselmouth>=0.4.5",
+    "praatio<6.0.0",
+    "pyopenjtalk-plus>=0.3.4.post10",
+    "pyyaml~=6.0.1",
+    "soundfile>=0.13.1",
+    "sox>=1.5.0",
+    "sqlalchemy==1.4.46",
+    "tensorboard>=2.19.0",
+    "tensorboardx>=2.6.2.2",
+    "textgrid>=1.6.1",
+    "torch>=2.6.0",
+    "torchaudio>=2.6.0",
+    "tqdm~=4.66.1",
+    "utaupy>=1.19.1",
+]
diff --git a/requirements.txt b/requirements.txt
@@ -1,4 +1,271 @@
-pyopenjtalk==0.3.3
-pydub==0.25.1
-beautifulsoup4==4.12.3
-utaupy==1.18.3
+# This file was autogenerated by uv via the following command:
+#    uv pip compile pyproject.toml -o requirements.txt
+absl-py==2.1.0
+    # via tensorboard
+aiohappyeyeballs==2.4.6
+    # via aiohttp
+aiohttp==3.11.13
+    # via fsspec
+aiosignal==1.3.2
+    # via aiohttp
+attrs==25.1.0
+    # via aiohttp
+audioread==3.0.1
+    # via librosa
+beautifulsoup4==4.13.3
+    # via voicebank2diffsinger (pyproject.toml)
+biopython==1.78
+    # via voicebank2diffsinger (pyproject.toml)
+certifi==2025.1.31
+    # via requests
+cffi==1.17.1
+    # via soundfile
+chardet==5.2.0
+    # via voicebank2diffsinger (pyproject.toml)
+charset-normalizer==3.4.1
+    # via requests
+click==8.1.8
+    # via voicebank2diffsinger (pyproject.toml)
+colorama==0.4.6
+    # via
+    #   click
+    #   tqdm
+coloredlogs==15.0.1
+    # via onnxruntime
+contourpy==1.3.1
+    # via matplotlib
+cycler==0.12.1
+    # via matplotlib
+decorator==5.2.1
+    # via librosa
+einops==0.6.1
+    # via voicebank2diffsinger (pyproject.toml)
+filelock==3.17.0
+    # via torch
+flatbuffers==25.2.10
+    # via onnxruntime
+fonttools==4.56.0
+    # via matplotlib
+frozenlist==1.5.0
+    # via
+    #   aiohttp
+    #   aiosignal
+fsspec==2025.2.0
+    # via
+    #   lightning
+    #   pytorch-lightning
+    #   torch
+greenlet==3.1.1
+    # via sqlalchemy
+grpcio==1.70.0
+    # via tensorboard
+h5py==3.13.0
+    # via voicebank2diffsinger (pyproject.toml)
+humanfriendly==10.0
+    # via coloredlogs
+idna==3.10
+    # via
+    #   requests
+    #   yarl
+jinja2==3.1.5
+    # via torch
+joblib==1.4.2
+    # via
+    #   librosa
+    #   scikit-learn
+kiwisolver==1.4.8
+    # via matplotlib
+librosa==0.9.2
+    # via voicebank2diffsinger (pyproject.toml)
+lightning==2.5.0.post0
+    # via voicebank2diffsinger (pyproject.toml)
+lightning-utilities==0.12.0
+    # via
+    #   lightning
+    #   pytorch-lightning
+    #   torchmetrics
+llvmlite==0.44.0
+    # via numba
+markdown==3.7
+    # via tensorboard
+markupsafe==3.0.2
+    # via
+    #   jinja2
+    #   werkzeug
+matplotlib==3.7.5
+    # via voicebank2diffsinger (pyproject.toml)
+mpmath==1.3.0
+    # via sympy
+multidict==6.1.0
+    # via
+    #   aiohttp
+    #   yarl
+networkx==3.4.2
+    # via torch
+numba==0.61.0
+    # via
+    #   voicebank2diffsinger (pyproject.toml)
+    #   librosa
+    #   resampy
+numpy==1.24.4
+    # via
+    #   voicebank2diffsinger (pyproject.toml)
+    #   biopython
+    #   contourpy
+    #   h5py
+    #   librosa
+    #   matplotlib
+    #   numba
+    #   onnxruntime
+    #   pandas
+    #   praat-parselmouth
+    #   pyopenjtalk-plus
+    #   resampy
+    #   scikit-learn
+    #   scipy
+    #   soundfile
+    #   sox
+    #   tensorboard
+    #   tensorboardx
+    #   torchmetrics
+onnxruntime==1.20.1
+    # via pyopenjtalk-plus
+packaging==24.2
+    # via
+    #   librosa
+    #   lightning
+    #   lightning-utilities
+    #   matplotlib
+    #   onnxruntime
+    #   pooch
+    #   pytorch-lightning
+    #   tensorboard
+    #   tensorboardx
+    #   torchmetrics
+pandas==2.0.3
+    # via voicebank2diffsinger (pyproject.toml)
+pillow==11.1.0
+    # via matplotlib
+platformdirs==4.3.6
+    # via pooch
+pooch==1.8.2
+    # via librosa
+praat-parselmouth==0.4.5
+    # via voicebank2diffsinger (pyproject.toml)
+praatio==5.1.1
+    # via voicebank2diffsinger (pyproject.toml)
+propcache==0.3.0
+    # via
+    #   aiohttp
+    #   yarl
+protobuf==5.29.3
+    # via
+    #   onnxruntime
+    #   tensorboard
+    #   tensorboardx
+pycparser==2.22
+    # via cffi
+pyopenjtalk-plus==0.3.4.post10
+    # via voicebank2diffsinger (pyproject.toml)
+pyparsing==3.2.1
+    # via matplotlib
+pyreadline3==3.5.4
+    # via humanfriendly
+python-dateutil==2.9.0.post0
+    # via
+    #   matplotlib
+    #   pandas
+pytorch-lightning==2.5.0.post0
+    # via lightning
+pytz==2025.1
+    # via pandas
+pyyaml==6.0.2
+    # via
+    #   voicebank2diffsinger (pyproject.toml)
+    #   lightning
+    #   pytorch-lightning
+requests==2.32.3
+    # via pooch
+resampy==0.4.3
+    # via librosa
+scikit-learn==1.6.1
+    # via librosa
+scipy==1.15.2
+    # via
+    #   librosa
+    #   scikit-learn
+setuptools==75.8.0
+    # via
+    #   lightning-utilities
+    #   tensorboard
+six==1.17.0
+    # via
+    #   python-dateutil
+    #   tensorboard
+soundfile==0.13.1
+    # via
+    #   voicebank2diffsinger (pyproject.toml)
+    #   librosa
+soupsieve==2.6
+    # via beautifulsoup4
+sox==1.5.0
+    # via voicebank2diffsinger (pyproject.toml)
+sqlalchemy==1.4.46
+    # via voicebank2diffsinger (pyproject.toml)
+sudachidict-core==20250129
+    # via pyopenjtalk-plus
+sudachipy==0.6.10
+    # via
+    #   pyopenjtalk-plus
+    #   sudachidict-core
+sympy==1.13.1
+    # via
+    #   onnxruntime
+    #   torch
+tensorboard==2.19.0
+    # via voicebank2diffsinger (pyproject.toml)
+tensorboard-data-server==0.7.2
+    # via tensorboard
+tensorboardx==2.6.2.2
+    # via voicebank2diffsinger (pyproject.toml)
+textgrid==1.6.1
+    # via voicebank2diffsinger (pyproject.toml)
+threadpoolctl==3.5.0
+    # via scikit-learn
+torch==2.6.0
+    # via
+    #   voicebank2diffsinger (pyproject.toml)
+    #   lightning
+    #   pytorch-lightning
+    #   torchaudio
+    #   torchmetrics
+torchaudio==2.6.0
+    # via voicebank2diffsinger (pyproject.toml)
+torchmetrics==1.6.1
+    # via
+    #   lightning
+    #   pytorch-lightning
+tqdm==4.66.6
+    # via
+    #   voicebank2diffsinger (pyproject.toml)
+    #   lightning
+    #   pytorch-lightning
+typing-extensions==4.12.2
+    # via
+    #   beautifulsoup4
+    #   lightning
+    #   lightning-utilities
+    #   praatio
+    #   pytorch-lightning
+    #   sox
+    #   torch
+tzdata==2025.1
+    # via pandas
+urllib3==2.3.0
+    # via requests
+utaupy==1.19.1
+    # via voicebank2diffsinger (pyproject.toml)
+werkzeug==3.1.3
+    # via tensorboard
+yarl==1.18.3
+    # via aiohttp
diff --git a/src/SOFA b/src/SOFA
@@ -1 +1 @@
-Subproject commit 51a869d19cfadeb7128bdf6e8689d13e73344116
+Subproject commit 0927115a7722ca90cba87601e0b5cdfaa866cad3
diff --git a/src/ckpt/.gitkeep b/src/ckpt/.gitkeep
diff --git a/src/main.py b/src/main.py
diff --git a/uv.lock b/uv.lock