Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Implement vggish #1061

Open
wants to merge 8 commits into
base: master
Choose a base branch
from
Open

Implement vggish #1061

wants to merge 8 commits into from

Conversation

yuki399
Copy link

@yuki399 yuki399 commented Mar 2, 2023

@kyakuno
Copy link
Collaborator

kyakuno commented Mar 23, 2023

モデルアップロード済み。
https://storage.googleapis.com/ailia-models/vggish/vggish.onnx

else:
wav_data = librosa.load(input_path, sr=SAMPLE_RATE)[0]

samples = wav_data / 32768.0 # Convert to [-1.0, +1.0]
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

librosaの段階で-1.0 - +1.0に正規化されているのを、さらに/32768.0で小さくしているように見えます。

savepath = get_savepath(args.savepath, input_path)
logger.info(f'saved at : {savepath}')

np.save(savepath, result)
Copy link
Collaborator

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

torchで計算したfeatureをnumpyで保存しておいて、誤差をprintしていただければと思います。

@kyakuno
Copy link
Collaborator

kyakuno commented Mar 4, 2024

@yuki399 こちらも対応検討、お願いします。

@yuki399
Copy link
Author

yuki399 commented Mar 12, 2024

指摘に関して修正しました

# Conflicts:
#	README.md
#	scripts/download_all_models.sh
@kyakuno
Copy link
Collaborator

kyakuno commented Jan 2, 2025

入力の時間方向がStatic Shapeで19に固定されているので、音声の長さが19でない場合にReshapeでエラーになる。

スクリーンショット 2025-01-02 10 38 16

@kyakuno
Copy link
Collaborator

kyakuno commented Jan 2, 2025

@yuki399 入力のバッチサイズをDynamicShapeでエクスポートして、音声の長さが異なる場合も処理可能にできますでしょうか?

@kyakuno
Copy link
Collaborator

kyakuno commented Jan 2, 2025

また、--inputに複数のファイルを与えた場合に、それぞれのファイルでEmbeddingを計算し、ファイル同士の距離をprintできればと思います。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants