Silero VAD

Silero VAD is a widely used voice activity detection model. The recommended window size is 512 samples.

SherpaOnnxVadModelConfig config;
memset(&config, 0, sizeof(config));
config.silero_vad.model = "./silero_vad.onnx";
config.silero_vad.threshold = 0.25f;
config.silero_vad.min_silence_duration = 0.5f;
config.silero_vad.min_speech_duration = 0.5f;
config.silero_vad.max_speech_duration = 10.0f;
config.silero_vad.window_size = 512;
config.sample_rate = 16000;
config.num_threads = 1;
 
const SherpaOnnxVoiceActivityDetector *vad =
    SherpaOnnxCreateVoiceActivityDetector(&config, 30.0f);

Model file: silero_vad.onnx

Example source: vad-whisper-c-api.c

Ten VAD

Ten VAD is an alternative VAD model. The recommended window size is 256 samples.

SherpaOnnxVadModelConfig config;
memset(&config, 0, sizeof(config));
config.ten_vad.model = "./ten-vad.onnx";
config.ten_vad.threshold = 0.25f;
config.ten_vad.min_silence_duration = 0.5f;
config.ten_vad.min_speech_duration = 0.5f;
config.ten_vad.max_speech_duration = 10.0f;
config.ten_vad.window_size = 256;
config.sample_rate = 16000;
config.num_threads = 1;
 
const SherpaOnnxVoiceActivityDetector *vad =
    SherpaOnnxCreateVoiceActivityDetector(&config, 30.0f);

Model file: ten-vad.onnx

Example source: vad-whisper-c-api.c

Table of Contents

Silero VAD

Ten VAD