c-api/html/cxx-api_8h_source.html

// sherpa-onnx/c-api/cxx-api.h

//

// Copyright (c)  2024  Xiaomi Corporation

#ifndef SHERPA_ONNX_C_API_CXX_API_H_

#define SHERPA_ONNX_C_API_CXX_API_H_


#include <functional>

#include <memory>

#include <string>

#include <unordered_map>

#include <vector>


#include "sherpa-onnx/c-api/c-api.h"


namespace sherpa_onnx::cxx {


// ============================================================================

// Streaming ASR

// ============================================================================


struct OnlineTransducerModelConfig {

  std::string encoder;

  std::string decoder;

  std::string joiner;

};


struct OnlineParaformerModelConfig {

  std::string encoder;

  std::string decoder;

};


struct OnlineZipformer2CtcModelConfig {

  std::string model;

};


struct OnlineNemoCtcModelConfig {

  std::string model;

};


struct OnlineToneCtcModelConfig {

  std::string model;

};


struct OnlineModelConfig {

  OnlineTransducerModelConfig transducer;

  OnlineParaformerModelConfig paraformer;

  OnlineZipformer2CtcModelConfig zipformer2_ctc;

  OnlineNemoCtcModelConfig nemo_ctc;

  OnlineToneCtcModelConfig t_one_ctc;

  std::string tokens;

  int32_t num_threads = 1;

  std::string provider = "cpu";

  bool debug = false;

  std::string model_type;

  std::string modeling_unit = "cjkchar";

  std::string bpe_vocab;

  std::string tokens_buf;

};


struct FeatureConfig {

  int32_t sample_rate = 16000;

  int32_t feature_dim = 80;

};


struct OnlineCtcFstDecoderConfig {

  std::string graph;

  int32_t max_active = 3000;

};


struct HomophoneReplacerConfig {

  std::string dict_dir;

  std::string lexicon;

  std::string rule_fsts;

};


struct OnlineRecognizerConfig {

  FeatureConfig feat_config;

  OnlineModelConfig model_config;


  std::string decoding_method = "greedy_search";


  int32_t max_active_paths = 4;


  bool enable_endpoint = false;


  float rule1_min_trailing_silence = 2.4;


  float rule2_min_trailing_silence = 1.2;


  float rule3_min_utterance_length = 20;


  std::string hotwords_file;


  float hotwords_score = 1.5;


  OnlineCtcFstDecoderConfig ctc_fst_decoder_config;

  std::string rule_fsts;

  std::string rule_fars;

  float blank_penalty = 0;


  std::string hotwords_buf;

  HomophoneReplacerConfig hr;

};


struct OnlineRecognizerResult {

  std::string text;

  std::vector<std::string> tokens;

  std::vector<float> timestamps;

  std::string json;

};


struct Wave {

  std::vector<float> samples;

  int32_t sample_rate = 0;

};


SHERPA_ONNX_API Wave ReadWave(const std::string &filename);


SHERPA_ONNX_API bool WriteWave(const std::string &filename, const Wave &wave);


template <typename Derived, typename T>


class SHERPA_ONNX_API MoveOnly {

 public:

  MoveOnly() = default;

  explicit MoveOnly(const T *p) : p_(p) {}


  ~MoveOnly() { Destroy(); }


  MoveOnly(const MoveOnly &) = delete;


  MoveOnly &operator=(const MoveOnly &) = delete;


  MoveOnly(MoveOnly &&other) : p_(other.Release()) {}


  MoveOnly &operator=(MoveOnly &&other) {

    if (&other == this) {

      return *this;

    }


    Destroy();


    p_ = other.Release();


    return *this;

  }


  const T *Get() const { return p_; }


  const T *Release() {

    const T *p = p_;

    p_ = nullptr;

    return p;

  }


 private:

  void Destroy() {

    if (p_ == nullptr) {

      return;

    }


    static_cast<Derived *>(this)->Destroy(p_);


    p_ = nullptr;

  }


 protected:

  const T *p_ = nullptr;

};


class SHERPA_ONNX_API OnlineStream

    : public MoveOnly<OnlineStream, SherpaOnnxOnlineStream> {

 public:

  explicit OnlineStream(const SherpaOnnxOnlineStream *p);


  void AcceptWaveform(int32_t sample_rate, const float *samples,

                      int32_t n) const;


  void InputFinished() const;


  void SetOption(const char *key, const char *value) const;

  const char *GetOption(const char *key) const;

  int32_t HasOption(const char *key) const;


  void Destroy(const SherpaOnnxOnlineStream *p) const;

};


class SHERPA_ONNX_API OnlineRecognizer

    : public MoveOnly<OnlineRecognizer, SherpaOnnxOnlineRecognizer> {

 public:

  static OnlineRecognizer Create(const OnlineRecognizerConfig &config);


  void Destroy(const SherpaOnnxOnlineRecognizer *p) const;


  OnlineStream CreateStream() const;


  OnlineStream CreateStream(const std::string &hotwords) const;


  bool IsReady(const OnlineStream *s) const;


  void Decode(const OnlineStream *s) const;


  void Decode(const OnlineStream *ss, int32_t n) const;


  OnlineRecognizerResult GetResult(const OnlineStream *s) const;


  void Reset(const OnlineStream *s) const;


  bool IsEndpoint(const OnlineStream *s) const;


 private:

  explicit OnlineRecognizer(const SherpaOnnxOnlineRecognizer *p);

};


// ============================================================================

// Non-streaming ASR

// ============================================================================


struct OfflineTransducerModelConfig {

  std::string encoder;

  std::string decoder;

  std::string joiner;

};


struct OfflineParaformerModelConfig {

  std::string model;

};


struct OfflineNemoEncDecCtcModelConfig {

  std::string model;

};


struct OfflineWhisperModelConfig {

  std::string encoder;

  std::string decoder;

  std::string language;

  std::string task = "transcribe";

  int32_t tail_paddings = -1;

  bool enable_token_timestamps = false;

  bool enable_segment_timestamps = false;

};


struct OfflineCanaryModelConfig {

  std::string encoder;

  std::string decoder;

  std::string src_lang;

  std::string tgt_lang;

  bool use_pnc = true;

};


struct OfflineCohereTranscribeModelConfig {

  std::string encoder;

  std::string decoder;

  std::string language;

  bool use_punct = true;

  bool use_itn = true;

};


struct OfflineFireRedAsrModelConfig {

  std::string encoder;

  std::string decoder;

};


struct OfflineFireRedAsrCtcModelConfig {

  std::string model;

};


struct OfflineTdnnModelConfig {

  std::string model;

};


struct OfflineSenseVoiceModelConfig {

  std::string model;

  std::string language;

  bool use_itn = false;

};


struct OfflineDolphinModelConfig {

  std::string model;

};


struct OfflineZipformerCtcModelConfig {

  std::string model;

};


struct OfflineWenetCtcModelConfig {

  std::string model;

};


struct OfflineOmnilingualAsrCtcModelConfig {

  std::string model;

};


struct OfflineMedAsrCtcModelConfig {

  std::string model;

};


struct OfflineMoonshineModelConfig {

  std::string preprocessor;

  std::string encoder;

  std::string uncached_decoder;

  std::string cached_decoder;

  std::string merged_decoder;

};


struct OfflineFunASRNanoModelConfig {

  std::string encoder_adaptor;

  std::string llm;

  std::string embedding;

  std::string tokenizer;

  std::string system_prompt = "You are a helpful assistant.";

  std::string user_prompt = "语音转写：";

  int32_t max_new_tokens = 512;

  float temperature = 1e-6f;

  float top_p = 0.8f;

  int32_t seed = 42;

  std::string language;

  bool itn = true;

  std::string hotwords;

};


struct OfflineQwen3ASRModelConfig {

  std::string conv_frontend;

  std::string encoder;

  std::string decoder;

  std::string tokenizer;

  std::string hotwords;

  int32_t max_total_len = 512;

  int32_t max_new_tokens = 128;

  float temperature = 1e-6f;

  float top_p = 0.8f;

  int32_t seed = 42;

};


struct OfflineModelConfig {

  OfflineTransducerModelConfig transducer;

  OfflineParaformerModelConfig paraformer;

  OfflineNemoEncDecCtcModelConfig nemo_ctc;

  OfflineWhisperModelConfig whisper;

  OfflineTdnnModelConfig tdnn;


  std::string tokens;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

  std::string model_type;

  std::string modeling_unit = "cjkchar";

  std::string bpe_vocab;

  std::string telespeech_ctc;

  OfflineSenseVoiceModelConfig sense_voice;

  OfflineMoonshineModelConfig moonshine;

  OfflineFireRedAsrModelConfig fire_red_asr;

  OfflineDolphinModelConfig dolphin;

  OfflineZipformerCtcModelConfig zipformer_ctc;

  OfflineCanaryModelConfig canary;

  OfflineWenetCtcModelConfig wenet_ctc;

  OfflineOmnilingualAsrCtcModelConfig omnilingual;

  OfflineMedAsrCtcModelConfig medasr;

  OfflineFunASRNanoModelConfig funasr_nano;

  OfflineFireRedAsrCtcModelConfig fire_red_asr_ctc;

  OfflineQwen3ASRModelConfig qwen3_asr;

  OfflineCohereTranscribeModelConfig cohere_transcribe;

};


struct OfflineLMConfig {

  std::string model;

  float scale = 1.0;

};


struct OfflineRecognizerConfig {

  FeatureConfig feat_config;

  OfflineModelConfig model_config;

  OfflineLMConfig lm_config;


  std::string decoding_method = "greedy_search";

  int32_t max_active_paths = 4;


  std::string hotwords_file;


  float hotwords_score = 1.5;

  std::string rule_fsts;

  std::string rule_fars;

  float blank_penalty = 0;

  HomophoneReplacerConfig hr;

};


struct OfflineRecognizerResult {

  std::string text;

  std::vector<float> timestamps;

  std::vector<std::string> tokens;

  std::string json;

  std::string lang;

  std::string emotion;

  std::string event;


  std::vector<float> durations;

};


class SHERPA_ONNX_API OfflineStream

    : public MoveOnly<OfflineStream, SherpaOnnxOfflineStream> {

 public:

  explicit OfflineStream(const SherpaOnnxOfflineStream *p);


  void AcceptWaveform(int32_t sample_rate, const float *samples,

                      int32_t n) const;


  void SetOption(const char *key, const char *value) const;

  const char *GetOption(const char *key) const;

  int32_t HasOption(const char *key) const;


  void Destroy(const SherpaOnnxOfflineStream *p) const;

};


class SHERPA_ONNX_API OfflineRecognizer

    : public MoveOnly<OfflineRecognizer, SherpaOnnxOfflineRecognizer> {

 public:

  static OfflineRecognizer Create(const OfflineRecognizerConfig &config);


  void Destroy(const SherpaOnnxOfflineRecognizer *p) const;


  OfflineStream CreateStream() const;


  OfflineStream CreateStream(const std::string &hotwords) const;


  void Decode(const OfflineStream *s) const;


  void Decode(const OfflineStream *ss, int32_t n) const;


  OfflineRecognizerResult GetResult(const OfflineStream *s) const;


  std::shared_ptr<OfflineRecognizerResult> GetResultPtr(

      const OfflineStream *s) const;


  void SetConfig(const OfflineRecognizerConfig &config) const;


 private:

  explicit OfflineRecognizer(const SherpaOnnxOfflineRecognizer *p);

};


// ============================================================================

// Non-streaming TTS

// ============================================================================


struct OfflineTtsVitsModelConfig {

  std::string model;

  std::string lexicon;

  std::string tokens;

  std::string data_dir;

  std::string dict_dir;


  float noise_scale = 0.667;

  float noise_scale_w = 0.8;

  float length_scale = 1.0;

};


struct OfflineTtsMatchaModelConfig {

  std::string acoustic_model;

  std::string vocoder;

  std::string lexicon;

  std::string tokens;

  std::string data_dir;

  std::string dict_dir;


  float noise_scale = 0.667;

  float length_scale = 1.0;

};


struct OfflineTtsKokoroModelConfig {

  std::string model;

  std::string voices;

  std::string tokens;

  std::string data_dir;

  std::string dict_dir;

  std::string lexicon;

  std::string lang;


  float length_scale = 1.0;

};


struct OfflineTtsKittenModelConfig {

  std::string model;

  std::string voices;

  std::string tokens;

  std::string data_dir;


  float length_scale = 1.0;

};


struct OfflineTtsZipvoiceModelConfig {

  std::string tokens;

  std::string encoder;

  std::string decoder;

  std::string vocoder;

  std::string data_dir;

  std::string lexicon;


  float feat_scale = 0.1;

  float t_shift = 0.5;

  float target_rms = 0.1;

  float guidance_scale = 1.0;

};


struct OfflineTtsPocketModelConfig {

  std::string lm_flow;

  std::string lm_main;

  std::string encoder;

  std::string decoder;

  std::string text_conditioner;


  std::string vocab_json;

  std::string token_scores_json;

  int32_t voice_embedding_cache_capacity = 50;

};


struct OfflineTtsSupertonicModelConfig {

  std::string duration_predictor;

  std::string text_encoder;

  std::string vector_estimator;

  std::string vocoder;

  std::string tts_json;

  std::string unicode_indexer;

  std::string voice_style;

};


struct OfflineTtsModelConfig {

  OfflineTtsVitsModelConfig vits;

  OfflineTtsMatchaModelConfig matcha;

  OfflineTtsKokoroModelConfig kokoro;

  OfflineTtsKittenModelConfig kitten;

  OfflineTtsZipvoiceModelConfig zipvoice;

  OfflineTtsPocketModelConfig pocket;

  OfflineTtsSupertonicModelConfig supertonic;


  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct GenerationConfig {

  float silence_scale = 0.2;

  float speed = 1.0;

  int32_t sid = 0;

  std::vector<float> reference_audio;

  int32_t reference_sample_rate = 0;

  std::string reference_text;

  int32_t num_steps = 5;


  std::unordered_map<std::string, std::string> extra;

};


struct OfflineTtsConfig {

  OfflineTtsModelConfig model;

  std::string rule_fsts;

  std::string rule_fars;

  int32_t max_num_sentences = 1;

  float silence_scale = 0.2;

};


struct GeneratedAudio {

  std::vector<float> samples;

  int32_t sample_rate = 0;

};


using OfflineTtsCallback = int32_t (*)(const float *samples,

                                       int32_t num_samples, float progress,

                                       void *arg);


class SHERPA_ONNX_API OfflineTts

    : public MoveOnly<OfflineTts, SherpaOnnxOfflineTts> {

 public:

  static OfflineTts Create(const OfflineTtsConfig &config);


  void Destroy(const SherpaOnnxOfflineTts *p) const;


  int32_t SampleRate() const;


  int32_t NumSpeakers() const;


  GeneratedAudio Generate(const std::string &text, int32_t sid = 0,

                          float speed = 1.0,

                          OfflineTtsCallback callback = nullptr,

                          void *arg = nullptr) const;


  GeneratedAudio Generate(const std::string &text,

                          const GenerationConfig &config,

                          OfflineTtsCallback callback = nullptr,

                          void *arg = nullptr) const;


  std::shared_ptr<GeneratedAudio> Generate2(

      const std::string &text, int32_t sid = 0, float speed = 1.0,

      OfflineTtsCallback callback = nullptr, void *arg = nullptr) const;


  std::shared_ptr<GeneratedAudio> Generate2(

      const std::string &text, const GenerationConfig &config,

      OfflineTtsCallback callback = nullptr, void *arg = nullptr) const;


 private:

  explicit OfflineTts(const SherpaOnnxOfflineTts *p);

};


// ============================================================

// For Keyword Spotter

// ============================================================


struct KeywordResult {

  std::string keyword;

  std::vector<std::string> tokens;

  std::vector<float> timestamps;

  float start_time = 0.0f;

  std::string json;

};


struct KeywordSpotterConfig {

  FeatureConfig feat_config;

  OnlineModelConfig model_config;

  int32_t max_active_paths = 4;

  int32_t num_trailing_blanks = 1;

  float keywords_score = 1.0f;

  float keywords_threshold = 0.25f;

  std::string keywords_file;

  std::string keywords_buf;

};


class SHERPA_ONNX_API KeywordSpotter

    : public MoveOnly<KeywordSpotter, SherpaOnnxKeywordSpotter> {

 public:

  static KeywordSpotter Create(const KeywordSpotterConfig &config);


  void Destroy(const SherpaOnnxKeywordSpotter *p) const;


  OnlineStream CreateStream() const;


  OnlineStream CreateStream(const std::string &keywords) const;


  bool IsReady(const OnlineStream *s) const;


  void Decode(const OnlineStream *s) const;


  void Decode(const OnlineStream *ss, int32_t n) const;


  void Reset(const OnlineStream *s) const;


  KeywordResult GetResult(const OnlineStream *s) const;


 private:

  explicit KeywordSpotter(const SherpaOnnxKeywordSpotter *p);

};


struct OfflineSpeechDenoiserGtcrnModelConfig {

  std::string model;

};


struct OfflineSpeechDenoiserDpdfNetModelConfig {

  std::string model;

};


struct OfflineSpeechDenoiserModelConfig {

  OfflineSpeechDenoiserGtcrnModelConfig gtcrn;

  OfflineSpeechDenoiserDpdfNetModelConfig dpdfnet;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct OfflineSpeechDenoiserConfig {

  OfflineSpeechDenoiserModelConfig model;

};


struct DenoisedAudio {

  std::vector<float> samples;

  int32_t sample_rate = 0;

};


class SHERPA_ONNX_API OfflineSpeechDenoiser

    : public MoveOnly<OfflineSpeechDenoiser, SherpaOnnxOfflineSpeechDenoiser> {

 public:

  static OfflineSpeechDenoiser Create(

      const OfflineSpeechDenoiserConfig &config);


  void Destroy(const SherpaOnnxOfflineSpeechDenoiser *p) const;


  DenoisedAudio Run(const float *samples, int32_t n, int32_t sample_rate) const;


  int32_t GetSampleRate() const;


 private:

  explicit OfflineSpeechDenoiser(const SherpaOnnxOfflineSpeechDenoiser *p);

};


struct OnlineSpeechDenoiserConfig {

  OfflineSpeechDenoiserModelConfig model;

};


class SHERPA_ONNX_API OnlineSpeechDenoiser

    : public MoveOnly<OnlineSpeechDenoiser, SherpaOnnxOnlineSpeechDenoiser> {

 public:

  static OnlineSpeechDenoiser Create(const OnlineSpeechDenoiserConfig &config);


  void Destroy(const SherpaOnnxOnlineSpeechDenoiser *p) const;


  DenoisedAudio Run(const float *samples, int32_t n, int32_t sample_rate) const;


  DenoisedAudio Flush() const;


  void Reset() const;


  int32_t GetSampleRate() const;


  int32_t GetFrameShiftInSamples() const;


 private:

  explicit OnlineSpeechDenoiser(const SherpaOnnxOnlineSpeechDenoiser *p);

};


// ==============================

// VAD

// ==============================


struct SileroVadModelConfig {

  std::string model;

  float threshold = 0.5;

  float min_silence_duration = 0.5;

  float min_speech_duration = 0.25;

  int32_t window_size = 512;

  float max_speech_duration = 20;

};


struct TenVadModelConfig {

  std::string model;

  float threshold = 0.5;

  float min_silence_duration = 0.5;

  float min_speech_duration = 0.25;

  int32_t window_size = 256;

  float max_speech_duration = 20;

};


struct VadModelConfig {

  SileroVadModelConfig silero_vad;

  TenVadModelConfig ten_vad;


  int32_t sample_rate = 16000;

  int32_t num_threads = 1;

  std::string provider = "cpu";

  bool debug = false;

};


struct SpeechSegment {

  int32_t start = 0;

  std::vector<float> samples;

};


class SHERPA_ONNX_API CircularBuffer

    : public MoveOnly<CircularBuffer, SherpaOnnxCircularBuffer> {

 public:

  static CircularBuffer Create(int32_t capacity);


  void Destroy(const SherpaOnnxCircularBuffer *p) const;


  void Push(const float *p, int32_t n) const;


  std::vector<float> Get(int32_t start_index, int32_t n) const;


  void Pop(int32_t n) const;


  int32_t Size() const;


  int32_t Head() const;


  void Reset() const;


 private:

  explicit CircularBuffer(const SherpaOnnxCircularBuffer *p);

};


class SHERPA_ONNX_API VoiceActivityDetector

    : public MoveOnly<VoiceActivityDetector, SherpaOnnxVoiceActivityDetector> {

 public:

  static VoiceActivityDetector Create(const VadModelConfig &config,

                                      float buffer_size_in_seconds);


  void Destroy(const SherpaOnnxVoiceActivityDetector *p) const;


  void AcceptWaveform(const float *samples, int32_t n) const;


  bool IsEmpty() const;


  bool IsDetected() const;


  void Pop() const;


  void Clear() const;


  SpeechSegment Front() const;


  std::shared_ptr<SpeechSegment> FrontPtr() const;


  void Reset() const;


  void Flush() const;


 private:

  explicit VoiceActivityDetector(const SherpaOnnxVoiceActivityDetector *p);

};


class SHERPA_ONNX_API LinearResampler

    : public MoveOnly<LinearResampler, SherpaOnnxLinearResampler> {

 public:

  LinearResampler() = default;

  static LinearResampler Create(int32_t samp_rate_in_hz,

                                int32_t samp_rate_out_hz,

                                float filter_cutoff_hz, int32_t num_zeros);


  void Destroy(const SherpaOnnxLinearResampler *p) const;


  void Reset() const;


  std::vector<float> Resample(const float *input, int32_t input_dim,

                              bool flush) const;


  int32_t GetInputSamplingRate() const;

  int32_t GetOutputSamplingRate() const;


 private:

  explicit LinearResampler(const SherpaOnnxLinearResampler *p);

};


SHERPA_ONNX_API std::string GetVersionStr();

SHERPA_ONNX_API std::string GetGitSha1();

SHERPA_ONNX_API std::string GetGitDate();

SHERPA_ONNX_API bool FileExists(const std::string &filename);


// ============================================================================

// Offline Punctuation

// ============================================================================


struct OfflinePunctuationModelConfig {

  std::string ct_transformer;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct OfflinePunctuationConfig {

  OfflinePunctuationModelConfig model;

};


class SHERPA_ONNX_API OfflinePunctuation

    : public MoveOnly<OfflinePunctuation, SherpaOnnxOfflinePunctuation> {

 public:

  static OfflinePunctuation Create(const OfflinePunctuationConfig &config);


  void Destroy(const SherpaOnnxOfflinePunctuation *p) const;


  std::string AddPunctuation(const std::string &text) const;


 private:

  explicit OfflinePunctuation(const SherpaOnnxOfflinePunctuation *p);

};


// ============================================================================

// Online Punctuation

// ============================================================================


struct OnlinePunctuationModelConfig {

  std::string cnn_bilstm;

  std::string bpe_vocab;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct OnlinePunctuationConfig {

  OnlinePunctuationModelConfig model;

};


class SHERPA_ONNX_API OnlinePunctuation

    : public MoveOnly<OnlinePunctuation, SherpaOnnxOnlinePunctuation> {

 public:

  static OnlinePunctuation Create(const OnlinePunctuationConfig &config);


  void Destroy(const SherpaOnnxOnlinePunctuation *p) const;


  std::string AddPunctuation(const std::string &text) const;


 private:

  explicit OnlinePunctuation(const SherpaOnnxOnlinePunctuation *p);

};


// ============================================================================

// Audio tagging

// ============================================================================


struct OfflineZipformerAudioTaggingModelConfig {

  std::string model;

};


struct AudioTaggingModelConfig {

  OfflineZipformerAudioTaggingModelConfig zipformer;

  std::string ced;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct AudioTaggingConfig {

  AudioTaggingModelConfig model;

  std::string labels;

  int32_t top_k = 5;

};


struct AudioEvent {

  std::string name;

  int32_t index;

  float prob;

};


class SHERPA_ONNX_API AudioTagging

    : public MoveOnly<AudioTagging, SherpaOnnxAudioTagging> {

 public:

  static AudioTagging Create(const AudioTaggingConfig &config);


  void Destroy(const SherpaOnnxAudioTagging *p) const;


  OfflineStream CreateStream() const;

  std::vector<AudioEvent> Compute(const OfflineStream *s, int32_t top_k = -1);


  std::shared_ptr<std::vector<AudioEvent>> ComputePtr(const OfflineStream *s,

                                                      int32_t top_k = -1);


 private:

  explicit AudioTagging(const SherpaOnnxAudioTagging *p);

};


// ==============================

// Source Separation

// ==============================


struct OfflineSourceSeparationSpleeterModelConfig {

  std::string vocals;

  std::string accompaniment;

};


struct OfflineSourceSeparationUvrModelConfig {

  std::string model;

};


struct OfflineSourceSeparationModelConfig {

  OfflineSourceSeparationSpleeterModelConfig spleeter;

  OfflineSourceSeparationUvrModelConfig uvr;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct OfflineSourceSeparationConfig {

  OfflineSourceSeparationModelConfig model;

};


struct SourceSeparationStem {

  std::vector<std::vector<float>> samples;

};


struct SourceSeparationOutput {

  std::vector<SourceSeparationStem> stems;

  int32_t sample_rate = 0;

};


class SHERPA_ONNX_API OfflineSourceSeparation

    : public MoveOnly<OfflineSourceSeparation,

                      SherpaOnnxOfflineSourceSeparation> {

 public:

  static OfflineSourceSeparation Create(

      const OfflineSourceSeparationConfig &config);


  void Destroy(const SherpaOnnxOfflineSourceSeparation *p) const;


  SourceSeparationOutput Process(const float *const *samples,

                                 int32_t num_channels, int32_t num_samples,

                                 int32_t sample_rate) const;


  int32_t GetOutputSampleRate() const;


  int32_t GetNumberOfStems() const;


 private:

  explicit OfflineSourceSeparation(const SherpaOnnxOfflineSourceSeparation *p);

};


// ============================================================================

// Spoken Language Identification

// ============================================================================


struct SpokenLanguageIdentificationWhisperConfig {

  std::string encoder;

  std::string decoder;

  int32_t tail_paddings = 0;

};


struct SpokenLanguageIdentificationConfig {

  SpokenLanguageIdentificationWhisperConfig whisper;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct SpokenLanguageIdentificationResult {

  std::string lang;

};


class SHERPA_ONNX_API SpokenLanguageIdentification

    : public MoveOnly<SpokenLanguageIdentification,

                      SherpaOnnxSpokenLanguageIdentification> {

 public:

  static SpokenLanguageIdentification Create(

      const SpokenLanguageIdentificationConfig &config);


  void Destroy(const SherpaOnnxSpokenLanguageIdentification *p) const;


  OfflineStream CreateStream() const;


  SpokenLanguageIdentificationResult Compute(const OfflineStream *s) const;


 private:

  explicit SpokenLanguageIdentification(

      const SherpaOnnxSpokenLanguageIdentification *p);

};


// ============================================================================

// Speaker Embedding Extractor

// ============================================================================


struct SpeakerEmbeddingExtractorConfig {

  std::string model;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


class SHERPA_ONNX_API SpeakerEmbeddingExtractor

    : public MoveOnly<SpeakerEmbeddingExtractor,

                      SherpaOnnxSpeakerEmbeddingExtractor> {

 public:

  static SpeakerEmbeddingExtractor Create(

      const SpeakerEmbeddingExtractorConfig &config);


  void Destroy(const SherpaOnnxSpeakerEmbeddingExtractor *p) const;


  int32_t Dim() const;


  OnlineStream CreateStream() const;


  bool IsReady(const OnlineStream *s) const;


  std::vector<float> ComputeEmbedding(const OnlineStream *s) const;


 private:

  explicit SpeakerEmbeddingExtractor(

      const SherpaOnnxSpeakerEmbeddingExtractor *p);

};


// ============================================================================

// Speaker Embedding Manager

// ============================================================================


struct SpeakerMatch {

  float score;

  std::string name;

};


class SHERPA_ONNX_API SpeakerEmbeddingManager

    : public MoveOnly<SpeakerEmbeddingManager,

                      SherpaOnnxSpeakerEmbeddingManager> {

 public:

  static SpeakerEmbeddingManager Create(int32_t dim);


  void Destroy(const SherpaOnnxSpeakerEmbeddingManager *p) const;


  bool Add(const std::string &name, const float *v) const;


  bool AddList(const std::string &name, const float **v) const;


  bool AddListFlattened(const std::string &name, const float *v,

                        int32_t n) const;


  bool Remove(const std::string &name) const;


  std::string Search(const float *v, float threshold) const;


  std::vector<SpeakerMatch> GetBestMatches(const float *v, float threshold,

                                           int32_t n) const;


  bool Verify(const std::string &name, const float *v, float threshold) const;


  bool Contains(const std::string &name) const;


  int32_t NumSpeakers() const;


  std::vector<std::string> GetAllSpeakers() const;


 private:

  explicit SpeakerEmbeddingManager(const SherpaOnnxSpeakerEmbeddingManager *p);

};


// ============================================================================

// Offline Speaker Diarization

// ============================================================================


struct OfflineSpeakerSegmentationPyannoteModelConfig {

  std::string model;

};


struct OfflineSpeakerSegmentationModelConfig {

  OfflineSpeakerSegmentationPyannoteModelConfig pyannote;

  int32_t num_threads = 1;

  bool debug = false;

  std::string provider = "cpu";

};


struct FastClusteringConfig {

  int32_t num_clusters = 0;

  float threshold = 0.5;

};


struct OfflineSpeakerDiarizationConfig {

  OfflineSpeakerSegmentationModelConfig segmentation;

  SpeakerEmbeddingExtractorConfig embedding;

  FastClusteringConfig clustering;

  float min_duration_on = 0;

  float min_duration_off = 0;

};


struct OfflineSpeakerDiarizationSegment {

  float start;

  float end;

  int32_t speaker;

};


using OfflineSpeakerDiarizationProgressCallback =

    std::function<void(int32_t num_processed_chunks, int32_t num_total_chunks)>;


class SHERPA_ONNX_API OfflineSpeakerDiarization

    : public MoveOnly<OfflineSpeakerDiarization,

                      SherpaOnnxOfflineSpeakerDiarization> {

 public:

  static OfflineSpeakerDiarization Create(

      const OfflineSpeakerDiarizationConfig &config);


  void Destroy(const SherpaOnnxOfflineSpeakerDiarization *p) const;


  int32_t GetSampleRate() const;


  void SetConfig(const OfflineSpeakerDiarizationConfig &config) const;


  std::vector<OfflineSpeakerDiarizationSegment> Process(

      const float *samples, int32_t n) const;


  std::vector<OfflineSpeakerDiarizationSegment> Process(

      const float *samples, int32_t n,

      const OfflineSpeakerDiarizationProgressCallback &callback) const;


 private:

  explicit OfflineSpeakerDiarization(

      const SherpaOnnxOfflineSpeakerDiarization *p);

};


}  // namespace sherpa_onnx::cxx


#endif  // SHERPA_ONNX_C_API_CXX_API_H_

c-api.h
Public C API for sherpa-onnx.

SherpaOnnxSpokenLanguageIdentification
struct SherpaOnnxSpokenLanguageIdentification SherpaOnnxSpokenLanguageIdentification
Opaque spoken-language identification handle.
Definition c-api.h:2979

SherpaOnnxOfflineSpeechDenoiser
struct SherpaOnnxOfflineSpeechDenoiser SherpaOnnxOfflineSpeechDenoiser
Opaque offline speech denoiser handle.
Definition c-api.h:4119

SherpaOnnxOfflineStream
struct SherpaOnnxOfflineStream SherpaOnnxOfflineStream
Non-streaming decoding state for one utterance.
Definition c-api.h:1199

SHERPA_ONNX_API
#define SHERPA_ONNX_API
Definition c-api.h:106

SherpaOnnxOnlineSpeechDenoiser
struct SherpaOnnxOnlineSpeechDenoiser SherpaOnnxOnlineSpeechDenoiser
Opaque online speech denoiser handle.
Definition c-api.h:4217

SherpaOnnxOnlineStream
struct SherpaOnnxOnlineStream SherpaOnnxOnlineStream
Streaming decoding state for one utterance or stream.
Definition c-api.h:426

SherpaOnnxOfflineRecognizer
struct SherpaOnnxOfflineRecognizer SherpaOnnxOfflineRecognizer
Non-streaming recognizer handle.
Definition c-api.h:1196

SherpaOnnxSpeakerEmbeddingManager
struct SherpaOnnxSpeakerEmbeddingManager SherpaOnnxSpeakerEmbeddingManager
Opaque speaker embedding manager handle.
Definition c-api.h:3204

SherpaOnnxKeywordSpotter
struct SherpaOnnxKeywordSpotter SherpaOnnxKeywordSpotter
Opaque keyword spotter handle.
Definition c-api.h:1707

SherpaOnnxOnlinePunctuation
struct SherpaOnnxOnlinePunctuation SherpaOnnxOnlinePunctuation
Opaque online punctuation handle.
Definition c-api.h:3674

SherpaOnnxOnlineRecognizer
struct SherpaOnnxOnlineRecognizer SherpaOnnxOnlineRecognizer
Streaming recognizer handle.
Definition c-api.h:424

SherpaOnnxCircularBuffer
struct SherpaOnnxCircularBuffer SherpaOnnxCircularBuffer
Opaque circular-buffer handle used by helper APIs.
Definition c-api.h:1963

SherpaOnnxOfflineTts
struct SherpaOnnxOfflineTts SherpaOnnxOfflineTts
Opaque offline TTS handle.
Definition c-api.h:2507

SherpaOnnxLinearResampler
struct SherpaOnnxLinearResampler SherpaOnnxLinearResampler
Opaque linear resampler handle.
Definition c-api.h:3723

SherpaOnnxOfflineSourceSeparation
struct SherpaOnnxOfflineSourceSeparation SherpaOnnxOfflineSourceSeparation
Opaque source-separation engine handle.
Definition c-api.h:4331

SherpaOnnxOfflineSpeakerDiarization
struct SherpaOnnxOfflineSpeakerDiarization SherpaOnnxOfflineSpeakerDiarization
Opaque offline speaker diarization handle.
Definition c-api.h:3892

SherpaOnnxSpeakerEmbeddingExtractor
struct SherpaOnnxSpeakerEmbeddingExtractor SherpaOnnxSpeakerEmbeddingExtractor
Opaque speaker embedding extractor handle.
Definition c-api.h:3099

SherpaOnnxAudioTagging
struct SherpaOnnxAudioTagging SherpaOnnxAudioTagging
Opaque audio tagger handle.
Definition c-api.h:3493

SherpaOnnxOfflinePunctuation
struct SherpaOnnxOfflinePunctuation SherpaOnnxOfflinePunctuation
Opaque offline punctuation handle.
Definition c-api.h:3597

SherpaOnnxVoiceActivityDetector
struct SherpaOnnxVoiceActivityDetector SherpaOnnxVoiceActivityDetector
Opaque voice activity detector handle.
Definition c-api.h:2082

sherpa_onnx::cxx::AudioTagging
RAII wrapper for audio tagging.
Definition cxx-api.h:1626

sherpa_onnx::cxx::AudioTagging::Compute
std::vector< AudioEvent > Compute(const OfflineStream *s, int32_t top_k=-1)
Run audio tagging and return copied results.

sherpa_onnx::cxx::AudioTagging::CreateStream
OfflineStream CreateStream() const
Create an offline stream for tagging.

sherpa_onnx::cxx::AudioTagging::ComputePtr
std::shared_ptr< std::vector< AudioEvent > > ComputePtr(const OfflineStream *s, int32_t top_k=-1)
Like Compute(), but returns the result vector in a shared pointer.

sherpa_onnx::cxx::AudioTagging::Destroy
void Destroy(const SherpaOnnxAudioTagging *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::AudioTagging::Create
static AudioTagging Create(const AudioTaggingConfig &config)
Create an audio tagger.

sherpa_onnx::cxx::CircularBuffer
RAII wrapper for the circular buffer helper used by VAD.
Definition cxx-api.h:1382

sherpa_onnx::cxx::CircularBuffer::Create
static CircularBuffer Create(int32_t capacity)
Create a circular buffer with the given capacity in samples.

sherpa_onnx::cxx::CircularBuffer::Head
int32_t Head() const
Return the current head index.

sherpa_onnx::cxx::CircularBuffer::Destroy
void Destroy(const SherpaOnnxCircularBuffer *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::CircularBuffer::Get
std::vector< float > Get(int32_t start_index, int32_t n) const
Copy a contiguous span from the buffer.

sherpa_onnx::cxx::CircularBuffer::Push
void Push(const float *p, int32_t n) const
Append samples to the buffer.

sherpa_onnx::cxx::CircularBuffer::Size
int32_t Size() const
Return the number of stored samples.

sherpa_onnx::cxx::CircularBuffer::Reset
void Reset() const
Reset the buffer to empty.

sherpa_onnx::cxx::CircularBuffer::Pop
void Pop(int32_t n) const
Remove samples from the head of the buffer.

sherpa_onnx::cxx::KeywordSpotter
RAII wrapper for keyword spotting.
Definition cxx-api.h:1178

sherpa_onnx::cxx::KeywordSpotter::CreateStream
OnlineStream CreateStream(const std::string &keywords) const
Create a keyword stream with inline extra or replacement keywords.

sherpa_onnx::cxx::KeywordSpotter::IsReady
bool IsReady(const OnlineStream *s) const
Check whether the stream has enough data to decode.

sherpa_onnx::cxx::KeywordSpotter::Decode
void Decode(const OnlineStream *ss, int32_t n) const
Decode multiple ready streams in parallel.

sherpa_onnx::cxx::KeywordSpotter::Destroy
void Destroy(const SherpaOnnxKeywordSpotter *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::KeywordSpotter::CreateStream
OnlineStream CreateStream() const
Create a keyword stream using configured keywords.

sherpa_onnx::cxx::KeywordSpotter::Decode
void Decode(const OnlineStream *s) const
Decode one ready stream.

sherpa_onnx::cxx::KeywordSpotter::Create
static KeywordSpotter Create(const KeywordSpotterConfig &config)
Create a keyword spotter from a config struct.

sherpa_onnx::cxx::KeywordSpotter::Reset
void Reset(const OnlineStream *s) const
Reset a stream after a keyword trigger.

sherpa_onnx::cxx::KeywordSpotter::GetResult
KeywordResult GetResult(const OnlineStream *s) const
Return the copied keyword spotting result for a stream.

sherpa_onnx::cxx::LinearResampler
RAII wrapper for linear resampling.
Definition cxx-api.h:1461

sherpa_onnx::cxx::LinearResampler::Create
static LinearResampler Create(int32_t samp_rate_in_hz, int32_t samp_rate_out_hz, float filter_cutoff_hz, int32_t num_zeros)
Create a linear resampler.

sherpa_onnx::cxx::LinearResampler::LinearResampler
LinearResampler()=default
Construct an empty wrapper.

sherpa_onnx::cxx::LinearResampler::GetInputSamplingRate
int32_t GetInputSamplingRate() const
Return the input sample rate in Hz.

sherpa_onnx::cxx::LinearResampler::Destroy
void Destroy(const SherpaOnnxLinearResampler *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::LinearResampler::Resample
std::vector< float > Resample(const float *input, int32_t input_dim, bool flush) const
Resample one chunk of input audio.

sherpa_onnx::cxx::LinearResampler::GetOutputSamplingRate
int32_t GetOutputSamplingRate() const
Return the output sample rate in Hz.

sherpa_onnx::cxx::LinearResampler::Reset
void Reset() const
Reset the resampler state.

sherpa_onnx::cxx::MoveOnly
Base class for move-only RAII wrappers around C handles.
Definition cxx-api.h:291

sherpa_onnx::cxx::MoveOnly::MoveOnly
MoveOnly(const T *p)
Construct a wrapper from a raw C handle.
Definition cxx-api.h:296

sherpa_onnx::cxx::MoveOnly::Release
const T * Release()
Release ownership of the wrapped raw pointer.
Definition cxx-api.h:323

sherpa_onnx::cxx::MoveOnly::MoveOnly
MoveOnly(const MoveOnly &)=delete

sherpa_onnx::cxx::MoveOnly::~MoveOnly
~MoveOnly()
Destroy the wrapped handle if present.
Definition cxx-api.h:299

sherpa_onnx::cxx::MoveOnly::MoveOnly
MoveOnly()=default
Construct an empty wrapper.

sherpa_onnx::cxx::MoveOnly::operator=
MoveOnly & operator=(const MoveOnly &)=delete

sherpa_onnx::cxx::MoveOnly::operator=
MoveOnly & operator=(MoveOnly &&other)
Definition cxx-api.h:307

sherpa_onnx::cxx::MoveOnly::MoveOnly
MoveOnly(MoveOnly &&other)
Definition cxx-api.h:305

sherpa_onnx::cxx::MoveOnly::Get
const T * Get() const
Return the wrapped raw pointer without transferring ownership.
Definition cxx-api.h:320

sherpa_onnx::cxx::OfflinePunctuation
RAII wrapper for offline punctuation restoration.
Definition cxx-api.h:1521

sherpa_onnx::cxx::OfflinePunctuation::Create
static OfflinePunctuation Create(const OfflinePunctuationConfig &config)
Create an offline punctuation model.

sherpa_onnx::cxx::OfflinePunctuation::AddPunctuation
std::string AddPunctuation(const std::string &text) const
Add punctuation to a complete input text.

sherpa_onnx::cxx::OfflinePunctuation::Destroy
void Destroy(const SherpaOnnxOfflinePunctuation *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineRecognizer
RAII wrapper for an offline recognizer.
Definition cxx-api.h:802

sherpa_onnx::cxx::OfflineRecognizer::GetResultPtr
std::shared_ptr< OfflineRecognizerResult > GetResultPtr(const OfflineStream *s) const
Convenience wrapper that returns the result inside a shared pointer.

sherpa_onnx::cxx::OfflineRecognizer::Create
static OfflineRecognizer Create(const OfflineRecognizerConfig &config)
Create an offline recognizer from a config struct.

sherpa_onnx::cxx::OfflineRecognizer::Decode
void Decode(const OfflineStream *ss, int32_t n) const
Decode multiple offline streams in parallel.

sherpa_onnx::cxx::OfflineRecognizer::Decode
void Decode(const OfflineStream *s) const
Decode one offline stream.

sherpa_onnx::cxx::OfflineRecognizer::GetResult
OfflineRecognizerResult GetResult(const OfflineStream *s) const
Return the copied recognition result for one stream.

sherpa_onnx::cxx::OfflineRecognizer::SetConfig
void SetConfig(const OfflineRecognizerConfig &config) const
Update recognizer runtime configuration after creation.

sherpa_onnx::cxx::OfflineRecognizer::CreateStream
OfflineStream CreateStream() const
Create a stream using the recognizer's configured hotwords.

sherpa_onnx::cxx::OfflineRecognizer::Destroy
void Destroy(const SherpaOnnxOfflineRecognizer *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineRecognizer::CreateStream
OfflineStream CreateStream(const std::string &hotwords) const
Create a stream with inline hotwords.

sherpa_onnx::cxx::OfflineSourceSeparation
RAII wrapper for offline source separation.
Definition cxx-api.h:1712

sherpa_onnx::cxx::OfflineSourceSeparation::Destroy
void Destroy(const SherpaOnnxOfflineSourceSeparation *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineSourceSeparation::GetNumberOfStems
int32_t GetNumberOfStems() const
Return the number of stems produced.

sherpa_onnx::cxx::OfflineSourceSeparation::GetOutputSampleRate
int32_t GetOutputSampleRate() const
Return the output sample rate.

sherpa_onnx::cxx::OfflineSourceSeparation::Create
static OfflineSourceSeparation Create(const OfflineSourceSeparationConfig &config)
Create an offline source separation engine.

sherpa_onnx::cxx::OfflineSourceSeparation::Process
SourceSeparationOutput Process(const float *const *samples, int32_t num_channels, int32_t num_samples, int32_t sample_rate) const
Run source separation on multi-channel audio.

sherpa_onnx::cxx::OfflineSpeakerDiarization
RAII wrapper for offline speaker diarization.
Definition cxx-api.h:1965

sherpa_onnx::cxx::OfflineSpeakerDiarization::SetConfig
void SetConfig(const OfflineSpeakerDiarizationConfig &config) const
Update clustering-related settings.

sherpa_onnx::cxx::OfflineSpeakerDiarization::GetSampleRate
int32_t GetSampleRate() const
Return the expected input sample rate.

sherpa_onnx::cxx::OfflineSpeakerDiarization::Destroy
void Destroy(const SherpaOnnxOfflineSpeakerDiarization *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineSpeakerDiarization::Process
std::vector< OfflineSpeakerDiarizationSegment > Process(const float *samples, int32_t n) const
Run offline speaker diarization.

sherpa_onnx::cxx::OfflineSpeakerDiarization::Create
static OfflineSpeakerDiarization Create(const OfflineSpeakerDiarizationConfig &config)
Create an offline speaker diarization pipeline.

sherpa_onnx::cxx::OfflineSpeakerDiarization::Process
std::vector< OfflineSpeakerDiarizationSegment > Process(const float *samples, int32_t n, const OfflineSpeakerDiarizationProgressCallback &callback) const
Run offline speaker diarization with a progress callback.

sherpa_onnx::cxx::OfflineSpeechDenoiser
RAII wrapper for offline speech denoising.
Definition cxx-api.h:1259

sherpa_onnx::cxx::OfflineSpeechDenoiser::Run
DenoisedAudio Run(const float *samples, int32_t n, int32_t sample_rate) const
Run denoising on a complete waveform.

sherpa_onnx::cxx::OfflineSpeechDenoiser::GetSampleRate
int32_t GetSampleRate() const
Return the expected input sample rate.

sherpa_onnx::cxx::OfflineSpeechDenoiser::Create
static OfflineSpeechDenoiser Create(const OfflineSpeechDenoiserConfig &config)
Create an offline speech denoiser.

sherpa_onnx::cxx::OfflineSpeechDenoiser::Destroy
void Destroy(const SherpaOnnxOfflineSpeechDenoiser *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineStream
RAII wrapper for an offline decoding stream.
Definition cxx-api.h:775

sherpa_onnx::cxx::OfflineStream::SetOption
void SetOption(const char *key, const char *value) const
Set a per-stream string option.

sherpa_onnx::cxx::OfflineStream::GetOption
const char * GetOption(const char *key) const
Get a per-stream string option.

sherpa_onnx::cxx::OfflineStream::Destroy
void Destroy(const SherpaOnnxOfflineStream *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineStream::AcceptWaveform
void AcceptWaveform(int32_t sample_rate, const float *samples, int32_t n) const
Provide the complete waveform for offline decoding.

sherpa_onnx::cxx::OfflineStream::HasOption
int32_t HasOption(const char *key) const
Check whether a per-stream option exists.

sherpa_onnx::cxx::OfflineStream::OfflineStream
OfflineStream(const SherpaOnnxOfflineStream *p)
Wrap an existing C offline stream handle.

sherpa_onnx::cxx::OfflineTts
RAII wrapper for offline TTS.
Definition cxx-api.h:1092

sherpa_onnx::cxx::OfflineTts::Generate
GeneratedAudio Generate(const std::string &text, int32_t sid=0, float speed=1.0, OfflineTtsCallback callback=nullptr, void *arg=nullptr) const
Generate speech using the simple speaker-id and speed interface.

sherpa_onnx::cxx::OfflineTts::Generate
GeneratedAudio Generate(const std::string &text, const GenerationConfig &config, OfflineTtsCallback callback=nullptr, void *arg=nullptr) const
Generate speech using the advanced generation configuration.

sherpa_onnx::cxx::OfflineTts::NumSpeakers
int32_t NumSpeakers() const
Return the number of supported speakers.

sherpa_onnx::cxx::OfflineTts::Create
static OfflineTts Create(const OfflineTtsConfig &config)
Create an offline TTS engine.

sherpa_onnx::cxx::OfflineTts::Generate2
std::shared_ptr< GeneratedAudio > Generate2(const std::string &text, const GenerationConfig &config, OfflineTtsCallback callback=nullptr, void *arg=nullptr) const
Like the advanced Generate() overload, but returns a shared pointer.

sherpa_onnx::cxx::OfflineTts::Generate2
std::shared_ptr< GeneratedAudio > Generate2(const std::string &text, int32_t sid=0, float speed=1.0, OfflineTtsCallback callback=nullptr, void *arg=nullptr) const
Like Generate(), but returns a shared pointer to the result.

sherpa_onnx::cxx::OfflineTts::Destroy
void Destroy(const SherpaOnnxOfflineTts *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OfflineTts::SampleRate
int32_t SampleRate() const
Return the output sample rate of generated audio.

sherpa_onnx::cxx::OnlinePunctuation
RAII wrapper for online punctuation restoration.
Definition cxx-api.h:1561

sherpa_onnx::cxx::OnlinePunctuation::Destroy
void Destroy(const SherpaOnnxOnlinePunctuation *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OnlinePunctuation::Create
static OnlinePunctuation Create(const OnlinePunctuationConfig &config)
Create an online punctuation model.

sherpa_onnx::cxx::OnlinePunctuation::AddPunctuation
std::string AddPunctuation(const std::string &text) const
Add punctuation to one input text chunk.

sherpa_onnx::cxx::OnlineRecognizer
RAII wrapper for a streaming recognizer.
Definition cxx-api.h:386

sherpa_onnx::cxx::OnlineRecognizer::Decode
void Decode(const OnlineStream *s) const
Decode one ready stream.

sherpa_onnx::cxx::OnlineRecognizer::GetResult
OnlineRecognizerResult GetResult(const OnlineStream *s) const
Return the current recognition result for a stream.

sherpa_onnx::cxx::OnlineRecognizer::Create
static OnlineRecognizer Create(const OnlineRecognizerConfig &config)
Create a streaming recognizer from a config struct.

sherpa_onnx::cxx::OnlineRecognizer::Reset
void Reset(const OnlineStream *s) const
Reset a stream after endpointing or utterance completion.

sherpa_onnx::cxx::OnlineRecognizer::CreateStream
OnlineStream CreateStream(const std::string &hotwords) const
Create a stream with inline hotwords.

sherpa_onnx::cxx::OnlineRecognizer::Destroy
void Destroy(const SherpaOnnxOnlineRecognizer *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OnlineRecognizer::IsReady
bool IsReady(const OnlineStream *s) const
Check whether the given stream has enough data to decode.

sherpa_onnx::cxx::OnlineRecognizer::IsEndpoint
bool IsEndpoint(const OnlineStream *s) const
Check whether endpointing has triggered for a stream.

sherpa_onnx::cxx::OnlineRecognizer::CreateStream
OnlineStream CreateStream() const
Create a stream that uses the recognizer's configured hotwords.

sherpa_onnx::cxx::OnlineRecognizer::Decode
void Decode(const OnlineStream *ss, int32_t n) const
Decode multiple ready streams in parallel.

sherpa_onnx::cxx::OnlineSpeechDenoiser
RAII wrapper for online speech denoising.
Definition cxx-api.h:1286

sherpa_onnx::cxx::OnlineSpeechDenoiser::GetFrameShiftInSamples
int32_t GetFrameShiftInSamples() const
Return the recommended frame shift in samples for streaming input.

sherpa_onnx::cxx::OnlineSpeechDenoiser::Flush
DenoisedAudio Flush() const
Flush buffered audio and reset the denoiser.

sherpa_onnx::cxx::OnlineSpeechDenoiser::Run
DenoisedAudio Run(const float *samples, int32_t n, int32_t sample_rate) const
Process one chunk of streaming audio.

sherpa_onnx::cxx::OnlineSpeechDenoiser::GetSampleRate
int32_t GetSampleRate() const
Return the expected input sample rate.

sherpa_onnx::cxx::OnlineSpeechDenoiser::Destroy
void Destroy(const SherpaOnnxOnlineSpeechDenoiser *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OnlineSpeechDenoiser::Reset
void Reset() const
Reset the denoiser for a new stream.

sherpa_onnx::cxx::OnlineSpeechDenoiser::Create
static OnlineSpeechDenoiser Create(const OnlineSpeechDenoiserConfig &config)
Create an online speech denoiser.

sherpa_onnx::cxx::OnlineStream
Definition cxx-api.h:345

sherpa_onnx::cxx::OnlineStream::InputFinished
void InputFinished() const
Indicate that no more input audio will be provided.

sherpa_onnx::cxx::OnlineStream::AcceptWaveform
void AcceptWaveform(int32_t sample_rate, const float *samples, int32_t n) const
Append audio samples to the stream.

sherpa_onnx::cxx::OnlineStream::Destroy
void Destroy(const SherpaOnnxOnlineStream *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::OnlineStream::HasOption
int32_t HasOption(const char *key) const
Check whether a per-stream option exists.

sherpa_onnx::cxx::OnlineStream::OnlineStream
OnlineStream(const SherpaOnnxOnlineStream *p)
Wrap an existing C online stream handle.

sherpa_onnx::cxx::OnlineStream::SetOption
void SetOption(const char *key, const char *value) const
Set a per-stream string option.

sherpa_onnx::cxx::OnlineStream::GetOption
const char * GetOption(const char *key) const
Get a per-stream string option.

sherpa_onnx::cxx::SpeakerEmbeddingExtractor
RAII wrapper for speaker embedding extraction.
Definition cxx-api.h:1818

sherpa_onnx::cxx::SpeakerEmbeddingExtractor::IsReady
bool IsReady(const OnlineStream *s) const
Check whether enough audio has been provided.

sherpa_onnx::cxx::SpeakerEmbeddingExtractor::Destroy
void Destroy(const SherpaOnnxSpeakerEmbeddingExtractor *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::SpeakerEmbeddingExtractor::CreateStream
OnlineStream CreateStream() const
Create a stream for embedding extraction.

sherpa_onnx::cxx::SpeakerEmbeddingExtractor::Dim
int32_t Dim() const
Return the embedding dimension.

sherpa_onnx::cxx::SpeakerEmbeddingExtractor::Create
static SpeakerEmbeddingExtractor Create(const SpeakerEmbeddingExtractorConfig &config)
Create a speaker embedding extractor.

sherpa_onnx::cxx::SpeakerEmbeddingExtractor::ComputeEmbedding
std::vector< float > ComputeEmbedding(const OnlineStream *s) const
Compute the embedding for a stream.

sherpa_onnx::cxx::SpeakerEmbeddingManager
RAII wrapper for speaker embedding management.
Definition cxx-api.h:1859

sherpa_onnx::cxx::SpeakerEmbeddingManager::Contains
bool Contains(const std::string &name) const
Check whether a speaker is enrolled.

sherpa_onnx::cxx::SpeakerEmbeddingManager::AddListFlattened
bool AddListFlattened(const std::string &name, const float *v, int32_t n) const
Add multiple enrollment embeddings packed in one flat array.

sherpa_onnx::cxx::SpeakerEmbeddingManager::GetAllSpeakers
std::vector< std::string > GetAllSpeakers() const
Return all enrolled speaker names.

sherpa_onnx::cxx::SpeakerEmbeddingManager::Add
bool Add(const std::string &name, const float *v) const
Add one enrollment embedding for a speaker.

sherpa_onnx::cxx::SpeakerEmbeddingManager::NumSpeakers
int32_t NumSpeakers() const
Return the number of enrolled speakers.

sherpa_onnx::cxx::SpeakerEmbeddingManager::GetBestMatches
std::vector< SpeakerMatch > GetBestMatches(const float *v, float threshold, int32_t n) const
Return up to n best matches above a similarity threshold.

sherpa_onnx::cxx::SpeakerEmbeddingManager::Remove
bool Remove(const std::string &name) const
Remove a speaker from the manager.

sherpa_onnx::cxx::SpeakerEmbeddingManager::AddList
bool AddList(const std::string &name, const float **v) const
Add multiple enrollment embeddings for one speaker.

sherpa_onnx::cxx::SpeakerEmbeddingManager::Destroy
void Destroy(const SherpaOnnxSpeakerEmbeddingManager *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::SpeakerEmbeddingManager::Search
std::string Search(const float *v, float threshold) const
Search for the best matching enrolled speaker.

sherpa_onnx::cxx::SpeakerEmbeddingManager::Verify
bool Verify(const std::string &name, const float *v, float threshold) const
Verify whether a query embedding matches a named speaker.

sherpa_onnx::cxx::SpeakerEmbeddingManager::Create
static SpeakerEmbeddingManager Create(int32_t dim)
Create a speaker embedding manager.

sherpa_onnx::cxx::SpokenLanguageIdentification
RAII wrapper for spoken language identification.
Definition cxx-api.h:1779

sherpa_onnx::cxx::SpokenLanguageIdentification::CreateStream
OfflineStream CreateStream() const
Create an offline stream for identification.

sherpa_onnx::cxx::SpokenLanguageIdentification::Create
static SpokenLanguageIdentification Create(const SpokenLanguageIdentificationConfig &config)
Create a spoken language identifier.

sherpa_onnx::cxx::SpokenLanguageIdentification::Compute
SpokenLanguageIdentificationResult Compute(const OfflineStream *s) const
Run spoken language identification on a stream.

sherpa_onnx::cxx::SpokenLanguageIdentification::Destroy
void Destroy(const SherpaOnnxSpokenLanguageIdentification *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::VoiceActivityDetector
RAII wrapper for voice activity detection.
Definition cxx-api.h:1419

sherpa_onnx::cxx::VoiceActivityDetector::Clear
void Clear() const
Remove all queued speech segments.

sherpa_onnx::cxx::VoiceActivityDetector::Pop
void Pop() const
Remove the front queued speech segment.

sherpa_onnx::cxx::VoiceActivityDetector::Destroy
void Destroy(const SherpaOnnxVoiceActivityDetector *p) const
Destroy the wrapped C handle.

sherpa_onnx::cxx::VoiceActivityDetector::FrontPtr
std::shared_ptr< SpeechSegment > FrontPtr() const
Like Front(), but returns the segment in a shared pointer.

sherpa_onnx::cxx::VoiceActivityDetector::Create
static VoiceActivityDetector Create(const VadModelConfig &config, float buffer_size_in_seconds)
Create a VAD instance.

sherpa_onnx::cxx::VoiceActivityDetector::AcceptWaveform
void AcceptWaveform(const float *samples, int32_t n) const
Feed more audio samples to the detector.

sherpa_onnx::cxx::VoiceActivityDetector::IsEmpty
bool IsEmpty() const
Check whether no speech segments are currently queued.

sherpa_onnx::cxx::VoiceActivityDetector::IsDetected
bool IsDetected() const
Check whether speech is currently detected.

sherpa_onnx::cxx::VoiceActivityDetector::Flush
void Flush() const
Flush buffered context at end of input.

sherpa_onnx::cxx::VoiceActivityDetector::Front
SpeechSegment Front() const
Return the front queued speech segment.

sherpa_onnx::cxx::VoiceActivityDetector::Reset
void Reset() const
Reset the detector state.

sherpa_onnx::cxx
Definition cxx-api.h:55

sherpa_onnx::cxx::GetGitSha1
std::string GetGitSha1()
Return the build Git SHA1 as a C++ string.

sherpa_onnx::cxx::OfflineTtsCallback
int32_t(*)(const float *samples, int32_t num_samples, float progress, void *arg) OfflineTtsCallback
TTS progress callback.
Definition cxx-api.h:1066

sherpa_onnx::cxx::GetVersionStr
std::string GetVersionStr()
Return the sherpa-onnx version string as a C++ string.

sherpa_onnx::cxx::ReadWave
Wave ReadWave(const std::string &filename)
Read a mono WAVE file into a C++ value object.

sherpa_onnx::cxx::GetGitDate
std::string GetGitDate()
Return the build Git date as a C++ string.

sherpa_onnx::cxx::OfflineSpeakerDiarizationProgressCallback
std::function< void(int32_t num_processed_chunks, int32_t num_total_chunks)> OfflineSpeakerDiarizationProgressCallback
Progress callback for offline speaker diarization.
Definition cxx-api.h:1960

sherpa_onnx::cxx::FileExists
bool FileExists(const std::string &filename)
Return true if a file exists.

sherpa_onnx::cxx::WriteWave
bool WriteWave(const std::string &filename, const Wave &wave)
Write a mono WAVE file from a C++ value object.

sherpa_onnx::cxx::AudioEvent
One audio-tagging event returned by the C++ wrapper.
Definition cxx-api.h:1615

sherpa_onnx::cxx::AudioEvent::index
int32_t index
Definition cxx-api.h:1619

sherpa_onnx::cxx::AudioEvent::name
std::string name
Definition cxx-api.h:1617

sherpa_onnx::cxx::AudioEvent::prob
float prob
Definition cxx-api.h:1621

sherpa_onnx::cxx::AudioTaggingConfig
Configuration for audio tagging.
Definition cxx-api.h:1605

sherpa_onnx::cxx::AudioTaggingConfig::model
AudioTaggingModelConfig model
Definition cxx-api.h:1607

sherpa_onnx::cxx::AudioTaggingConfig::top_k
int32_t top_k
Definition cxx-api.h:1611

sherpa_onnx::cxx::AudioTaggingConfig::labels
std::string labels
Definition cxx-api.h:1609

sherpa_onnx::cxx::AudioTaggingModelConfig
Audio-tagging model configuration.
Definition cxx-api.h:1591

sherpa_onnx::cxx::AudioTaggingModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1597

sherpa_onnx::cxx::AudioTaggingModelConfig::ced
std::string ced
Definition cxx-api.h:1595

sherpa_onnx::cxx::AudioTaggingModelConfig::debug
bool debug
Definition cxx-api.h:1599

sherpa_onnx::cxx::AudioTaggingModelConfig::provider
std::string provider
Definition cxx-api.h:1601

sherpa_onnx::cxx::AudioTaggingModelConfig::zipformer
OfflineZipformerAudioTaggingModelConfig zipformer
Definition cxx-api.h:1593

sherpa_onnx::cxx::DenoisedAudio
Denoised waveform returned by speech enhancement wrappers.
Definition cxx-api.h:1250

sherpa_onnx::cxx::DenoisedAudio::sample_rate
int32_t sample_rate
Definition cxx-api.h:1254

sherpa_onnx::cxx::DenoisedAudio::samples
std::vector< float > samples
Definition cxx-api.h:1252

sherpa_onnx::cxx::FastClusteringConfig
Fast clustering configuration.
Definition cxx-api.h:1926

sherpa_onnx::cxx::FastClusteringConfig::num_clusters
int32_t num_clusters
Definition cxx-api.h:1929

sherpa_onnx::cxx::FastClusteringConfig::threshold
float threshold
Definition cxx-api.h:1931

sherpa_onnx::cxx::FeatureConfig
Feature extraction settings shared by ASR and KWS wrappers.
Definition cxx-api.h:152

sherpa_onnx::cxx::FeatureConfig::sample_rate
int32_t sample_rate
Definition cxx-api.h:154

sherpa_onnx::cxx::FeatureConfig::feature_dim
int32_t feature_dim
Definition cxx-api.h:156

sherpa_onnx::cxx::GeneratedAudio
Generated audio returned by the C++ TTS wrapper.
Definition cxx-api.h:1052

sherpa_onnx::cxx::GeneratedAudio::sample_rate
int32_t sample_rate
Definition cxx-api.h:1056

sherpa_onnx::cxx::GeneratedAudio::samples
std::vector< float > samples
Definition cxx-api.h:1054

sherpa_onnx::cxx::GenerationConfig
Generation-time options for advanced TTS synthesis.
Definition cxx-api.h:1017

sherpa_onnx::cxx::GenerationConfig::speed
float speed
Definition cxx-api.h:1021

sherpa_onnx::cxx::GenerationConfig::extra
std::unordered_map< std::string, std::string > extra
Definition cxx-api.h:1034

sherpa_onnx::cxx::GenerationConfig::reference_text
std::string reference_text
Definition cxx-api.h:1029

sherpa_onnx::cxx::GenerationConfig::reference_sample_rate
int32_t reference_sample_rate
Definition cxx-api.h:1027

sherpa_onnx::cxx::GenerationConfig::sid
int32_t sid
Definition cxx-api.h:1023

sherpa_onnx::cxx::GenerationConfig::num_steps
int32_t num_steps
Definition cxx-api.h:1031

sherpa_onnx::cxx::GenerationConfig::silence_scale
float silence_scale
Definition cxx-api.h:1019

sherpa_onnx::cxx::GenerationConfig::reference_audio
std::vector< float > reference_audio
Definition cxx-api.h:1025

sherpa_onnx::cxx::HomophoneReplacerConfig
Homophone replacement resources used by some Chinese ASR setups.
Definition cxx-api.h:168

sherpa_onnx::cxx::HomophoneReplacerConfig::dict_dir
std::string dict_dir
Definition cxx-api.h:170

sherpa_onnx::cxx::HomophoneReplacerConfig::rule_fsts
std::string rule_fsts
Definition cxx-api.h:174

sherpa_onnx::cxx::HomophoneReplacerConfig::lexicon
std::string lexicon
Definition cxx-api.h:172

sherpa_onnx::cxx::KeywordResult
Current keyword spotting result copied into C++ containers.
Definition cxx-api.h:1143

sherpa_onnx::cxx::KeywordResult::start_time
float start_time
Definition cxx-api.h:1151

sherpa_onnx::cxx::KeywordResult::keyword
std::string keyword
Definition cxx-api.h:1145

sherpa_onnx::cxx::KeywordResult::timestamps
std::vector< float > timestamps
Definition cxx-api.h:1149

sherpa_onnx::cxx::KeywordResult::json
std::string json
Definition cxx-api.h:1153

sherpa_onnx::cxx::KeywordResult::tokens
std::vector< std::string > tokens
Definition cxx-api.h:1147

sherpa_onnx::cxx::KeywordSpotterConfig
Configuration for the C++ keyword spotting wrapper.
Definition cxx-api.h:1157

sherpa_onnx::cxx::KeywordSpotterConfig::keywords_score
float keywords_score
Definition cxx-api.h:1167

sherpa_onnx::cxx::KeywordSpotterConfig::max_active_paths
int32_t max_active_paths
Definition cxx-api.h:1163

sherpa_onnx::cxx::KeywordSpotterConfig::model_config
OnlineModelConfig model_config
Definition cxx-api.h:1161

sherpa_onnx::cxx::KeywordSpotterConfig::keywords_threshold
float keywords_threshold
Definition cxx-api.h:1169

sherpa_onnx::cxx::KeywordSpotterConfig::keywords_file
std::string keywords_file
Definition cxx-api.h:1171

sherpa_onnx::cxx::KeywordSpotterConfig::keywords_buf
std::string keywords_buf
Definition cxx-api.h:1173

sherpa_onnx::cxx::KeywordSpotterConfig::feat_config
FeatureConfig feat_config
Definition cxx-api.h:1159

sherpa_onnx::cxx::KeywordSpotterConfig::num_trailing_blanks
int32_t num_trailing_blanks
Definition cxx-api.h:1165

sherpa_onnx::cxx::OfflineCanaryModelConfig
Offline Canary model configuration.
Definition cxx-api.h:466

sherpa_onnx::cxx::OfflineCanaryModelConfig::tgt_lang
std::string tgt_lang
Definition cxx-api.h:474

sherpa_onnx::cxx::OfflineCanaryModelConfig::decoder
std::string decoder
Definition cxx-api.h:470

sherpa_onnx::cxx::OfflineCanaryModelConfig::encoder
std::string encoder
Definition cxx-api.h:468

sherpa_onnx::cxx::OfflineCanaryModelConfig::use_pnc
bool use_pnc
Definition cxx-api.h:476

sherpa_onnx::cxx::OfflineCanaryModelConfig::src_lang
std::string src_lang
Definition cxx-api.h:472

sherpa_onnx::cxx::OfflineCohereTranscribeModelConfig
Offline Cohere Transcribe model configuration.
Definition cxx-api.h:480

sherpa_onnx::cxx::OfflineCohereTranscribeModelConfig::use_itn
bool use_itn
Definition cxx-api.h:490

sherpa_onnx::cxx::OfflineCohereTranscribeModelConfig::decoder
std::string decoder
Definition cxx-api.h:484

sherpa_onnx::cxx::OfflineCohereTranscribeModelConfig::use_punct
bool use_punct
Definition cxx-api.h:488

sherpa_onnx::cxx::OfflineCohereTranscribeModelConfig::language
std::string language
Definition cxx-api.h:486

sherpa_onnx::cxx::OfflineCohereTranscribeModelConfig::encoder
std::string encoder
Definition cxx-api.h:482

sherpa_onnx::cxx::OfflineDolphinModelConfig
Offline Dolphin model file.
Definition cxx-api.h:524

sherpa_onnx::cxx::OfflineDolphinModelConfig::model
std::string model
Definition cxx-api.h:526

sherpa_onnx::cxx::OfflineFireRedAsrCtcModelConfig
Offline FireRed ASR CTC model file.
Definition cxx-api.h:502

sherpa_onnx::cxx::OfflineFireRedAsrCtcModelConfig::model
std::string model
Definition cxx-api.h:504

sherpa_onnx::cxx::OfflineFireRedAsrModelConfig
Offline FireRed ASR model files.
Definition cxx-api.h:494

sherpa_onnx::cxx::OfflineFireRedAsrModelConfig::decoder
std::string decoder
Definition cxx-api.h:498

sherpa_onnx::cxx::OfflineFireRedAsrModelConfig::encoder
std::string encoder
Definition cxx-api.h:496

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig
Offline FunASR Nano model configuration.
Definition cxx-api.h:568

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::top_p
float top_p
Definition cxx-api.h:586

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::user_prompt
std::string user_prompt
Definition cxx-api.h:580

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::seed
int32_t seed
Definition cxx-api.h:588

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::temperature
float temperature
Definition cxx-api.h:584

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::system_prompt
std::string system_prompt
Definition cxx-api.h:578

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::language
std::string language
Definition cxx-api.h:590

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::itn
bool itn
Definition cxx-api.h:592

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::embedding
std::string embedding
Definition cxx-api.h:574

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::llm
std::string llm
Definition cxx-api.h:572

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::tokenizer
std::string tokenizer
Definition cxx-api.h:576

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::hotwords
std::string hotwords
Definition cxx-api.h:594

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::max_new_tokens
int32_t max_new_tokens
Definition cxx-api.h:582

sherpa_onnx::cxx::OfflineFunASRNanoModelConfig::encoder_adaptor
std::string encoder_adaptor
Definition cxx-api.h:570

sherpa_onnx::cxx::OfflineLMConfig
Optional language-model rescoring configuration for offline ASR.
Definition cxx-api.h:685

sherpa_onnx::cxx::OfflineLMConfig::scale
float scale
Definition cxx-api.h:689

sherpa_onnx::cxx::OfflineLMConfig::model
std::string model
Definition cxx-api.h:687

sherpa_onnx::cxx::OfflineMedAsrCtcModelConfig
Offline MedASR CTC model file.
Definition cxx-api.h:548

sherpa_onnx::cxx::OfflineMedAsrCtcModelConfig::model
std::string model
Definition cxx-api.h:550

sherpa_onnx::cxx::OfflineModelConfig
Acoustic model configuration for offline ASR.
Definition cxx-api.h:628

sherpa_onnx::cxx::OfflineModelConfig::model_type
std::string model_type
Definition cxx-api.h:649

sherpa_onnx::cxx::OfflineModelConfig::medasr
OfflineMedAsrCtcModelConfig medasr
Definition cxx-api.h:673

sherpa_onnx::cxx::OfflineModelConfig::tdnn
OfflineTdnnModelConfig tdnn
Definition cxx-api.h:638

sherpa_onnx::cxx::OfflineModelConfig::paraformer
OfflineParaformerModelConfig paraformer
Definition cxx-api.h:632

sherpa_onnx::cxx::OfflineModelConfig::sense_voice
OfflineSenseVoiceModelConfig sense_voice
Definition cxx-api.h:657

sherpa_onnx::cxx::OfflineModelConfig::zipformer_ctc
OfflineZipformerCtcModelConfig zipformer_ctc
Definition cxx-api.h:665

sherpa_onnx::cxx::OfflineModelConfig::modeling_unit
std::string modeling_unit
Definition cxx-api.h:651

sherpa_onnx::cxx::OfflineModelConfig::fire_red_asr_ctc
OfflineFireRedAsrCtcModelConfig fire_red_asr_ctc
Definition cxx-api.h:677

sherpa_onnx::cxx::OfflineModelConfig::moonshine
OfflineMoonshineModelConfig moonshine
Definition cxx-api.h:659

sherpa_onnx::cxx::OfflineModelConfig::canary
OfflineCanaryModelConfig canary
Definition cxx-api.h:667

sherpa_onnx::cxx::OfflineModelConfig::whisper
OfflineWhisperModelConfig whisper
Definition cxx-api.h:636

sherpa_onnx::cxx::OfflineModelConfig::cohere_transcribe
OfflineCohereTranscribeModelConfig cohere_transcribe
Definition cxx-api.h:681

sherpa_onnx::cxx::OfflineModelConfig::provider
std::string provider
Definition cxx-api.h:647

sherpa_onnx::cxx::OfflineModelConfig::dolphin
OfflineDolphinModelConfig dolphin
Definition cxx-api.h:663

sherpa_onnx::cxx::OfflineModelConfig::telespeech_ctc
std::string telespeech_ctc
Definition cxx-api.h:655

sherpa_onnx::cxx::OfflineModelConfig::bpe_vocab
std::string bpe_vocab
Definition cxx-api.h:653

sherpa_onnx::cxx::OfflineModelConfig::wenet_ctc
OfflineWenetCtcModelConfig wenet_ctc
Definition cxx-api.h:669

sherpa_onnx::cxx::OfflineModelConfig::funasr_nano
OfflineFunASRNanoModelConfig funasr_nano
Definition cxx-api.h:675

sherpa_onnx::cxx::OfflineModelConfig::fire_red_asr
OfflineFireRedAsrModelConfig fire_red_asr
Definition cxx-api.h:661

sherpa_onnx::cxx::OfflineModelConfig::transducer
OfflineTransducerModelConfig transducer
Definition cxx-api.h:630

sherpa_onnx::cxx::OfflineModelConfig::nemo_ctc
OfflineNemoEncDecCtcModelConfig nemo_ctc
Definition cxx-api.h:634

sherpa_onnx::cxx::OfflineModelConfig::qwen3_asr
OfflineQwen3ASRModelConfig qwen3_asr
Definition cxx-api.h:679

sherpa_onnx::cxx::OfflineModelConfig::debug
bool debug
Definition cxx-api.h:645

sherpa_onnx::cxx::OfflineModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:643

sherpa_onnx::cxx::OfflineModelConfig::omnilingual
OfflineOmnilingualAsrCtcModelConfig omnilingual
Definition cxx-api.h:671

sherpa_onnx::cxx::OfflineModelConfig::tokens
std::string tokens
Definition cxx-api.h:641

sherpa_onnx::cxx::OfflineMoonshineModelConfig
Offline Moonshine model configuration.
Definition cxx-api.h:554

sherpa_onnx::cxx::OfflineMoonshineModelConfig::cached_decoder
std::string cached_decoder
Definition cxx-api.h:562

sherpa_onnx::cxx::OfflineMoonshineModelConfig::uncached_decoder
std::string uncached_decoder
Definition cxx-api.h:560

sherpa_onnx::cxx::OfflineMoonshineModelConfig::encoder
std::string encoder
Definition cxx-api.h:558

sherpa_onnx::cxx::OfflineMoonshineModelConfig::preprocessor
std::string preprocessor
Definition cxx-api.h:556

sherpa_onnx::cxx::OfflineMoonshineModelConfig::merged_decoder
std::string merged_decoder
Definition cxx-api.h:564

sherpa_onnx::cxx::OfflineNemoEncDecCtcModelConfig
Offline NeMo EncDec CTC model file.
Definition cxx-api.h:442

sherpa_onnx::cxx::OfflineNemoEncDecCtcModelConfig::model
std::string model
Definition cxx-api.h:444

sherpa_onnx::cxx::OfflineOmnilingualAsrCtcModelConfig
Offline omnilingual ASR CTC model file.
Definition cxx-api.h:542

sherpa_onnx::cxx::OfflineOmnilingualAsrCtcModelConfig::model
std::string model
Definition cxx-api.h:544

sherpa_onnx::cxx::OfflineParaformerModelConfig
Offline Paraformer model file.
Definition cxx-api.h:436

sherpa_onnx::cxx::OfflineParaformerModelConfig::model
std::string model
Definition cxx-api.h:438

sherpa_onnx::cxx::OfflinePunctuationConfig
Configuration for offline punctuation.
Definition cxx-api.h:1514

sherpa_onnx::cxx::OfflinePunctuationConfig::model
OfflinePunctuationModelConfig model
Definition cxx-api.h:1516

sherpa_onnx::cxx::OfflinePunctuationModelConfig
Offline punctuation model configuration.
Definition cxx-api.h:1502

sherpa_onnx::cxx::OfflinePunctuationModelConfig::provider
std::string provider
Definition cxx-api.h:1510

sherpa_onnx::cxx::OfflinePunctuationModelConfig::debug
bool debug
Definition cxx-api.h:1508

sherpa_onnx::cxx::OfflinePunctuationModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1506

sherpa_onnx::cxx::OfflinePunctuationModelConfig::ct_transformer
std::string ct_transformer
Definition cxx-api.h:1504

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig
Offline Qwen3-ASR model configuration.
Definition cxx-api.h:598

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::tokenizer
std::string tokenizer
Definition cxx-api.h:606

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::top_p
float top_p
Definition cxx-api.h:617

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::encoder
std::string encoder
Definition cxx-api.h:602

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::max_total_len
int32_t max_total_len
Definition cxx-api.h:611

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::seed
int32_t seed
Definition cxx-api.h:619

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::temperature
float temperature
Definition cxx-api.h:615

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::hotwords
std::string hotwords
Definition cxx-api.h:609

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::conv_frontend
std::string conv_frontend
Definition cxx-api.h:600

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::decoder
std::string decoder
Definition cxx-api.h:604

sherpa_onnx::cxx::OfflineQwen3ASRModelConfig::max_new_tokens
int32_t max_new_tokens
Definition cxx-api.h:613

sherpa_onnx::cxx::OfflineRecognizerConfig
Configuration for offline ASR.
Definition cxx-api.h:724

sherpa_onnx::cxx::OfflineRecognizerConfig::lm_config
OfflineLMConfig lm_config
Definition cxx-api.h:730

sherpa_onnx::cxx::OfflineRecognizerConfig::max_active_paths
int32_t max_active_paths
Definition cxx-api.h:735

sherpa_onnx::cxx::OfflineRecognizerConfig::feat_config
FeatureConfig feat_config
Definition cxx-api.h:726

sherpa_onnx::cxx::OfflineRecognizerConfig::rule_fars
std::string rule_fars
Definition cxx-api.h:745

sherpa_onnx::cxx::OfflineRecognizerConfig::model_config
OfflineModelConfig model_config
Definition cxx-api.h:728

sherpa_onnx::cxx::OfflineRecognizerConfig::hotwords_score
float hotwords_score
Definition cxx-api.h:741

sherpa_onnx::cxx::OfflineRecognizerConfig::rule_fsts
std::string rule_fsts
Definition cxx-api.h:743

sherpa_onnx::cxx::OfflineRecognizerConfig::hr
HomophoneReplacerConfig hr
Definition cxx-api.h:749

sherpa_onnx::cxx::OfflineRecognizerConfig::decoding_method
std::string decoding_method
Definition cxx-api.h:733

sherpa_onnx::cxx::OfflineRecognizerConfig::blank_penalty
float blank_penalty
Definition cxx-api.h:747

sherpa_onnx::cxx::OfflineRecognizerConfig::hotwords_file
std::string hotwords_file
Definition cxx-api.h:738

sherpa_onnx::cxx::OfflineRecognizerResult
Offline ASR result copied into C++ containers.
Definition cxx-api.h:753

sherpa_onnx::cxx::OfflineRecognizerResult::lang
std::string lang
Definition cxx-api.h:763

sherpa_onnx::cxx::OfflineRecognizerResult::durations
std::vector< float > durations
Definition cxx-api.h:770

sherpa_onnx::cxx::OfflineRecognizerResult::json
std::string json
Definition cxx-api.h:761

sherpa_onnx::cxx::OfflineRecognizerResult::timestamps
std::vector< float > timestamps
Definition cxx-api.h:757

sherpa_onnx::cxx::OfflineRecognizerResult::emotion
std::string emotion
Definition cxx-api.h:765

sherpa_onnx::cxx::OfflineRecognizerResult::text
std::string text
Definition cxx-api.h:755

sherpa_onnx::cxx::OfflineRecognizerResult::event
std::string event
Definition cxx-api.h:767

sherpa_onnx::cxx::OfflineRecognizerResult::tokens
std::vector< std::string > tokens
Definition cxx-api.h:759

sherpa_onnx::cxx::OfflineSenseVoiceModelConfig
Offline SenseVoice model configuration.
Definition cxx-api.h:514

sherpa_onnx::cxx::OfflineSenseVoiceModelConfig::use_itn
bool use_itn
Definition cxx-api.h:520

sherpa_onnx::cxx::OfflineSenseVoiceModelConfig::language
std::string language
Definition cxx-api.h:518

sherpa_onnx::cxx::OfflineSenseVoiceModelConfig::model
std::string model
Definition cxx-api.h:516

sherpa_onnx::cxx::OfflineSourceSeparationConfig
Configuration for offline source separation.
Definition cxx-api.h:1690

sherpa_onnx::cxx::OfflineSourceSeparationConfig::model
OfflineSourceSeparationModelConfig model
Definition cxx-api.h:1692

sherpa_onnx::cxx::OfflineSourceSeparationModelConfig
Source-separation model configuration.
Definition cxx-api.h:1676

sherpa_onnx::cxx::OfflineSourceSeparationModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1682

sherpa_onnx::cxx::OfflineSourceSeparationModelConfig::debug
bool debug
Definition cxx-api.h:1684

sherpa_onnx::cxx::OfflineSourceSeparationModelConfig::uvr
OfflineSourceSeparationUvrModelConfig uvr
Definition cxx-api.h:1680

sherpa_onnx::cxx::OfflineSourceSeparationModelConfig::provider
std::string provider
Definition cxx-api.h:1686

sherpa_onnx::cxx::OfflineSourceSeparationModelConfig::spleeter
OfflineSourceSeparationSpleeterModelConfig spleeter
Definition cxx-api.h:1678

sherpa_onnx::cxx::OfflineSourceSeparationSpleeterModelConfig
Spleeter source-separation model configuration.
Definition cxx-api.h:1658

sherpa_onnx::cxx::OfflineSourceSeparationSpleeterModelConfig::accompaniment
std::string accompaniment
Definition cxx-api.h:1662

sherpa_onnx::cxx::OfflineSourceSeparationSpleeterModelConfig::vocals
std::string vocals
Definition cxx-api.h:1660

sherpa_onnx::cxx::OfflineSourceSeparationUvrModelConfig
UVR (MDX-Net) source-separation model configuration.
Definition cxx-api.h:1666

sherpa_onnx::cxx::OfflineSourceSeparationUvrModelConfig::model
std::string model
Definition cxx-api.h:1668

sherpa_onnx::cxx::OfflineSpeakerDiarizationConfig
Configuration for offline speaker diarization.
Definition cxx-api.h:1935

sherpa_onnx::cxx::OfflineSpeakerDiarizationConfig::min_duration_off
float min_duration_off
Definition cxx-api.h:1945

sherpa_onnx::cxx::OfflineSpeakerDiarizationConfig::clustering
FastClusteringConfig clustering
Definition cxx-api.h:1941

sherpa_onnx::cxx::OfflineSpeakerDiarizationConfig::segmentation
OfflineSpeakerSegmentationModelConfig segmentation
Definition cxx-api.h:1937

sherpa_onnx::cxx::OfflineSpeakerDiarizationConfig::min_duration_on
float min_duration_on
Definition cxx-api.h:1943

sherpa_onnx::cxx::OfflineSpeakerDiarizationConfig::embedding
SpeakerEmbeddingExtractorConfig embedding
Definition cxx-api.h:1939

sherpa_onnx::cxx::OfflineSpeakerDiarizationSegment
One diarization segment.
Definition cxx-api.h:1949

sherpa_onnx::cxx::OfflineSpeakerDiarizationSegment::start
float start
Definition cxx-api.h:1951

sherpa_onnx::cxx::OfflineSpeakerDiarizationSegment::speaker
int32_t speaker
Definition cxx-api.h:1955

sherpa_onnx::cxx::OfflineSpeakerDiarizationSegment::end
float end
Definition cxx-api.h:1953

sherpa_onnx::cxx::OfflineSpeakerSegmentationModelConfig
Segmentation model configuration for offline speaker diarization.
Definition cxx-api.h:1914

sherpa_onnx::cxx::OfflineSpeakerSegmentationModelConfig::debug
bool debug
Definition cxx-api.h:1920

sherpa_onnx::cxx::OfflineSpeakerSegmentationModelConfig::provider
std::string provider
Definition cxx-api.h:1922

sherpa_onnx::cxx::OfflineSpeakerSegmentationModelConfig::pyannote
OfflineSpeakerSegmentationPyannoteModelConfig pyannote
Definition cxx-api.h:1916

sherpa_onnx::cxx::OfflineSpeakerSegmentationModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1918

sherpa_onnx::cxx::OfflineSpeakerSegmentationPyannoteModelConfig
Pyannote segmentation model configuration.
Definition cxx-api.h:1908

sherpa_onnx::cxx::OfflineSpeakerSegmentationPyannoteModelConfig::model
std::string model
Definition cxx-api.h:1910

sherpa_onnx::cxx::OfflineSpeechDenoiserConfig
Configuration for offline speech denoising.
Definition cxx-api.h:1244

sherpa_onnx::cxx::OfflineSpeechDenoiserConfig::model
OfflineSpeechDenoiserModelConfig model
Definition cxx-api.h:1246

sherpa_onnx::cxx::OfflineSpeechDenoiserDpdfNetModelConfig
DPDFNet speech denoiser model configuration.
Definition cxx-api.h:1219

sherpa_onnx::cxx::OfflineSpeechDenoiserDpdfNetModelConfig::model
std::string model
Definition cxx-api.h:1221

sherpa_onnx::cxx::OfflineSpeechDenoiserGtcrnModelConfig
GTCRN speech denoiser model configuration.
Definition cxx-api.h:1213

sherpa_onnx::cxx::OfflineSpeechDenoiserGtcrnModelConfig::model
std::string model
Definition cxx-api.h:1215

sherpa_onnx::cxx::OfflineSpeechDenoiserModelConfig
Speech denoiser model configuration.
Definition cxx-api.h:1230

sherpa_onnx::cxx::OfflineSpeechDenoiserModelConfig::debug
bool debug
Definition cxx-api.h:1238

sherpa_onnx::cxx::OfflineSpeechDenoiserModelConfig::provider
std::string provider
Definition cxx-api.h:1240

sherpa_onnx::cxx::OfflineSpeechDenoiserModelConfig::gtcrn
OfflineSpeechDenoiserGtcrnModelConfig gtcrn
Definition cxx-api.h:1232

sherpa_onnx::cxx::OfflineSpeechDenoiserModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1236

sherpa_onnx::cxx::OfflineSpeechDenoiserModelConfig::dpdfnet
OfflineSpeechDenoiserDpdfNetModelConfig dpdfnet
Definition cxx-api.h:1234

sherpa_onnx::cxx::OfflineTdnnModelConfig
Offline TDNN model file.
Definition cxx-api.h:508

sherpa_onnx::cxx::OfflineTdnnModelConfig::model
std::string model
Definition cxx-api.h:510

sherpa_onnx::cxx::OfflineTransducerModelConfig
Offline transducer model files.
Definition cxx-api.h:426

sherpa_onnx::cxx::OfflineTransducerModelConfig::joiner
std::string joiner
Definition cxx-api.h:432

sherpa_onnx::cxx::OfflineTransducerModelConfig::encoder
std::string encoder
Definition cxx-api.h:428

sherpa_onnx::cxx::OfflineTransducerModelConfig::decoder
std::string decoder
Definition cxx-api.h:430

sherpa_onnx::cxx::OfflineTtsConfig
Configuration for offline TTS.
Definition cxx-api.h:1038

sherpa_onnx::cxx::OfflineTtsConfig::silence_scale
float silence_scale
Definition cxx-api.h:1048

sherpa_onnx::cxx::OfflineTtsConfig::model
OfflineTtsModelConfig model
Definition cxx-api.h:1040

sherpa_onnx::cxx::OfflineTtsConfig::rule_fsts
std::string rule_fsts
Definition cxx-api.h:1042

sherpa_onnx::cxx::OfflineTtsConfig::rule_fars
std::string rule_fars
Definition cxx-api.h:1044

sherpa_onnx::cxx::OfflineTtsConfig::max_num_sentences
int32_t max_num_sentences
Definition cxx-api.h:1046

sherpa_onnx::cxx::OfflineTtsKittenModelConfig
Kitten model configuration.
Definition cxx-api.h:908

sherpa_onnx::cxx::OfflineTtsKittenModelConfig::voices
std::string voices
Definition cxx-api.h:912

sherpa_onnx::cxx::OfflineTtsKittenModelConfig::model
std::string model
Definition cxx-api.h:910

sherpa_onnx::cxx::OfflineTtsKittenModelConfig::tokens
std::string tokens
Definition cxx-api.h:914

sherpa_onnx::cxx::OfflineTtsKittenModelConfig::data_dir
std::string data_dir
Definition cxx-api.h:916

sherpa_onnx::cxx::OfflineTtsKittenModelConfig::length_scale
float length_scale
Definition cxx-api.h:919

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig
Kokoro model configuration.
Definition cxx-api.h:887

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::lang
std::string lang
Definition cxx-api.h:901

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::model
std::string model
Definition cxx-api.h:889

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::lexicon
std::string lexicon
Definition cxx-api.h:899

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::dict_dir
std::string dict_dir
Definition cxx-api.h:897

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::voices
std::string voices
Definition cxx-api.h:891

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::length_scale
float length_scale
Definition cxx-api.h:904

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::tokens
std::string tokens
Definition cxx-api.h:893

sherpa_onnx::cxx::OfflineTtsKokoroModelConfig::data_dir
std::string data_dir
Definition cxx-api.h:895

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig
Matcha model configuration.
Definition cxx-api.h:866

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::lexicon
std::string lexicon
Definition cxx-api.h:872

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::noise_scale
float noise_scale
Definition cxx-api.h:881

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::length_scale
float length_scale
Definition cxx-api.h:883

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::vocoder
std::string vocoder
Definition cxx-api.h:870

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::tokens
std::string tokens
Definition cxx-api.h:874

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::dict_dir
std::string dict_dir
Definition cxx-api.h:878

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::data_dir
std::string data_dir
Definition cxx-api.h:876

sherpa_onnx::cxx::OfflineTtsMatchaModelConfig::acoustic_model
std::string acoustic_model
Definition cxx-api.h:868

sherpa_onnx::cxx::OfflineTtsModelConfig
Model configuration for offline TTS.
Definition cxx-api.h:992

sherpa_onnx::cxx::OfflineTtsModelConfig::kitten
OfflineTtsKittenModelConfig kitten
Definition cxx-api.h:1000

sherpa_onnx::cxx::OfflineTtsModelConfig::supertonic
OfflineTtsSupertonicModelConfig supertonic
Definition cxx-api.h:1006

sherpa_onnx::cxx::OfflineTtsModelConfig::vits
OfflineTtsVitsModelConfig vits
Definition cxx-api.h:994

sherpa_onnx::cxx::OfflineTtsModelConfig::kokoro
OfflineTtsKokoroModelConfig kokoro
Definition cxx-api.h:998

sherpa_onnx::cxx::OfflineTtsModelConfig::matcha
OfflineTtsMatchaModelConfig matcha
Definition cxx-api.h:996

sherpa_onnx::cxx::OfflineTtsModelConfig::pocket
OfflineTtsPocketModelConfig pocket
Definition cxx-api.h:1004

sherpa_onnx::cxx::OfflineTtsModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1009

sherpa_onnx::cxx::OfflineTtsModelConfig::debug
bool debug
Definition cxx-api.h:1011

sherpa_onnx::cxx::OfflineTtsModelConfig::zipvoice
OfflineTtsZipvoiceModelConfig zipvoice
Definition cxx-api.h:1002

sherpa_onnx::cxx::OfflineTtsModelConfig::provider
std::string provider
Definition cxx-api.h:1013

sherpa_onnx::cxx::OfflineTtsPocketModelConfig
Pocket TTS model configuration.
Definition cxx-api.h:948

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::encoder
std::string encoder
Definition cxx-api.h:954

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::vocab_json
std::string vocab_json
Definition cxx-api.h:961

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::lm_flow
std::string lm_flow
Definition cxx-api.h:950

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::lm_main
std::string lm_main
Definition cxx-api.h:952

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::token_scores_json
std::string token_scores_json
Definition cxx-api.h:963

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::text_conditioner
std::string text_conditioner
Definition cxx-api.h:958

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::voice_embedding_cache_capacity
int32_t voice_embedding_cache_capacity
Definition cxx-api.h:965

sherpa_onnx::cxx::OfflineTtsPocketModelConfig::decoder
std::string decoder
Definition cxx-api.h:956

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig
Supertonic model configuration.
Definition cxx-api.h:969

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::voice_style
std::string voice_style
Definition cxx-api.h:983

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::vector_estimator
std::string vector_estimator
Definition cxx-api.h:975

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::duration_predictor
std::string duration_predictor
Definition cxx-api.h:971

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::unicode_indexer
std::string unicode_indexer
Definition cxx-api.h:981

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::tts_json
std::string tts_json
Definition cxx-api.h:979

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::text_encoder
std::string text_encoder
Definition cxx-api.h:973

sherpa_onnx::cxx::OfflineTtsSupertonicModelConfig::vocoder
std::string vocoder
Definition cxx-api.h:977

sherpa_onnx::cxx::OfflineTtsVitsModelConfig
VITS model configuration.
Definition cxx-api.h:845

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::model
std::string model
Definition cxx-api.h:847

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::noise_scale
float noise_scale
Definition cxx-api.h:858

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::dict_dir
std::string dict_dir
Definition cxx-api.h:855

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::length_scale
float length_scale
Definition cxx-api.h:862

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::data_dir
std::string data_dir
Definition cxx-api.h:853

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::lexicon
std::string lexicon
Definition cxx-api.h:849

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::noise_scale_w
float noise_scale_w
Definition cxx-api.h:860

sherpa_onnx::cxx::OfflineTtsVitsModelConfig::tokens
std::string tokens
Definition cxx-api.h:851

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig
ZipVoice model configuration.
Definition cxx-api.h:923

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::t_shift
float t_shift
Definition cxx-api.h:940

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::lexicon
std::string lexicon
Definition cxx-api.h:935

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::feat_scale
float feat_scale
Definition cxx-api.h:938

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::tokens
std::string tokens
Definition cxx-api.h:925

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::guidance_scale
float guidance_scale
Definition cxx-api.h:944

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::decoder
std::string decoder
Definition cxx-api.h:929

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::vocoder
std::string vocoder
Definition cxx-api.h:931

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::target_rms
float target_rms
Definition cxx-api.h:942

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::data_dir
std::string data_dir
Definition cxx-api.h:933

sherpa_onnx::cxx::OfflineTtsZipvoiceModelConfig::encoder
std::string encoder
Definition cxx-api.h:927

sherpa_onnx::cxx::OfflineWenetCtcModelConfig
Offline WeNet CTC model file.
Definition cxx-api.h:536

sherpa_onnx::cxx::OfflineWenetCtcModelConfig::model
std::string model
Definition cxx-api.h:538

sherpa_onnx::cxx::OfflineWhisperModelConfig
Offline Whisper model configuration.
Definition cxx-api.h:448

sherpa_onnx::cxx::OfflineWhisperModelConfig::language
std::string language
Definition cxx-api.h:454

sherpa_onnx::cxx::OfflineWhisperModelConfig::task
std::string task
Definition cxx-api.h:456

sherpa_onnx::cxx::OfflineWhisperModelConfig::encoder
std::string encoder
Definition cxx-api.h:450

sherpa_onnx::cxx::OfflineWhisperModelConfig::enable_segment_timestamps
bool enable_segment_timestamps
Definition cxx-api.h:462

sherpa_onnx::cxx::OfflineWhisperModelConfig::tail_paddings
int32_t tail_paddings
Definition cxx-api.h:458

sherpa_onnx::cxx::OfflineWhisperModelConfig::decoder
std::string decoder
Definition cxx-api.h:452

sherpa_onnx::cxx::OfflineWhisperModelConfig::enable_token_timestamps
bool enable_token_timestamps
Definition cxx-api.h:460

sherpa_onnx::cxx::OfflineZipformerAudioTaggingModelConfig
Zipformer audio-tagging model configuration.
Definition cxx-api.h:1580

sherpa_onnx::cxx::OfflineZipformerAudioTaggingModelConfig::model
std::string model
Definition cxx-api.h:1582

sherpa_onnx::cxx::OfflineZipformerCtcModelConfig
Offline Zipformer CTC model file.
Definition cxx-api.h:530

sherpa_onnx::cxx::OfflineZipformerCtcModelConfig::model
std::string model
Definition cxx-api.h:532

sherpa_onnx::cxx::OnlineCtcFstDecoderConfig
Decoder graph configuration for online CTC + FST decoding.
Definition cxx-api.h:160

sherpa_onnx::cxx::OnlineCtcFstDecoderConfig::graph
std::string graph
Definition cxx-api.h:162

sherpa_onnx::cxx::OnlineCtcFstDecoderConfig::max_active
int32_t max_active
Definition cxx-api.h:164

sherpa_onnx::cxx::OnlineModelConfig
Acoustic model configuration for streaming ASR.
Definition cxx-api.h:121

sherpa_onnx::cxx::OnlineModelConfig::nemo_ctc
OnlineNemoCtcModelConfig nemo_ctc
Definition cxx-api.h:129

sherpa_onnx::cxx::OnlineModelConfig::zipformer2_ctc
OnlineZipformer2CtcModelConfig zipformer2_ctc
Definition cxx-api.h:127

sherpa_onnx::cxx::OnlineModelConfig::modeling_unit
std::string modeling_unit
Definition cxx-api.h:143

sherpa_onnx::cxx::OnlineModelConfig::t_one_ctc
OnlineToneCtcModelConfig t_one_ctc
Definition cxx-api.h:131

sherpa_onnx::cxx::OnlineModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:135

sherpa_onnx::cxx::OnlineModelConfig::model_type
std::string model_type
Definition cxx-api.h:141

sherpa_onnx::cxx::OnlineModelConfig::bpe_vocab
std::string bpe_vocab
Definition cxx-api.h:145

sherpa_onnx::cxx::OnlineModelConfig::paraformer
OnlineParaformerModelConfig paraformer
Definition cxx-api.h:125

sherpa_onnx::cxx::OnlineModelConfig::tokens
std::string tokens
Definition cxx-api.h:133

sherpa_onnx::cxx::OnlineModelConfig::provider
std::string provider
Definition cxx-api.h:137

sherpa_onnx::cxx::OnlineModelConfig::tokens_buf
std::string tokens_buf
Definition cxx-api.h:148

sherpa_onnx::cxx::OnlineModelConfig::debug
bool debug
Definition cxx-api.h:139

sherpa_onnx::cxx::OnlineModelConfig::transducer
OnlineTransducerModelConfig transducer
Definition cxx-api.h:123

sherpa_onnx::cxx::OnlineNemoCtcModelConfig
Streaming NeMo CTC model file.
Definition cxx-api.h:85

sherpa_onnx::cxx::OnlineNemoCtcModelConfig::model
std::string model
Definition cxx-api.h:87

sherpa_onnx::cxx::OnlineParaformerModelConfig
Streaming Paraformer model files.
Definition cxx-api.h:71

sherpa_onnx::cxx::OnlineParaformerModelConfig::encoder
std::string encoder
Definition cxx-api.h:73

sherpa_onnx::cxx::OnlineParaformerModelConfig::decoder
std::string decoder
Definition cxx-api.h:75

sherpa_onnx::cxx::OnlinePunctuationConfig
Configuration for online punctuation.
Definition cxx-api.h:1554

sherpa_onnx::cxx::OnlinePunctuationConfig::model
OnlinePunctuationModelConfig model
Definition cxx-api.h:1556

sherpa_onnx::cxx::OnlinePunctuationModelConfig
Online punctuation model configuration.
Definition cxx-api.h:1540

sherpa_onnx::cxx::OnlinePunctuationModelConfig::debug
bool debug
Definition cxx-api.h:1548

sherpa_onnx::cxx::OnlinePunctuationModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1546

sherpa_onnx::cxx::OnlinePunctuationModelConfig::provider
std::string provider
Definition cxx-api.h:1550

sherpa_onnx::cxx::OnlinePunctuationModelConfig::cnn_bilstm
std::string cnn_bilstm
Definition cxx-api.h:1542

sherpa_onnx::cxx::OnlinePunctuationModelConfig::bpe_vocab
std::string bpe_vocab
Definition cxx-api.h:1544

sherpa_onnx::cxx::OnlineRecognizerConfig
Configuration for streaming ASR.
Definition cxx-api.h:200

sherpa_onnx::cxx::OnlineRecognizerConfig::hotwords_file
std::string hotwords_file
Definition cxx-api.h:225

sherpa_onnx::cxx::OnlineRecognizerConfig::rule_fsts
std::string rule_fsts
Definition cxx-api.h:233

sherpa_onnx::cxx::OnlineRecognizerConfig::blank_penalty
float blank_penalty
Definition cxx-api.h:237

sherpa_onnx::cxx::OnlineRecognizerConfig::enable_endpoint
bool enable_endpoint
Definition cxx-api.h:213

sherpa_onnx::cxx::OnlineRecognizerConfig::model_config
OnlineModelConfig model_config
Definition cxx-api.h:204

sherpa_onnx::cxx::OnlineRecognizerConfig::ctc_fst_decoder_config
OnlineCtcFstDecoderConfig ctc_fst_decoder_config
Definition cxx-api.h:231

sherpa_onnx::cxx::OnlineRecognizerConfig::rule_fars
std::string rule_fars
Definition cxx-api.h:235

sherpa_onnx::cxx::OnlineRecognizerConfig::feat_config
FeatureConfig feat_config
Definition cxx-api.h:202

sherpa_onnx::cxx::OnlineRecognizerConfig::rule3_min_utterance_length
float rule3_min_utterance_length
Definition cxx-api.h:222

sherpa_onnx::cxx::OnlineRecognizerConfig::decoding_method
std::string decoding_method
Definition cxx-api.h:207

sherpa_onnx::cxx::OnlineRecognizerConfig::hr
HomophoneReplacerConfig hr
Definition cxx-api.h:242

sherpa_onnx::cxx::OnlineRecognizerConfig::max_active_paths
int32_t max_active_paths
Definition cxx-api.h:210

sherpa_onnx::cxx::OnlineRecognizerConfig::hotwords_buf
std::string hotwords_buf
Definition cxx-api.h:240

sherpa_onnx::cxx::OnlineRecognizerConfig::hotwords_score
float hotwords_score
Definition cxx-api.h:228

sherpa_onnx::cxx::OnlineRecognizerConfig::rule1_min_trailing_silence
float rule1_min_trailing_silence
Definition cxx-api.h:216

sherpa_onnx::cxx::OnlineRecognizerConfig::rule2_min_trailing_silence
float rule2_min_trailing_silence
Definition cxx-api.h:219

sherpa_onnx::cxx::OnlineRecognizerResult
Current streaming ASR result copied into C++ containers.
Definition cxx-api.h:246

sherpa_onnx::cxx::OnlineRecognizerResult::tokens
std::vector< std::string > tokens
Definition cxx-api.h:250

sherpa_onnx::cxx::OnlineRecognizerResult::text
std::string text
Definition cxx-api.h:248

sherpa_onnx::cxx::OnlineRecognizerResult::json
std::string json
Definition cxx-api.h:254

sherpa_onnx::cxx::OnlineRecognizerResult::timestamps
std::vector< float > timestamps
Definition cxx-api.h:252

sherpa_onnx::cxx::OnlineSpeechDenoiserConfig
Configuration for online speech denoising.
Definition cxx-api.h:1279

sherpa_onnx::cxx::OnlineSpeechDenoiserConfig::model
OfflineSpeechDenoiserModelConfig model
Definition cxx-api.h:1281

sherpa_onnx::cxx::OnlineToneCtcModelConfig
Streaming T-One CTC model file.
Definition cxx-api.h:91

sherpa_onnx::cxx::OnlineToneCtcModelConfig::model
std::string model
Definition cxx-api.h:93

sherpa_onnx::cxx::OnlineTransducerModelConfig
Streaming transducer model files.
Definition cxx-api.h:61

sherpa_onnx::cxx::OnlineTransducerModelConfig::encoder
std::string encoder
Definition cxx-api.h:63

sherpa_onnx::cxx::OnlineTransducerModelConfig::joiner
std::string joiner
Definition cxx-api.h:67

sherpa_onnx::cxx::OnlineTransducerModelConfig::decoder
std::string decoder
Definition cxx-api.h:65

sherpa_onnx::cxx::OnlineZipformer2CtcModelConfig
Streaming Zipformer2 CTC model file.
Definition cxx-api.h:79

sherpa_onnx::cxx::OnlineZipformer2CtcModelConfig::model
std::string model
Definition cxx-api.h:81

sherpa_onnx::cxx::SileroVadModelConfig
Silero VAD model configuration.
Definition cxx-api.h:1319

sherpa_onnx::cxx::SileroVadModelConfig::min_silence_duration
float min_silence_duration
Definition cxx-api.h:1325

sherpa_onnx::cxx::SileroVadModelConfig::max_speech_duration
float max_speech_duration
Definition cxx-api.h:1331

sherpa_onnx::cxx::SileroVadModelConfig::threshold
float threshold
Definition cxx-api.h:1323

sherpa_onnx::cxx::SileroVadModelConfig::window_size
int32_t window_size
Definition cxx-api.h:1329

sherpa_onnx::cxx::SileroVadModelConfig::min_speech_duration
float min_speech_duration
Definition cxx-api.h:1327

sherpa_onnx::cxx::SileroVadModelConfig::model
std::string model
Definition cxx-api.h:1321

sherpa_onnx::cxx::SourceSeparationOutput
Output of a source-separation run.
Definition cxx-api.h:1702

sherpa_onnx::cxx::SourceSeparationOutput::sample_rate
int32_t sample_rate
Definition cxx-api.h:1706

sherpa_onnx::cxx::SourceSeparationOutput::stems
std::vector< SourceSeparationStem > stems
Definition cxx-api.h:1704

sherpa_onnx::cxx::SourceSeparationStem
A single stem (output track) with one or more channels.
Definition cxx-api.h:1696

sherpa_onnx::cxx::SourceSeparationStem::samples
std::vector< std::vector< float > > samples
Definition cxx-api.h:1698

sherpa_onnx::cxx::SpeakerEmbeddingExtractorConfig
Configuration for speaker embedding extraction.
Definition cxx-api.h:1804

sherpa_onnx::cxx::SpeakerEmbeddingExtractorConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1808

sherpa_onnx::cxx::SpeakerEmbeddingExtractorConfig::provider
std::string provider
Definition cxx-api.h:1812

sherpa_onnx::cxx::SpeakerEmbeddingExtractorConfig::debug
bool debug
Definition cxx-api.h:1810

sherpa_onnx::cxx::SpeakerEmbeddingExtractorConfig::model
std::string model
Definition cxx-api.h:1806

sherpa_onnx::cxx::SpeakerMatch
One speaker match returned by the best-matches API.
Definition cxx-api.h:1849

sherpa_onnx::cxx::SpeakerMatch::score
float score
Definition cxx-api.h:1851

sherpa_onnx::cxx::SpeakerMatch::name
std::string name
Definition cxx-api.h:1853

sherpa_onnx::cxx::SpeechSegment
One speech segment produced by the VAD wrapper.
Definition cxx-api.h:1373

sherpa_onnx::cxx::SpeechSegment::start
int32_t start
Definition cxx-api.h:1375

sherpa_onnx::cxx::SpeechSegment::samples
std::vector< float > samples
Definition cxx-api.h:1377

sherpa_onnx::cxx::SpokenLanguageIdentificationConfig
Configuration for spoken language identification.
Definition cxx-api.h:1759

sherpa_onnx::cxx::SpokenLanguageIdentificationConfig::provider
std::string provider
Definition cxx-api.h:1767

sherpa_onnx::cxx::SpokenLanguageIdentificationConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1763

sherpa_onnx::cxx::SpokenLanguageIdentificationConfig::debug
bool debug
Definition cxx-api.h:1765

sherpa_onnx::cxx::SpokenLanguageIdentificationConfig::whisper
SpokenLanguageIdentificationWhisperConfig whisper
Definition cxx-api.h:1761

sherpa_onnx::cxx::SpokenLanguageIdentificationResult
Result of spoken language identification.
Definition cxx-api.h:1771

sherpa_onnx::cxx::SpokenLanguageIdentificationResult::lang
std::string lang
Definition cxx-api.h:1773

sherpa_onnx::cxx::SpokenLanguageIdentificationWhisperConfig
Whisper model configuration for spoken language identification.
Definition cxx-api.h:1749

sherpa_onnx::cxx::SpokenLanguageIdentificationWhisperConfig::tail_paddings
int32_t tail_paddings
Definition cxx-api.h:1755

sherpa_onnx::cxx::SpokenLanguageIdentificationWhisperConfig::decoder
std::string decoder
Definition cxx-api.h:1753

sherpa_onnx::cxx::SpokenLanguageIdentificationWhisperConfig::encoder
std::string encoder
Definition cxx-api.h:1751

sherpa_onnx::cxx::TenVadModelConfig
Ten VAD model configuration.
Definition cxx-api.h:1335

sherpa_onnx::cxx::TenVadModelConfig::threshold
float threshold
Definition cxx-api.h:1339

sherpa_onnx::cxx::TenVadModelConfig::min_silence_duration
float min_silence_duration
Definition cxx-api.h:1341

sherpa_onnx::cxx::TenVadModelConfig::window_size
int32_t window_size
Definition cxx-api.h:1345

sherpa_onnx::cxx::TenVadModelConfig::min_speech_duration
float min_speech_duration
Definition cxx-api.h:1343

sherpa_onnx::cxx::TenVadModelConfig::model
std::string model
Definition cxx-api.h:1337

sherpa_onnx::cxx::TenVadModelConfig::max_speech_duration
float max_speech_duration
Definition cxx-api.h:1347

sherpa_onnx::cxx::VadModelConfig
VAD model configuration.
Definition cxx-api.h:1356

sherpa_onnx::cxx::VadModelConfig::silero_vad
SileroVadModelConfig silero_vad
Definition cxx-api.h:1358

sherpa_onnx::cxx::VadModelConfig::ten_vad
TenVadModelConfig ten_vad
Definition cxx-api.h:1360

sherpa_onnx::cxx::VadModelConfig::debug
bool debug
Definition cxx-api.h:1369

sherpa_onnx::cxx::VadModelConfig::provider
std::string provider
Definition cxx-api.h:1367

sherpa_onnx::cxx::VadModelConfig::sample_rate
int32_t sample_rate
Definition cxx-api.h:1363

sherpa_onnx::cxx::VadModelConfig::num_threads
int32_t num_threads
Definition cxx-api.h:1365

sherpa_onnx::cxx::Wave
Mono PCM waveform used by the helper I/O functions.
Definition cxx-api.h:258

sherpa_onnx::cxx::Wave::sample_rate
int32_t sample_rate
Definition cxx-api.h:262

sherpa_onnx::cxx::Wave::samples
std::vector< float > samples
Definition cxx-api.h:260