Speech Enhancement

Remove background noise from audio using a GTCRN (Global Token Channel Attention Recurrent Network) model. This is useful for cleaning up noisy recordings before transcription.

Source file

nodejs-addon-examples/test_offline_speech_enhancement_gtcrn.js

Code

// Copyright (c)  2025  Xiaomi Corporation
//
// Offline speech enhancement (denoising) using a GTCRN model.
//
// Usage:
//   node speech_enhancement.js
//
const sherpa_onnx = require('sherpa-onnx-node');

// Download models from
// https://github.com/k2-fsa/sherpa-onnx/releases/tag/speech-enhancement-models
function createOfflineSpeechDenoiser() {
  const config = {
    model: {
      gtcrn: {model: './gtcrn_simple.onnx'},
      debug: true,
      numThreads: 1,
    },
  };
  return new sherpa_onnx.OfflineSpeechDenoiser(config);
}

const sd = createOfflineSpeechDenoiser();

const waveFilename = './inp_16k.wav';
const wave = sherpa_onnx.readWave(waveFilename);

// run() accepts {samples, sampleRate, enableExternalBuffer} and returns
// {samples, sampleRate}.
const denoised = sd.run({
  samples: wave.samples,
  sampleRate: wave.sampleRate,
  enableExternalBuffer: true
});

sherpa_onnx.writeWave(
    './enhanced-16k.wav',
    {samples: denoised.samples, sampleRate: denoised.sampleRate});

console.log(`Saved to ./enhanced-16k.wav`);

How to run

Install the package:
```
npm install sherpa-onnx-node
```

Download the model and test file:

curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speech-enhancement-models/gtcrn_simple.onnx
curl -SL -O https://github.com/k2-fsa/sherpa-onnx/releases/download/speech-enhancement-models/inp_16k.wav

Set the library path and run:

# macOS
export DYLD_LIBRARY_PATH=$(npm root)/sherpa-onnx-node/lib:$DYLD_LIBRARY_PATH

# Linux
export LD_LIBRARY_PATH=$(npm root)/sherpa-onnx-node/lib:$LD_LIBRARY_PATH

node speech_enhancement.js

Expected output

Saved to ./enhanced-16k.wav

Notes

OfflineSpeechDenoiser processes the entire audio file at once.
run() accepts {samples, sampleRate, enableExternalBuffer} and returns {samples, sampleRate}.
enableExternalBuffer: true enables zero-copy buffer sharing.
The output sample rate matches the input sample rate (16kHz in this example).
You can also use dpdfnet_baseline.onnx as an alternative model.