Beispiel: Akustische Szenenanalse

Dem Programm lädt verschiedenen Audio Sequenzen als rohe Eingangsdaten.
Der Anwender kann, während er sich den Stream anhört, typische Eingangssequenzen in einem Bearbeitungsfenster finden und markieren.
Diese Sequenzen werden dann über FFT (Fast-Fourier-Transformation) in den Frequenzbereich transformiert.
Diese Spektrumsdaten werden dann so aufbereitet, dass sie als Input-Features dem neuronalen Netz als Trainingsdaten zur Verfügung stehen.

Anschließend werden die Daten für die Verarbeitung mit Microsofts CNTK (Microsoft Cognitive Toolkit) aufbereitet.
In CNTK werden die neuronalen Netze definiert und das Training durchgeführt.
Wenn der Trainingsprozess beendet ist, kann das trainierte neuronale Netz verwendet werden.

In dieser Anwendung wird eine akustische Szene abgespielt. Dabei werden die Daten permanent von dem trainierten neuronalen Netz analysiert.
Die Ergebnisdaten (welche Merkmale werden gerade in der Szene erkannt) werden dann in Echtzeit angezeigt.

 

 

Das Projekt wurde mit MS Visual Studio in C# realisiert.
Dabei wurde Microsofts CNTK (Microsoft Cognitive Toolkit) verwendet.