prepared dataset

58874145 · Lihinikaduwa D.N.R. · c4a823af · 58874145
Commit 58874145 authored Jan 05, 2022 by Lihinikaduwa D.N.R.
Hide whitespace changes
Inline Side-by-side

Showing with 56 additions and 0 deletions

backend/IT18257632/prepare_dataset.py backend/IT18257632/prepare_dataset.py +56 -0

No files found.
--- a/backend/IT18257632/prepare_dataset.py
+++ b/backend/IT18257632/prepare_dataset.py
+import json
+import librosa
+import os
+
+DATASET_PATH = "dataset"
+JSON_PATH = "data.json"
+SAMPLES_TO_CONSIDER = 22050
+
+
+def prepare_dataset(dataset_path, json_path, n_mfcc=13, hop_length=512, n_fft=2048):
+    # data dictionary
+    data = {
+        "mappings": [],
+        "labels": [],
+        "MFCCs": [],
+        "files": []
+    }
+
+    # loop through all sub-dirs
+    for i, (dirpath, dirnames, filenames) in enumerate(os.walk(dataset_path)):
+
+        if dirpath is not dataset_path:
+
+            # update mapping
+            category = dirpath.split("/")
+            data["mappings"].append(category)
+            print(f"Processing{category}")
+
+            # loop through aii the file name and extract MFCCs
+            for f in filenames:
+
+                # get file path
+                file_path = os.path.join(dirpath, f)
+
+                # load audio file
+                signal, sr = librosa.load(file_path)
+
+                # ensure the audio file is at least 1 sec
+                if len(signal) >= SAMPLES_TO_CONSIDER:
+                    # enforce 1 sec signal
+                    signal = signal[:SAMPLES_TO_CONSIDER]
+
+                    # extract the MFCCs
+                    MFCCs = librosa.feature.mfcc(signal, sr, n_mfcc=n_mfcc, hop_length=hop_length, n_fft=n_fft)
+
+                    # store data
+                    data["labels"].append(i - 1)
+                    data["MFCCs"].append(MFCCs.T.tolist())
+                    data["files"].append(file_path)
+
+    with open(json_path, "w") as fp:
+        json.dump(data, fp, indent=4)
+
+
+if __name__ == "__main__":
+    prepare_dataset(DATASET_PATH, JSON_PATH)