create prepare_dataset method

bebad94f · W.D.R.P. Sandeepa · 83474d63 · bebad94f
Commit bebad94f authored Dec 30, 2021 by W.D.R.P. Sandeepa
Show whitespace changes
Inline Side-by-side

Showing with 49 additions and 1 deletion

backend/IT18218640/prepare_dataset.py backend/IT18218640/prepare_dataset.py +49 -1

No files found.
--- a/backend/IT18218640/prepare_dataset.py
+++ b/backend/IT18218640/prepare_dataset.py
@@ -5,3 +5,51 @@ import json
 DATASET_PATH = "dataset"
 JSON_PATH = "data.json"
 SAMPLES_TO_CONSIDER = 22050
+
+def prepare_dataset(dataset_path, json_path, n_mfcc=13, hop_length=512, n_fft=2048):
+
+    # data dictionary
+    data = {
+        "mappings": [],
+        "labels": [],
+        "MFCCs": [],
+        "files": []
+    }
+
+    # loop through all the sub-dirs
+    for i, (dirpath, dirnames, filenames) in enumerate(os.walk(dataset_path)):
+
+        # we need to ensure that we are not at root level
+        if dirpath is not dataset_path:
+
+            # update mapping
+            category = dirpath.split("/")[-1] # dataset/down -> [dataset, down]
+            data["mappings"].append(category)
+            print(f"Processing {category}")
+
+            # loop through all the filenames and extract MFCCs
+            for f in filenames:
+
+                # get file path
+                file_path = os.path.join(dirpath, f)
+
+                # load audio file
+                signal, sr = librosa.load(file_path)
+
+                if len(signal) >= SAMPLES_TO_CONSIDER:
+
+                    # enforce 1 sec, long signal
+                    signal = signal[:SAMPLES_TO_CONSIDER]
+
+                    # extract the MFCCs
+                    MFCCs = librosa.feature.mfcc(signal, n_mfcc=n_mfcc, hop_length=hop_length, n_fft=n_fft)
+
+                    # store data
+                    data["labels"].append(i-1)
+                    data["MFCCs"].append(MFCCs.T.tolist())
+                    data["files"].append(file_path)
+                    print(f"{file_path}:{i-1}")
+
+    # store in json file
+    with open(json_path, "w") as fp:
+        json.dump(data, fp, indent=4)