Spaces:

mtg-upf
/

audio-difficulty

Sleeping

App Files Files Community

PRamoneda commited on May 16

Commit

df703c7

1 Parent(s): 2e9908b

cpu

Browse files

Files changed (2) hide show

get_difficulty.py +6 -6
model.py +5 -5

get_difficulty.py CHANGED Viewed

@@ -31,14 +31,14 @@ def get_cqt_from_mp3(mp3_path):
     log_cqt = librosa.amplitude_to_db(np.abs(cqt))
     log_cqt = log_cqt.T  # shape (T, 88)
     log_cqt = downsample_log_cqt(log_cqt, target_fs=5)
-    cqt_tensor = torch.tensor(log_cqt, dtype=torch.float32).unsqueeze(0).unsqueeze(0).cuda()
     # pdb.set_trace()
     print(f"cqt shape: {log_cqt.shape}")
     return cqt_tensor
 def get_pianoroll_from_mp3(mp3_path):
     audio, _ = load_audio(mp3_path, sr=sample_rate, mono=True)
-    transcriptor = PianoTranscription(device='cuda')
     midi_path = "temp.mid"
     transcriptor.transcribe(audio, midi_path)
     midi_data = pretty_midi.PrettyMIDI(midi_path)
@@ -57,8 +57,8 @@ def get_pianoroll_from_mp3(mp3_path):
             if 0 <= pitch < 88 and onset_frame < time_steps:
                 onsets[onset_frame, pitch] = 1.0
-    pr_tensor = torch.tensor(piano_roll.T).unsqueeze(0).unsqueeze(1).cuda().float()
-    on_tensor = torch.tensor(onsets.T).unsqueeze(0).unsqueeze(1).cuda().float()
     out_tensor = torch.cat([pr_tensor, on_tensor], dim=1)
     print(f"piano_roll shape: {out_tensor.shape}")
     return out_tensor.transpose(2, 3)
@@ -75,7 +75,7 @@ def predict_difficulty(mp3_path, model_name, rep):
         rep_clean = rep
     model = AudioModel(num_classes=11, rep=rep_clean, modality_dropout=False, only_cqt=only_cqt, only_pr=only_pr)
-    checkpoint = [torch.load(f"models/{model_name}/checkpoint_{i}.pth", map_location="cuda", weights_only=False)
                   for i in range(5)]
@@ -93,7 +93,7 @@ def predict_difficulty(mp3_path, model_name, rep):
     preds = []
     for cheks in checkpoint:
         model.load_state_dict(cheks["model_state_dict"])
-        model = model.cuda().eval()
         with torch.inference_mode():
             logits = model(inp_data, None)
             pred = prediction2label(logits).item()

     log_cqt = librosa.amplitude_to_db(np.abs(cqt))
     log_cqt = log_cqt.T  # shape (T, 88)
     log_cqt = downsample_log_cqt(log_cqt, target_fs=5)
+    cqt_tensor = torch.tensor(log_cqt, dtype=torch.float32).unsqueeze(0).unsqueeze(0).cpu()
     # pdb.set_trace()
     print(f"cqt shape: {log_cqt.shape}")
     return cqt_tensor
 def get_pianoroll_from_mp3(mp3_path):
     audio, _ = load_audio(mp3_path, sr=sample_rate, mono=True)
+    transcriptor = PianoTranscription(device='cpu')
     midi_path = "temp.mid"
     transcriptor.transcribe(audio, midi_path)
     midi_data = pretty_midi.PrettyMIDI(midi_path)
             if 0 <= pitch < 88 and onset_frame < time_steps:
                 onsets[onset_frame, pitch] = 1.0
+    pr_tensor = torch.tensor(piano_roll.T).unsqueeze(0).unsqueeze(1).cpu().float()
+    on_tensor = torch.tensor(onsets.T).unsqueeze(0).unsqueeze(1).cpu().float()
     out_tensor = torch.cat([pr_tensor, on_tensor], dim=1)
     print(f"piano_roll shape: {out_tensor.shape}")
     return out_tensor.transpose(2, 3)
         rep_clean = rep
     model = AudioModel(num_classes=11, rep=rep_clean, modality_dropout=False, only_cqt=only_cqt, only_pr=only_pr)
+    checkpoint = [torch.load(f"models/{model_name}/checkpoint_{i}.pth", map_location="cpu", weights_only=False)
                   for i in range(5)]
     preds = []
     for cheks in checkpoint:
         model.load_state_dict(cheks["model_state_dict"])
+        model = model.cpu().eval()
         with torch.inference_mode():
             logits = model(inp_data, None)
             pred = prediction2label(logits).item()

model.py CHANGED Viewed

@@ -222,7 +222,7 @@ def get_mse_macro(y_true, y_pred):
 def get_cqt(rep, k):
     inp_data = utils.load_binary(f"../videos_download/{rep}/{k}.bin")
-    inp_data = torch.tensor(inp_data, dtype=torch.float32).cuda()
     inp_data = inp_data.unsqueeze(0).unsqueeze(0).transpose(2, 3)
     return inp_data
@@ -230,8 +230,8 @@ def get_cqt(rep, k):
 def get_pianoroll(rep, k):
     inp_pr = utils.load_binary(f"../videos_download/{rep}/{k}.bin")
     inp_on = utils.load_binary(f"../videos_download/{rep}/{k}_onset.bin")
-    inp_pr = torch.from_numpy(inp_pr).float().cuda()
-    inp_on = torch.from_numpy(inp_on).float().cuda()
     inp_data = torch.stack([inp_pr, inp_on], dim=1)
     inp_data = inp_data.unsqueeze(0).permute(0, 1, 2, 3)
     return inp_data
@@ -255,12 +255,12 @@ def compute_model_basic(model_name, rep, modality_dropout, only_cqt=False, only_
         for split in range(5):
             #load_model
             model = AudioModel(11, rep, modality_dropout, only_cqt, only_pr)
-            checkpoint = torch.load(f"models/{model_name}/checkpoint_{split}.pth",  map_location='cuda:0')
             # print(checkpoint["epoch"])
             # print(checkpoint.keys())
             model.load_state_dict(checkpoint['model_state_dict'])
-            model = model.cuda()
             pred_labels, true_labels = [], []
             predictions_split = {}
             model.eval()

 def get_cqt(rep, k):
     inp_data = utils.load_binary(f"../videos_download/{rep}/{k}.bin")
+    inp_data = torch.tensor(inp_data, dtype=torch.float32).cpu()
     inp_data = inp_data.unsqueeze(0).unsqueeze(0).transpose(2, 3)
     return inp_data
 def get_pianoroll(rep, k):
     inp_pr = utils.load_binary(f"../videos_download/{rep}/{k}.bin")
     inp_on = utils.load_binary(f"../videos_download/{rep}/{k}_onset.bin")
+    inp_pr = torch.from_numpy(inp_pr).float().cpu()
+    inp_on = torch.from_numpy(inp_on).float().cpu()
     inp_data = torch.stack([inp_pr, inp_on], dim=1)
     inp_data = inp_data.unsqueeze(0).permute(0, 1, 2, 3)
     return inp_data
         for split in range(5):
             #load_model
             model = AudioModel(11, rep, modality_dropout, only_cqt, only_pr)
+            checkpoint = torch.load(f"models/{model_name}/checkpoint_{split}.pth",  map_location='cpu')
             # print(checkpoint["epoch"])
             # print(checkpoint.keys())
             model.load_state_dict(checkpoint['model_state_dict'])
+            model = model.cpu()
             pred_labels, true_labels = [], []
             predictions_split = {}
             model.eval()