tezuesh
/

moshi_general

Model card Files Files and versions Community

tezuesh commited on 17 days ago

Commit

5acce69

·

verified ·

1 Parent(s): 7542ba5

Update inference.py

Files changed (1) hide show

inference.py +12 -6

inference.py CHANGED Viewed

@@ -71,16 +71,22 @@ class InferenceRecipe:
         """Load and preprocess audio."""
         try:
             # Convert to tensor
-            wav = torch.from_numpy(audio_array).float().unsqueeze(0).to(self.device)
             # Resample if needed
             if sample_rate != self.sample_rate:
                 logger.info(f"Resampling from {sample_rate} to {self.sample_rate}")
-                wav = torchaudio.transforms.Resample(
                     orig_freq=sample_rate,
                     new_freq=self.sample_rate
-                )(wav)
             # Ensure frame alignment
             frame_size = int(self.sample_rate / self.frame_rate)
             orig_length = wav.shape[-1]
@@ -89,11 +95,11 @@ class InferenceRecipe:
                 logger.info(f"Trimmed audio from {orig_length} to {wav.shape[-1]} samples for frame alignment")
             return wav
         except Exception as e:
             logger.error(f"Audio loading failed: {str(e)}")
             raise
     def _pad_codes(self, all_codes, time_seconds=30):
         try:
             min_frames = int(time_seconds * self.frame_rate)

         """Load and preprocess audio."""
         try:
             # Convert to tensor
+            wav = torch.from_numpy(audio_array).float().unsqueeze(0)
             # Resample if needed
             if sample_rate != self.sample_rate:
                 logger.info(f"Resampling from {sample_rate} to {self.sample_rate}")
+                # Create resampler on same device as input will be
+                resampler = torchaudio.transforms.Resample(
                     orig_freq=sample_rate,
                     new_freq=self.sample_rate
+                ).to(self.device)
+                # Move wav to device before resampling
+                wav = resampler(wav.to(self.device))
+            else:
+                # If no resampling needed, still ensure wav is on correct device
+                wav = wav.to(self.device)
             # Ensure frame alignment
             frame_size = int(self.sample_rate / self.frame_rate)
             orig_length = wav.shape[-1]
                 logger.info(f"Trimmed audio from {orig_length} to {wav.shape[-1]} samples for frame alignment")
             return wav
         except Exception as e:
             logger.error(f"Audio loading failed: {str(e)}")
             raise
     def _pad_codes(self, all_codes, time_seconds=30):
         try:
             min_frames = int(time_seconds * self.frame_rate)