TTS_DATASET_MAKER_2

Sleeping

App Files Files Community

Omarrran commited on Nov 10, 2024

Commit

4ffe582

verified ·

1 Parent(s): 14f7424

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -2

app.py CHANGED Viewed

@@ -74,6 +74,13 @@ class TTSDatasetCollector:
         self.current_index = 0
         self.current_font = "english_serif"
         self.setup_directories()
         logger.info("TTS Dataset Collector initialized")
     def setup_directories(self) -> None:
@@ -122,8 +129,39 @@ class TTSDatasetCollector:
             if not text.strip():
                 return False, "Text is empty"
-            # Tokenize sentences
-            self.sentences = nltk.sent_tokenize(text.strip())
             if not self.sentences:
                 return False, "No valid sentences found in text"

         self.current_index = 0
         self.current_font = "english_serif"
         self.setup_directories()
+        # Ensure NLTK data is downloaded
+        try:
+            nltk.data.find('tokenizers/punkt')
+        except LookupError:
+            nltk.download('punkt', quiet=True)
         logger.info("TTS Dataset Collector initialized")
     def setup_directories(self) -> None:
             if not text.strip():
                 return False, "Text is empty"
+            # Simple sentence splitting as fallback
+            def simple_split_sentences(text):
+                # Split on common sentence endings
+                sentences = []
+                current = []
+                for line in text.split('\n'):
+                    line = line.strip()
+                    if not line:
+                        continue
+                    # Split on common sentence endings
+                    parts = line.replace('!', '.').replace('?', '.').split('.')
+                    for part in parts:
+                        part = part.strip()
+                        if part:
+                            current.append(part)
+                            sentences.append(' '.join(current))
+                            current = []
+                if current:
+                    sentences.append(' '.join(current))
+                return [s.strip() for s in sentences if s.strip()]
+            try:
+                # Try NLTK first
+                self.sentences = nltk.sent_tokenize(text.strip())
+            except Exception as e:
+                logger.warning(f"NLTK tokenization failed, falling back to simple splitting: {str(e)}")
+                # Fallback to simple splitting
+                self.sentences = simple_split_sentences(text.strip())
             if not self.sentences:
                 return False, "No valid sentences found in text"