csukuangfj commited on
Commit
3c6655e
·
1 Parent(s): 8980883
GigaAM/.gitattributes ADDED
@@ -0,0 +1,2 @@
 
 
 
1
+ *.ckpt filter=lfs diff=lfs merge=lfs -text
2
+ *.wav filter=lfs diff=lfs merge=lfs -text
GigaAM/ctc/ctc_model_config.yaml ADDED
@@ -0,0 +1,271 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model_class: enc_dec_ctc_char
2
+ sample_rate: 16000
3
+ log_prediction: true
4
+ ctc_reduction: mean_batch
5
+ labels:
6
+ - ' '
7
+ - а
8
+ - б
9
+ - в
10
+ - г
11
+ - д
12
+ - е
13
+ - ж
14
+ - з
15
+ - и
16
+ - й
17
+ - к
18
+ - л
19
+ - м
20
+ - н
21
+ - о
22
+ - п
23
+ - р
24
+ - с
25
+ - т
26
+ - у
27
+ - ф
28
+ - х
29
+ - ц
30
+ - ч
31
+ - ш
32
+ - щ
33
+ - ъ
34
+ - ы
35
+ - ь
36
+ - э
37
+ - ю
38
+ - я
39
+
40
+ preprocessor:
41
+ _target_: __main__.AudioToMelSpectrogramPreprocessor
42
+ sample_rate: 16000
43
+ n_fft: 400
44
+ n_window_size: 400
45
+ window_size: null
46
+ n_window_stride: 160
47
+ window_stride: null
48
+ features: 64
49
+ dither: 0.0
50
+ preemph: null
51
+ log: true
52
+ log_zero_guard_type: clamp
53
+ normalize: null
54
+ pad_to: 0
55
+ mel_norm: null
56
+ window: hann
57
+ log_zero_guard_value: 1e-9
58
+
59
+ train_ds:
60
+ batch_size: 10
61
+ trim_silence: false
62
+ max_duration: 25.0
63
+ min_duration: 0.1
64
+ shuffle: true
65
+ is_tarred: false
66
+ num_workers: 8
67
+ pin_memory: true
68
+ manifest_filepath: null
69
+ labels:
70
+ - ' '
71
+ - а
72
+ - б
73
+ - в
74
+ - г
75
+ - д
76
+ - е
77
+ - ж
78
+ - з
79
+ - и
80
+ - й
81
+ - к
82
+ - л
83
+ - м
84
+ - н
85
+ - о
86
+ - п
87
+ - р
88
+ - с
89
+ - т
90
+ - у
91
+ - ф
92
+ - х
93
+ - ц
94
+ - ч
95
+ - ш
96
+ - щ
97
+ - ъ
98
+ - ы
99
+ - ь
100
+ - э
101
+ - ю
102
+ - я
103
+
104
+ validation_ds:
105
+ batch_size: 20
106
+ shuffle: false
107
+ num_workers: 4
108
+ min_duration: 0.1
109
+ pin_memory: true
110
+ manifest_filepath: null
111
+ labels:
112
+ - ' '
113
+ - а
114
+ - б
115
+ - в
116
+ - г
117
+ - д
118
+ - е
119
+ - ж
120
+ - з
121
+ - и
122
+ - й
123
+ - к
124
+ - л
125
+ - м
126
+ - н
127
+ - о
128
+ - п
129
+ - р
130
+ - с
131
+ - т
132
+ - у
133
+ - ф
134
+ - х
135
+ - ц
136
+ - ч
137
+ - ш
138
+ - щ
139
+ - ъ
140
+ - ы
141
+ - ь
142
+ - э
143
+ - ю
144
+ - я
145
+
146
+ test_ds:
147
+ manifest_filepath: null
148
+ batch_size: 100
149
+ shuffle: false
150
+ num_workers: 4
151
+ pin_memory: true
152
+ labels:
153
+ - ' '
154
+ - а
155
+ - б
156
+ - в
157
+ - г
158
+ - д
159
+ - е
160
+ - ж
161
+ - з
162
+ - и
163
+ - й
164
+ - к
165
+ - л
166
+ - м
167
+ - н
168
+ - о
169
+ - п
170
+ - р
171
+ - с
172
+ - т
173
+ - у
174
+ - ф
175
+ - х
176
+ - ц
177
+ - ч
178
+ - ш
179
+ - щ
180
+ - ъ
181
+ - ы
182
+ - ь
183
+ - э
184
+ - ю
185
+ - я
186
+ spec_augment:
187
+ _target_: nemo.collections.asr.modules.SpectrogramAugmentation
188
+ freq_masks: 2
189
+ time_masks: 10
190
+ freq_width: 27
191
+ time_width: 0.05
192
+ encoder:
193
+ _target_: nemo.collections.asr.modules.ConformerEncoder
194
+ feat_in: 64
195
+ feat_out: -1
196
+ n_layers: 16
197
+ d_model: 768
198
+ subsampling: striding
199
+ subsampling_factor: 4
200
+ subsampling_conv_channels: 768
201
+ ff_expansion_factor: 4
202
+ self_attention_model: rel_pos
203
+ pos_emb_max_len: 5000
204
+ n_heads: 16
205
+ xscaling: false
206
+ untie_biases: true
207
+ conv_kernel_size: 31
208
+ dropout: 0.1
209
+ dropout_emb: 0.1
210
+ dropout_att: 0.1
211
+ decoder:
212
+ _target_: nemo.collections.asr.modules.ConvASRDecoder
213
+ feat_in: 768
214
+ num_classes: 33
215
+ vocabulary:
216
+ - ' '
217
+ - а
218
+ - б
219
+ - в
220
+ - г
221
+ - д
222
+ - е
223
+ - ж
224
+ - з
225
+ - и
226
+ - й
227
+ - к
228
+ - л
229
+ - м
230
+ - н
231
+ - о
232
+ - п
233
+ - р
234
+ - с
235
+ - т
236
+ - у
237
+ - ф
238
+ - х
239
+ - ц
240
+ - ч
241
+ - ш
242
+ - щ
243
+ - ъ
244
+ - ы
245
+ - ь
246
+ - э
247
+ - ю
248
+ - я
249
+ optim:
250
+ name: adamw
251
+ lr: 5.0e-05
252
+ betas:
253
+ - 0.9
254
+ - 0.98
255
+ weight_decay: 0.01
256
+ sched:
257
+ name: CosineAnnealing
258
+ warmup_steps: 10000
259
+ warmup_ratio: null
260
+ min_lr: 1.0e-07
261
+ nemo_version: 1.12.0
262
+ decoding:
263
+ strategy: greedy
264
+ preserve_alignments: null
265
+ compute_timestamps: null
266
+ word_seperator: ' '
267
+ ctc_timestamp_type: all
268
+ batch_dim_index: 0
269
+ greedy:
270
+ preserve_alignments: false
271
+ compute_timestamps: false
GigaAM/ctc/ctc_model_weights.ckpt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6813e52607414d6006ac30a392087cb8d716afce7e0319a38bcb744ba741d2dc
3
+ size 968535213
GigaAM/example.wav ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d8aaaa18a5098d7c6de0595ae7ac1e64cacd0d4022af3595213bdaf23be77e69
3
+ size 361324
GigaAM/long_example.wav ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1868ece0195dfa9fc2394be24865d1133c8452a8292a397db45ba8c3ed9e01e3
3
+ size 2280044