farhana1996 commited on
Commit
7eb9178
·
verified ·
1 Parent(s): dadc2e7

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": true,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,435 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:500000
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: shihab17/bangla-sentence-transformer
10
+ widget:
11
+ - source_sentence: বাকীদের ও গ্রেফতারের চেষ্টা চলছে।
12
+ sentences:
13
+ - বাকীদের ও গ্রেফতারের চেষ্টা চলছে।
14
+ - দুর্যোগ ব্যবস্থাপনা ও ত্রাণ বিষয়ক প্রতিমন্ত্রী ডা মো এনামুর রহমান বলেছেন, অন্যতম
15
+ দ্রুত বর্ধনশীল ও পৃথিবীর ঘন জনবসতিপূর্ণ শহরগুলোর একটি ঢাকা।
16
+ - গতকাল মিরপুর শেরে বাংলা স্টেডিয়ামে তিন ম্যাচ সিরিজের প্রথম ওয়ানডেতে পাকিস্তানকে
17
+ রানে হারিয়ে ইতিহাসের এক অচলায়তন ভেঙে দিলো বাংলাদেশ।
18
+ - source_sentence: সমুদ্র সৈকতসহ জেলার পর্যটন স্পটগুলো পর্যটকদের কোলাহলে নতুন করে
19
+ প্রাণচঞ্চল হয়ে উঠেছে।
20
+ sentences:
21
+ - সমুদ্র সৈকতসহ জেলার পর্যটন স্পটগুলো পর্যটকদের কোলাহলে নতুন করে প্রাণচঞ্চল হয়ে
22
+ উঠেছে।
23
+ - এভাবে তো মিডিয়া টিকতে পারে না।
24
+ - অবশ্য পৃথিবী ধ্বংসের আশঙ্কা এর আগেও বহুবার করা হয়েছে।
25
+ - source_sentence: সংক্ষিপ্ত স্কোর সিলেট থান্ডার ওভারে রনি , চার্লস , মিঠুন , মেন্ডিস
26
+ , মোসাদ্দেক , মিলন , নাঈম , নাভিন , নাজমুল , সান্তোকি , এবাদত রাসেল , তাইজুল ,
27
+ রাহী , কাপালি , বোপারা , রেজা এক ওভারেই নেই তিন উইকেট ক্রমাগত উইকেট পতণের মধ্যে
28
+ সিলেটকে আরেকটি ধাক্কা দিলেন ফরহাদ রেজা।
29
+ sentences:
30
+ - অনলাইন মার্কেটপ্লেস বিক্রয় ডট কম বিজয় দিবস উপলক্ষে আই লাভ বাংলাদেশ শীর্ষক একটি
31
+ গল্প রচনা প্রতিযোগিতার আয়োজন করেছে।
32
+ - সংক্ষিপ্ত স্কোর সিলেট থান্ডার ওভারে রনি , চার্লস , মিঠুন , মেন্ডিস , মোসাদ্দেক
33
+ , মিলন , নাঈম , নাভিন , নাজমুল , সান্তোকি , এবাদত রাসেল , তাইজুল , রাহী , কাপালি
34
+ , বোপারা , রেজা এক ওভারেই নেই তিন উইকেট ক্রমাগত উইকেট পতণের মধ্যে সিলেটকে আরেকটি
35
+ ধাক্কা দিলেন ফরহাদ রেজা।
36
+ - ডায়ানা অ্যাওয়ার্ড এর বিজয়ীদের জুলাই প্রিন্সেস ডায়ানার তম জন্মদিনে ঘোষণা করা
37
+ হয়েছিল।
38
+ - source_sentence: এটা তো আমাদের জন্য ভালো খবর।
39
+ sentences:
40
+ - বায়ার গ্রুপ ইন্ডিয়ার ভাইস চেয়ারম্যান ও ব্যবস্থাপনা পরিচালক রিচার্ড ভ্যান ডার
41
+ মারওই বাংলাদেশের ব্যবসায়িক কার্যক্রমের প্রশংসা করে আগামীতে আরো প্রবৃদ্ধি অর্জনের
42
+ জন্য সকলকে একযোগে কাজ করার আহ্বান জানান।
43
+ - শুধু লাদাখ বা গলওয়ান উপত্যকা নয়, ভারত চীন সীমান্তের পুরো এলাকাতেই তিন বাহিনীকে
44
+ এই কড়া অবস্থান নেয়ার নির্দেশ দিয়েছেন দেশটির প্রতিরক্ষা মন্ত্রী।
45
+ - এটা তো আমাদের জন্য ভ��লো খবর।
46
+ - source_sentence: প্রথম বিশ্বযুদ্ধে যুক্তরাষ্ট্রের নাগরিকদের মৃত্যুর চেয়েও এই সংখ্যাটা
47
+ বেশি।
48
+ sentences:
49
+ - প্রথম বিশ্বযুদ্ধে যুক্তরাষ্ট্রের নাগরিকদের মৃত্যুর চেয়েও এই সংখ্যাটা বেশি।
50
+ - সিরীয় প্রেসিডেন্ট বাশার আল আসাদ এ সম্প্রদায়েরই লোক।
51
+ - রবিবার রাজস্ব ভবন সভাকক্ষে জাতীয় রাজস্ব বোর্ডের এনবিআর সঙ্গে প্রাক বাজেট আলোচনায়
52
+ বাংলাদেশ ট্যানারি এসোসিয়েশনের সভাপতি শাহীন আহমেদ বলেন, সাভারের চামড়া শিল্প নগরী
53
+ স্থাপনের আগে উদ্যোক্তাদের বলা হয়েছিল, কর অবকাশ সুবিধা দেয়া হবে।
54
+ pipeline_tag: sentence-similarity
55
+ library_name: sentence-transformers
56
+ ---
57
+
58
+ # SentenceTransformer based on shihab17/bangla-sentence-transformer
59
+
60
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [shihab17/bangla-sentence-transformer](https://huggingface.co/shihab17/bangla-sentence-transformer). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
61
+
62
+ ## Model Details
63
+
64
+ ### Model Description
65
+ - **Model Type:** Sentence Transformer
66
+ - **Base model:** [shihab17/bangla-sentence-transformer](https://huggingface.co/shihab17/bangla-sentence-transformer) <!-- at revision ab250a2c767638562cd3caa8c0017b106a481755 -->
67
+ - **Maximum Sequence Length:** 512 tokens
68
+ - **Output Dimensionality:** 768 dimensions
69
+ - **Similarity Function:** Cosine Similarity
70
+ <!-- - **Training Dataset:** Unknown -->
71
+ <!-- - **Language:** Unknown -->
72
+ <!-- - **License:** Unknown -->
73
+
74
+ ### Model Sources
75
+
76
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
77
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
78
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
79
+
80
+ ### Full Model Architecture
81
+
82
+ ```
83
+ SentenceTransformer(
84
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
85
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
86
+ )
87
+ ```
88
+
89
+ ## Usage
90
+
91
+ ### Direct Usage (Sentence Transformers)
92
+
93
+ First install the Sentence Transformers library:
94
+
95
+ ```bash
96
+ pip install -U sentence-transformers
97
+ ```
98
+
99
+ Then you can load this model and run inference.
100
+ ```python
101
+ from sentence_transformers import SentenceTransformer
102
+
103
+ # Download from the 🤗 Hub
104
+ model = SentenceTransformer("farhana1996/bangla-unsup-simcse")
105
+ # Run inference
106
+ sentences = [
107
+ 'প্রথম বিশ্বযুদ্ধে যুক্তরাষ্ট্রের নাগরিকদের মৃত্যুর চেয়েও এই সংখ্যাটা বেশি।',
108
+ 'প্রথম বিশ্বযুদ্ধে যুক্তরাষ্ট্রের নাগরিকদের মৃত্যুর চেয়েও এই সংখ্যাটা বেশি।',
109
+ 'রবিবার রাজস্ব ভবন সভাকক্ষে জাতীয় রাজস্ব বোর্ডের এনবিআর সঙ্গে প্রাক বাজেট আলোচনায় বাংলাদেশ ট্যানারি এসোসিয়েশনের সভাপতি শাহীন আহমেদ বলেন, সাভারের চামড়া শিল্প নগরী স্থাপনের আগে উদ্যোক্তাদের বলা হয়েছিল, কর অবকাশ সুবিধা দেয়া হবে।',
110
+ ]
111
+ embeddings = model.encode(sentences)
112
+ print(embeddings.shape)
113
+ # [3, 768]
114
+
115
+ # Get the similarity scores for the embeddings
116
+ similarities = model.similarity(embeddings, embeddings)
117
+ print(similarities.shape)
118
+ # [3, 3]
119
+ ```
120
+
121
+ <!--
122
+ ### Direct Usage (Transformers)
123
+
124
+ <details><summary>Click to see the direct usage in Transformers</summary>
125
+
126
+ </details>
127
+ -->
128
+
129
+ <!--
130
+ ### Downstream Usage (Sentence Transformers)
131
+
132
+ You can finetune this model on your own dataset.
133
+
134
+ <details><summary>Click to expand</summary>
135
+
136
+ </details>
137
+ -->
138
+
139
+ <!--
140
+ ### Out-of-Scope Use
141
+
142
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
143
+ -->
144
+
145
+ <!--
146
+ ## Bias, Risks and Limitations
147
+
148
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
149
+ -->
150
+
151
+ <!--
152
+ ### Recommendations
153
+
154
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
155
+ -->
156
+
157
+ ## Training Details
158
+
159
+ ### Training Dataset
160
+
161
+ #### Unnamed Dataset
162
+
163
+
164
+ * Size: 500,000 training samples
165
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
166
+ * Approximate statistics based on the first 1000 samples:
167
+ | | sentence_0 | sentence_1 |
168
+ |:--------|:-----------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
169
+ | type | string | string |
170
+ | details | <ul><li>min: 4 tokens</li><li>mean: 27.75 tokens</li><li>max: 383 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 27.75 tokens</li><li>max: 383 tokens</li></ul> |
171
+ * Samples:
172
+ | sentence_0 | sentence_1 |
173
+ |:--------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------|
174
+ | <code>তার অন্তঃসত্ত্বা বোন ও মা বাবাকেও মারধর করা হয় বলে অভিযোগ।</code> | <code>তার অন্তঃসত্ত্বা বোন ও মা বাবাকেও মারধর করা হয় বলে অভিযোগ।</code> |
175
+ | <code>ডিজিটাল প্রযুক্তি ব্যবহারের মাধ্যমে দেশের প্রান্তিক পর্যায়েও আর্থিক সেবা নিশ্চিত করতে নীতিগত সহায়তা প্রদান করছে সরকার।</code> | <code>ডিজিটাল প্রযুক্তি ব্যবহারের মাধ্যমে দেশের প্রান্তিক পর্যায়েও আর্থিক সেবা নিশ্চিত করতে নীতিগত সহায়তা প্রদান করছে সরকার।</code> |
176
+ | <code>পরে এটি ইলেক্টোরাল কলেজ হিসেবে পরিচিত হয়ে ওঠে।</code> | <code>পরে এটি ইলেক্টোরাল কলেজ হিসেবে পরিচিত হয়ে ওঠে।</code> |
177
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
178
+ ```json
179
+ {
180
+ "scale": 20.0,
181
+ "similarity_fct": "cos_sim"
182
+ }
183
+ ```
184
+
185
+ ### Training Hyperparameters
186
+ #### Non-Default Hyperparameters
187
+
188
+ - `per_device_train_batch_size`: 16
189
+ - `per_device_eval_batch_size`: 16
190
+ - `num_train_epochs`: 1
191
+ - `multi_dataset_batch_sampler`: round_robin
192
+
193
+ #### All Hyperparameters
194
+ <details><summary>Click to expand</summary>
195
+
196
+ - `overwrite_output_dir`: False
197
+ - `do_predict`: False
198
+ - `eval_strategy`: no
199
+ - `prediction_loss_only`: True
200
+ - `per_device_train_batch_size`: 16
201
+ - `per_device_eval_batch_size`: 16
202
+ - `per_gpu_train_batch_size`: None
203
+ - `per_gpu_eval_batch_size`: None
204
+ - `gradient_accumulation_steps`: 1
205
+ - `eval_accumulation_steps`: None
206
+ - `torch_empty_cache_steps`: None
207
+ - `learning_rate`: 5e-05
208
+ - `weight_decay`: 0.0
209
+ - `adam_beta1`: 0.9
210
+ - `adam_beta2`: 0.999
211
+ - `adam_epsilon`: 1e-08
212
+ - `max_grad_norm`: 1
213
+ - `num_train_epochs`: 1
214
+ - `max_steps`: -1
215
+ - `lr_scheduler_type`: linear
216
+ - `lr_scheduler_kwargs`: {}
217
+ - `warmup_ratio`: 0.0
218
+ - `warmup_steps`: 0
219
+ - `log_level`: passive
220
+ - `log_level_replica`: warning
221
+ - `log_on_each_node`: True
222
+ - `logging_nan_inf_filter`: True
223
+ - `save_safetensors`: True
224
+ - `save_on_each_node`: False
225
+ - `save_only_model`: False
226
+ - `restore_callback_states_from_checkpoint`: False
227
+ - `no_cuda`: False
228
+ - `use_cpu`: False
229
+ - `use_mps_device`: False
230
+ - `seed`: 42
231
+ - `data_seed`: None
232
+ - `jit_mode_eval`: False
233
+ - `use_ipex`: False
234
+ - `bf16`: False
235
+ - `fp16`: False
236
+ - `fp16_opt_level`: O1
237
+ - `half_precision_backend`: auto
238
+ - `bf16_full_eval`: False
239
+ - `fp16_full_eval`: False
240
+ - `tf32`: None
241
+ - `local_rank`: 0
242
+ - `ddp_backend`: None
243
+ - `tpu_num_cores`: None
244
+ - `tpu_metrics_debug`: False
245
+ - `debug`: []
246
+ - `dataloader_drop_last`: False
247
+ - `dataloader_num_workers`: 0
248
+ - `dataloader_prefetch_factor`: None
249
+ - `past_index`: -1
250
+ - `disable_tqdm`: False
251
+ - `remove_unused_columns`: True
252
+ - `label_names`: None
253
+ - `load_best_model_at_end`: False
254
+ - `ignore_data_skip`: False
255
+ - `fsdp`: []
256
+ - `fsdp_min_num_params`: 0
257
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
258
+ - `fsdp_transformer_layer_cls_to_wrap`: None
259
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
260
+ - `deepspeed`: None
261
+ - `label_smoothing_factor`: 0.0
262
+ - `optim`: adamw_torch
263
+ - `optim_args`: None
264
+ - `adafactor`: False
265
+ - `group_by_length`: False
266
+ - `length_column_name`: length
267
+ - `ddp_find_unused_parameters`: None
268
+ - `ddp_bucket_cap_mb`: None
269
+ - `ddp_broadcast_buffers`: False
270
+ - `dataloader_pin_memory`: True
271
+ - `dataloader_persistent_workers`: False
272
+ - `skip_memory_metrics`: True
273
+ - `use_legacy_prediction_loop`: False
274
+ - `push_to_hub`: False
275
+ - `resume_from_checkpoint`: None
276
+ - `hub_model_id`: None
277
+ - `hub_strategy`: every_save
278
+ - `hub_private_repo`: None
279
+ - `hub_always_push`: False
280
+ - `gradient_checkpointing`: False
281
+ - `gradient_checkpointing_kwargs`: None
282
+ - `include_inputs_for_metrics`: False
283
+ - `include_for_metrics`: []
284
+ - `eval_do_concat_batches`: True
285
+ - `fp16_backend`: auto
286
+ - `push_to_hub_model_id`: None
287
+ - `push_to_hub_organization`: None
288
+ - `mp_parameters`:
289
+ - `auto_find_batch_size`: False
290
+ - `full_determinism`: False
291
+ - `torchdynamo`: None
292
+ - `ray_scope`: last
293
+ - `ddp_timeout`: 1800
294
+ - `torch_compile`: False
295
+ - `torch_compile_backend`: None
296
+ - `torch_compile_mode`: None
297
+ - `dispatch_batches`: None
298
+ - `split_batches`: None
299
+ - `include_tokens_per_second`: False
300
+ - `include_num_input_tokens_seen`: False
301
+ - `neftune_noise_alpha`: None
302
+ - `optim_target_modules`: None
303
+ - `batch_eval_metrics`: False
304
+ - `eval_on_start`: False
305
+ - `use_liger_kernel`: False
306
+ - `eval_use_gather_object`: False
307
+ - `average_tokens_across_devices`: False
308
+ - `prompts`: None
309
+ - `batch_sampler`: batch_sampler
310
+ - `multi_dataset_batch_sampler`: round_robin
311
+
312
+ </details>
313
+
314
+ ### Training Logs
315
+ | Epoch | Step | Training Loss |
316
+ |:-----:|:-----:|:-------------:|
317
+ | 0.016 | 500 | 0.1576 |
318
+ | 0.032 | 1000 | 0.0004 |
319
+ | 0.048 | 1500 | 0.0003 |
320
+ | 0.064 | 2000 | 0.0002 |
321
+ | 0.08 | 2500 | 0.0002 |
322
+ | 0.096 | 3000 | 0.0001 |
323
+ | 0.112 | 3500 | 0.0002 |
324
+ | 0.128 | 4000 | 0.0001 |
325
+ | 0.144 | 4500 | 0.0001 |
326
+ | 0.16 | 5000 | 0.0 |
327
+ | 0.176 | 5500 | 0.0001 |
328
+ | 0.192 | 6000 | 0.0001 |
329
+ | 0.208 | 6500 | 0.0001 |
330
+ | 0.224 | 7000 | 0.0001 |
331
+ | 0.24 | 7500 | 0.0001 |
332
+ | 0.256 | 8000 | 0.0 |
333
+ | 0.272 | 8500 | 0.0002 |
334
+ | 0.288 | 9000 | 0.0002 |
335
+ | 0.304 | 9500 | 0.0002 |
336
+ | 0.32 | 10000 | 0.0 |
337
+ | 0.336 | 10500 | 0.0 |
338
+ | 0.352 | 11000 | 0.0 |
339
+ | 0.368 | 11500 | 0.0 |
340
+ | 0.384 | 12000 | 0.0 |
341
+ | 0.4 | 12500 | 0.0002 |
342
+ | 0.416 | 13000 | 0.0002 |
343
+ | 0.432 | 13500 | 0.0001 |
344
+ | 0.448 | 14000 | 0.0 |
345
+ | 0.464 | 14500 | 0.0 |
346
+ | 0.48 | 15000 | 0.0003 |
347
+ | 0.496 | 15500 | 0.0 |
348
+ | 0.512 | 16000 | 0.0 |
349
+ | 0.528 | 16500 | 0.0002 |
350
+ | 0.544 | 17000 | 0.0001 |
351
+ | 0.56 | 17500 | 0.0 |
352
+ | 0.576 | 18000 | 0.0001 |
353
+ | 0.592 | 18500 | 0.0 |
354
+ | 0.608 | 19000 | 0.0 |
355
+ | 0.624 | 19500 | 0.0005 |
356
+ | 0.64 | 20000 | 0.0 |
357
+ | 0.656 | 20500 | 0.0 |
358
+ | 0.672 | 21000 | 0.0 |
359
+ | 0.688 | 21500 | 0.0 |
360
+ | 0.704 | 22000 | 0.0 |
361
+ | 0.72 | 22500 | 0.0 |
362
+ | 0.736 | 23000 | 0.0002 |
363
+ | 0.752 | 23500 | 0.0002 |
364
+ | 0.768 | 24000 | 0.0 |
365
+ | 0.784 | 24500 | 0.0 |
366
+ | 0.8 | 25000 | 0.0 |
367
+ | 0.816 | 25500 | 0.0 |
368
+ | 0.832 | 26000 | 0.0 |
369
+ | 0.848 | 26500 | 0.0 |
370
+ | 0.864 | 27000 | 0.0 |
371
+ | 0.88 | 27500 | 0.0 |
372
+ | 0.896 | 28000 | 0.0 |
373
+ | 0.912 | 28500 | 0.0002 |
374
+ | 0.928 | 29000 | 0.0 |
375
+ | 0.944 | 29500 | 0.0 |
376
+ | 0.96 | 30000 | 0.0002 |
377
+ | 0.976 | 30500 | 0.0 |
378
+ | 0.992 | 31000 | 0.0004 |
379
+
380
+
381
+ ### Framework Versions
382
+ - Python: 3.10.12
383
+ - Sentence Transformers: 3.3.1
384
+ - Transformers: 4.47.0
385
+ - PyTorch: 2.5.1+cu121
386
+ - Accelerate: 1.2.1
387
+ - Datasets: 3.2.0
388
+ - Tokenizers: 0.21.0
389
+
390
+ ## Citation
391
+
392
+ ### BibTeX
393
+
394
+ #### Sentence Transformers
395
+ ```bibtex
396
+ @inproceedings{reimers-2019-sentence-bert,
397
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
398
+ author = "Reimers, Nils and Gurevych, Iryna",
399
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
400
+ month = "11",
401
+ year = "2019",
402
+ publisher = "Association for Computational Linguistics",
403
+ url = "https://arxiv.org/abs/1908.10084",
404
+ }
405
+ ```
406
+
407
+ #### MultipleNegativesRankingLoss
408
+ ```bibtex
409
+ @misc{henderson2017efficient,
410
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
411
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
412
+ year={2017},
413
+ eprint={1705.00652},
414
+ archivePrefix={arXiv},
415
+ primaryClass={cs.CL}
416
+ }
417
+ ```
418
+
419
+ <!--
420
+ ## Glossary
421
+
422
+ *Clearly define terms in order to be accessible across audiences.*
423
+ -->
424
+
425
+ <!--
426
+ ## Model Card Authors
427
+
428
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
429
+ -->
430
+
431
+ <!--
432
+ ## Model Card Contact
433
+
434
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
435
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "shihab17/bangla-sentence-transformer",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 12,
19
+ "num_hidden_layers": 12,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.47.0",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.0",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7536b8abea1215ee8e4179f6f4aa5c3a2fa8001fddcb19075c06b53c76a49805
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 128,
51
+ "model_max_length": 512,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }