Omerhan commited on
Commit
5ed7aa4
·
verified ·
1 Parent(s): 3a3ccc8

Add new SentenceTransformer model.

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 1024,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,450 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - tr
4
+ license: apache-2.0
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:920106
11
+ - loss:MatryoshkaLoss
12
+ - loss:MultipleNegativesRankingLoss
13
+ base_model: intfloat/multilingual-e5-large-instruct
14
+ widget:
15
+ - source_sentence: kosher süt ürünleri nedir
16
+ sentences:
17
+ - Endonezya'nın konumu. Endonezya Hint Okyanusu ve Pasifik Okyanusu arasında yer
18
+ almaktadır. Endonezya'da yaklaşık 13.000 ada vardır. Endonezya Adaları yıl boyunca
19
+ sıcak ve nemli bir iklim yaşar.Bu adalar Asya ve Avustralya arasında ekvator boyunca
20
+ yer almaktadır.Yerine bağlı olarak, Endonezya'da hava tropikaldir.Endonezya'da
21
+ yaklaşık 13.000 ada vardır.Endonezya Adaları yıl boyunca sıcak ve nemli bir iklim
22
+ yaşar.Bu adalar Asya ve Avustralya arasında ekvator boyunca yer almaktadır.
23
+ - Diğer şeker ikame edicilere göre daha az bir aftertate sahip olduğu iddia edilir
24
+ ve fırınlanmış ürünlerde ve yumuşak içeceklerde kullanıma uygundur. Ürün Kosher
25
+ - ve potansiyel olarak Hamursuz Bayramı için Kosher - ve yakın gelecekte birçok
26
+ üründe görünmesini bekleyebiliriz.Ayrıca hepimiz güçlü müshiller olduklarının
27
+ farkında olmalıyız!) Rosh Hashana yaklaşırken, belki de Shimshon'un benzetmesini
28
+ genişletebiliriz ve bir kullanım için bir tatlı olabilir.
29
+ - Kosher yemekleri, kashrut (Yahudi diyet yasası) düzenlemelerine uyan yiyeceklerdir.
30
+ - source_sentence: Kilometre cinsinden au nedir?
31
+ sentences:
32
+ - Astronomik birim (AU veya au veya au veya bazen ua) bir uzunluk birimidir. Yaklaşık
33
+ olarak Dünya ile Güneş arasındaki ortalama mesafeye eşittir. AU'nun şu anda kabul
34
+ edilen değeri 149 597 870 691 30 metredir (yaklaşık 150 milyon kilometre veya
35
+ 93 milyon mil).
36
+ - Kiraz. Kiraz ağaçları dünya çapında bulunur. Kirazdan siyah kiraza kadar değişen
37
+ 40 veya daha fazla çeşit vardır. Meyve ile birlikte, kiraz ağaçları, son derece
38
+ hoş kokulu hafif ve narin pembemsi-beyaz çiçekler üretir.Omments. Submit. Mülkünüze
39
+ meyve ağaçları dikmek sadece size istikrarlı bir organik meyve kaynağı sağlamakla
40
+ kalmaz, aynı zamanda bahçenizi güzelleştirmenizi ve oksijeni çevreye geri vermenizi
41
+ sağlar.
42
+ - Gezegen Uzaklık Matrisi. Aşağıda güneş sistemimizdeki sekiz gezegenin bir matrisi
43
+ ve bunların birbirinden olan uzaklıkları bulunur. Her bir mesafe ortalama olarak
44
+ hesaplanır ve 1 AU = Güneş ve Dünya arasındaki mesafe = 149.598.000 kilometre
45
+ olan astronomik birimlere (AU) dönüştürülür.
46
+ - source_sentence: Kalem girişi nedir
47
+ sentences:
48
+ - Çeşme kalemlerinizi dolma kalem mürekkep dönüştürücüleri kullanarak dolma kalem
49
+ mürekkepleri ile doldurun. Bu Lamy dolma kalem mürekkep dönüştürücü, Lamy Safari,
50
+ Vista, Joy ve AL-Star ile şişelenmiş mürekkep kullanmanıza olanak tanır.
51
+ - Tablet PC kullanıcıları, uygulamaları kontrol etmek ve bilgi girmek için birincil
52
+ yöntemler olarak kalem ve dokunmatik girişe güvenir. Bu bölüm, kalem ve dokunmatik
53
+ girişin fare gibi geleneksel işaret cihazlarının yerine kullanılmasını tartışır.
54
+ - Sinüs enfeksiyonu (sinüzit) alerjiler, enfeksiyon ve kimyasallar veya sinüslerin
55
+ diğer tahriş edicilerinden kaynaklanır. Belirtiler ve semptomlar baş ağrısı, ateş
56
+ ve yüz hassasiyeti, basınç veya ağrıdır. Sinüs enfeksiyonlarının tedavileri genellikle
57
+ antibiyotiklerle ve bazen de ev ilaçları ile yapılır.
58
+ - source_sentence: Sınırsız müzik sahibi olmak ne kadara mal olur
59
+ sentences:
60
+ - 'İşte Bastrop İlçe Hapishanesi için hapishane mahkum bilgileri. Bastrop İlçe Hapishanesi,
61
+ Hapishanede yer almaktadır: 200 Jackson Sokak Şerifi: 200 Jackson Sokak Polisi:
62
+ 104 Grady Tuck Lane, Bastrop, Teksas''ta ve 432 yatak kapasitesine sahiptir.'
63
+ - 'Verizon Unlimited harika bir değerdir: sınırsız veri için 1 $ 80, kağıtsız faturalandırma
64
+ ve AutoPay ile akıllı telefonunuzdaki konuşma ve metin. Sınırsız veri ile dört
65
+ satır için satır başına 2 $ 45, akıllı telefonlarınızda ve tabletlerinizde kağıtsız
66
+ faturalandırma ve AutoPay ile konuşma ve metin.'
67
+ - 3 aylık abonelik ücreti 17.99 USD ve 12 aylık abonelik ücreti 49,99 $ 'dır. Music
68
+ Unlimited için yeni teklif ABD, Kanada, Danimarka, Norveç, İsveç, Avustralya ve
69
+ Yeni Zelanda'da yaşayan tüketicilere sunulmaktadır.
70
+ - source_sentence: ACS sınıfı kimyasallar nedir
71
+ sentences:
72
+ - Reaktif dereceli kimyasallar tipik olarak ACS dereceli kimyasallardır ve bu nedenle
73
+ ACS sertifikalarını kaybetmişlerdir. Carolina ayrıca sınırlı sayıda kimyasal için
74
+ bir ambalaj seçeneği sunar. Konsantre asitler gibi aşındırıcı kimyasallar normalde
75
+ cam şişelerde paketlenir.
76
+ - 'Talimatlar: 1 Uygun sayılarla tüm kutuları doldurun (1. ve 2. Çeyrek dönem notunuzun
77
+ her biri% 42,5''tir. Final Sınavı, dönem notunuzun% 15''idir). 2 Hangisini hesaplamak
78
+ istediğinize bağlı olarak dönem notu veya final sınav notu kutusunu boş bırakın.'
79
+ - Genellikle bir proksimal humerus kırığının birleşmesi yaklaşık 6 ila 8 hafta sürer.
80
+ Ancak, bu sadece kemikli birliğin alınmasıdır, tam iyileşme için gerekli olan
81
+ zamanı dikkate almaz.
82
+ pipeline_tag: sentence-similarity
83
+ library_name: sentence-transformers
84
+ ---
85
+
86
+ # intfloat-fine-tuned
87
+
88
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct) on the json dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
89
+
90
+ ## Model Details
91
+
92
+ ### Model Description
93
+ - **Model Type:** Sentence Transformer
94
+ - **Base model:** [intfloat/multilingual-e5-large-instruct](https://huggingface.co/intfloat/multilingual-e5-large-instruct) <!-- at revision c9e87c786ffac96aeaeb42863276930883923ecb -->
95
+ - **Maximum Sequence Length:** 512 tokens
96
+ - **Output Dimensionality:** 1024 tokens
97
+ - **Similarity Function:** Cosine Similarity
98
+ - **Training Dataset:**
99
+ - json
100
+ - **Language:** tr
101
+ - **License:** apache-2.0
102
+
103
+ ### Model Sources
104
+
105
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
106
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
107
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
108
+
109
+ ### Full Model Architecture
110
+
111
+ ```
112
+ SentenceTransformer(
113
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
114
+ (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
115
+ (2): Normalize()
116
+ )
117
+ ```
118
+
119
+ ## Usage
120
+
121
+ ### Direct Usage (Sentence Transformers)
122
+
123
+ First install the Sentence Transformers library:
124
+
125
+ ```bash
126
+ pip install -U sentence-transformers
127
+ ```
128
+
129
+ Then you can load this model and run inference.
130
+ ```python
131
+ from sentence_transformers import SentenceTransformer
132
+
133
+ # Download from the 🤗 Hub
134
+ model = SentenceTransformer("Omerhan/intfloat-fine-tuned-vx")
135
+ # Run inference
136
+ sentences = [
137
+ 'ACS sınıfı kimyasallar nedir',
138
+ 'Reaktif dereceli kimyasallar tipik olarak ACS dereceli kimyasallardır ve bu nedenle ACS sertifikalarını kaybetmişlerdir. Carolina ayrıca sınırlı sayıda kimyasal için bir ambalaj seçeneği sunar. Konsantre asitler gibi aşındırıcı kimyasallar normalde cam şişelerde paketlenir.',
139
+ "Talimatlar: 1 Uygun sayılarla tüm kutuları doldurun (1. ve 2. Çeyrek dönem notunuzun her biri% 42,5'tir. Final Sınavı, dönem notunuzun% 15'idir). 2 Hangisini hesaplamak istediğinize bağlı olarak dönem notu veya final sınav notu kutusunu boş bırakın.",
140
+ ]
141
+ embeddings = model.encode(sentences)
142
+ print(embeddings.shape)
143
+ # [3, 1024]
144
+
145
+ # Get the similarity scores for the embeddings
146
+ similarities = model.similarity(embeddings, embeddings)
147
+ print(similarities.shape)
148
+ # [3, 3]
149
+ ```
150
+
151
+ <!--
152
+ ### Direct Usage (Transformers)
153
+
154
+ <details><summary>Click to see the direct usage in Transformers</summary>
155
+
156
+ </details>
157
+ -->
158
+
159
+ <!--
160
+ ### Downstream Usage (Sentence Transformers)
161
+
162
+ You can finetune this model on your own dataset.
163
+
164
+ <details><summary>Click to expand</summary>
165
+
166
+ </details>
167
+ -->
168
+
169
+ <!--
170
+ ### Out-of-Scope Use
171
+
172
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
173
+ -->
174
+
175
+ <!--
176
+ ## Bias, Risks and Limitations
177
+
178
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
179
+ -->
180
+
181
+ <!--
182
+ ### Recommendations
183
+
184
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
185
+ -->
186
+
187
+ ## Training Details
188
+
189
+ ### Training Dataset
190
+
191
+ #### json
192
+
193
+ * Dataset: json
194
+ * Size: 920,106 training samples
195
+ * Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
196
+ * Approximate statistics based on the first 1000 samples:
197
+ | | anchor | positive | negative |
198
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
199
+ | type | string | string | string |
200
+ | details | <ul><li>min: 4 tokens</li><li>mean: 10.38 tokens</li><li>max: 39 tokens</li></ul> | <ul><li>min: 26 tokens</li><li>mean: 81.21 tokens</li><li>max: 149 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 78.05 tokens</li><li>max: 133 tokens</li></ul> |
201
+ * Samples:
202
+ | anchor | positive | negative |
203
+ |:----------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
204
+ | <code>Avustralya'ya özgü hangi meyve</code> | <code>Passiflora herbertiana. Avustralya'ya özgü nadir bir tutku meyvesi. Meyveler yeşil tenli, beyaz etli, bilinmeyen bir yenilebilir derecelendirmeye sahiptir. Bazı kaynaklar meyveyi yenilebilir, tatlı ve lezzetli olarak listelerken, diğerleri meyveleri acı ve yenemez olarak listeler. Avustralya'ya özgü nadir bir tutku meyvesi. Meyveler yeşil tenli, beyaz etli, bilinmeyen yenilebilir bir derecelendirmeye sahip. Bazı kaynaklar meyveyi tatlı olarak listeler.</code> | <code>Kola cevizi, Afrika'nın tropikal yağmur ormanlarına özgü bir ağaç cinsidir (Cola).</code> |
205
+ | <code>meyve ağaçları türleri</code> | <code>Kiraz. Kiraz ağaçları dünya çapında bulunur. Kirazdan siyah kiraza kadar değişen 40 veya daha fazla çeşit vardır. Meyve ile birlikte, kiraz ağaçları, son derece hoş kokulu hafif ve narin pembemsi-beyaz çiçekler üretir.Omments. Submit. Mülkünüze meyve ağaçları dikmek sadece size istikrarlı bir organik meyve kaynağı sağlamakla kalmaz, aynı zamanda bahçenizi güzelleştirmenizi ve oksijeni çevreye geri vermenizi sağlar.</code> | <code>Kola cevizi, Afrika'nın tropikal yağmur ormanlarına özgü bir ağaç cinsidir (Cola).</code> |
206
+ | <code>Harrison City Pa nerede yaşıyor?</code> | <code>Harrison City, Amerika Birleşik Devletleri'nin Pensilvanya eyaletinde yer alan Westmoreland County'de nüfus sayımına göre belirlenmiş bir yerdir. 2000 nüfus sayımında nüfus 155'tir.</code> | <code>En yakın şehirler: Vandling borough, PA (1.1 mil ), Simpson, PA (2.0 mil ), Union Dale borough, PA (2,1 mil ), Carbondale, PA (2,4 mil ), Waymart borough, PA (2,4 mil ), Mayfield borough, PA (2.9 mil ), Prompion borough, PA (2.9 mil ), Jermyn borough, PA (3.1 mil ).</code> |
207
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
208
+ ```json
209
+ {
210
+ "loss": "MultipleNegativesRankingLoss",
211
+ "matryoshka_dims": [
212
+ 1024
213
+ ],
214
+ "matryoshka_weights": [
215
+ 1
216
+ ],
217
+ "n_dims_per_step": -1
218
+ }
219
+ ```
220
+
221
+ ### Training Hyperparameters
222
+ #### Non-Default Hyperparameters
223
+
224
+ - `gradient_accumulation_steps`: 8
225
+ - `learning_rate`: 5e-06
226
+ - `num_train_epochs`: 1
227
+ - `lr_scheduler_type`: cosine
228
+ - `warmup_ratio`: 0.01
229
+ - `tf32`: True
230
+ - `optim`: adamw_torch_fused
231
+ - `batch_sampler`: no_duplicates
232
+
233
+ #### All Hyperparameters
234
+ <details><summary>Click to expand</summary>
235
+
236
+ - `overwrite_output_dir`: False
237
+ - `do_predict`: False
238
+ - `eval_strategy`: no
239
+ - `prediction_loss_only`: True
240
+ - `per_device_train_batch_size`: 8
241
+ - `per_device_eval_batch_size`: 8
242
+ - `per_gpu_train_batch_size`: None
243
+ - `per_gpu_eval_batch_size`: None
244
+ - `gradient_accumulation_steps`: 8
245
+ - `eval_accumulation_steps`: None
246
+ - `torch_empty_cache_steps`: None
247
+ - `learning_rate`: 5e-06
248
+ - `weight_decay`: 0.0
249
+ - `adam_beta1`: 0.9
250
+ - `adam_beta2`: 0.999
251
+ - `adam_epsilon`: 1e-08
252
+ - `max_grad_norm`: 1.0
253
+ - `num_train_epochs`: 1
254
+ - `max_steps`: -1
255
+ - `lr_scheduler_type`: cosine
256
+ - `lr_scheduler_kwargs`: {}
257
+ - `warmup_ratio`: 0.01
258
+ - `warmup_steps`: 0
259
+ - `log_level`: passive
260
+ - `log_level_replica`: warning
261
+ - `log_on_each_node`: True
262
+ - `logging_nan_inf_filter`: True
263
+ - `save_safetensors`: True
264
+ - `save_on_each_node`: False
265
+ - `save_only_model`: False
266
+ - `restore_callback_states_from_checkpoint`: False
267
+ - `no_cuda`: False
268
+ - `use_cpu`: False
269
+ - `use_mps_device`: False
270
+ - `seed`: 42
271
+ - `data_seed`: None
272
+ - `jit_mode_eval`: False
273
+ - `use_ipex`: False
274
+ - `bf16`: False
275
+ - `fp16`: False
276
+ - `fp16_opt_level`: O1
277
+ - `half_precision_backend`: auto
278
+ - `bf16_full_eval`: False
279
+ - `fp16_full_eval`: False
280
+ - `tf32`: True
281
+ - `local_rank`: 0
282
+ - `ddp_backend`: None
283
+ - `tpu_num_cores`: None
284
+ - `tpu_metrics_debug`: False
285
+ - `debug`: []
286
+ - `dataloader_drop_last`: False
287
+ - `dataloader_num_workers`: 0
288
+ - `dataloader_prefetch_factor`: None
289
+ - `past_index`: -1
290
+ - `disable_tqdm`: False
291
+ - `remove_unused_columns`: True
292
+ - `label_names`: None
293
+ - `load_best_model_at_end`: False
294
+ - `ignore_data_skip`: False
295
+ - `fsdp`: []
296
+ - `fsdp_min_num_params`: 0
297
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
298
+ - `fsdp_transformer_layer_cls_to_wrap`: None
299
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
300
+ - `deepspeed`: None
301
+ - `label_smoothing_factor`: 0.0
302
+ - `optim`: adamw_torch_fused
303
+ - `optim_args`: None
304
+ - `adafactor`: False
305
+ - `group_by_length`: False
306
+ - `length_column_name`: length
307
+ - `ddp_find_unused_parameters`: None
308
+ - `ddp_bucket_cap_mb`: None
309
+ - `ddp_broadcast_buffers`: False
310
+ - `dataloader_pin_memory`: True
311
+ - `dataloader_persistent_workers`: False
312
+ - `skip_memory_metrics`: True
313
+ - `use_legacy_prediction_loop`: False
314
+ - `push_to_hub`: False
315
+ - `resume_from_checkpoint`: None
316
+ - `hub_model_id`: None
317
+ - `hub_strategy`: every_save
318
+ - `hub_private_repo`: False
319
+ - `hub_always_push`: False
320
+ - `gradient_checkpointing`: False
321
+ - `gradient_checkpointing_kwargs`: None
322
+ - `include_inputs_for_metrics`: False
323
+ - `eval_do_concat_batches`: True
324
+ - `fp16_backend`: auto
325
+ - `push_to_hub_model_id`: None
326
+ - `push_to_hub_organization`: None
327
+ - `mp_parameters`:
328
+ - `auto_find_batch_size`: False
329
+ - `full_determinism`: False
330
+ - `torchdynamo`: None
331
+ - `ray_scope`: last
332
+ - `ddp_timeout`: 1800
333
+ - `torch_compile`: False
334
+ - `torch_compile_backend`: None
335
+ - `torch_compile_mode`: None
336
+ - `dispatch_batches`: None
337
+ - `split_batches`: None
338
+ - `include_tokens_per_second`: False
339
+ - `include_num_input_tokens_seen`: False
340
+ - `neftune_noise_alpha`: None
341
+ - `optim_target_modules`: None
342
+ - `batch_eval_metrics`: False
343
+ - `eval_on_start`: False
344
+ - `use_liger_kernel`: False
345
+ - `eval_use_gather_object`: False
346
+ - `batch_sampler`: no_duplicates
347
+ - `multi_dataset_batch_sampler`: proportional
348
+
349
+ </details>
350
+
351
+ ### Training Logs
352
+ | Epoch | Step | Training Loss |
353
+ |:------:|:-----:|:-------------:|
354
+ | 0.0348 | 500 | 0.2397 |
355
+ | 0.0696 | 1000 | 0.1117 |
356
+ | 0.1043 | 1500 | 0.1016 |
357
+ | 0.1391 | 2000 | 0.0992 |
358
+ | 0.1739 | 2500 | 0.0971 |
359
+ | 0.2087 | 3000 | 0.0913 |
360
+ | 0.2434 | 3500 | 0.087 |
361
+ | 0.2782 | 4000 | 0.0902 |
362
+ | 0.3130 | 4500 | 0.0858 |
363
+ | 0.3478 | 5000 | 0.0816 |
364
+ | 0.3826 | 5500 | 0.0895 |
365
+ | 0.4173 | 6000 | 0.0779 |
366
+ | 0.4521 | 6500 | 0.0796 |
367
+ | 0.4869 | 7000 | 0.0806 |
368
+ | 0.5217 | 7500 | 0.0861 |
369
+ | 0.5565 | 8000 | 0.0784 |
370
+ | 0.5912 | 8500 | 0.0687 |
371
+ | 0.6260 | 9000 | 0.0758 |
372
+ | 0.6608 | 9500 | 0.0787 |
373
+ | 0.6956 | 10000 | 0.0692 |
374
+ | 0.7303 | 10500 | 0.0748 |
375
+ | 0.7651 | 11000 | 0.074 |
376
+ | 0.7999 | 11500 | 0.0728 |
377
+ | 0.8347 | 12000 | 0.0739 |
378
+ | 0.8695 | 12500 | 0.0685 |
379
+ | 0.9042 | 13000 | 0.0748 |
380
+ | 0.9390 | 13500 | 0.074 |
381
+ | 0.9738 | 14000 | 0.0693 |
382
+
383
+
384
+ ### Framework Versions
385
+ - Python: 3.10.12
386
+ - Sentence Transformers: 3.1.1
387
+ - Transformers: 4.45.2
388
+ - PyTorch: 2.5.1+cu121
389
+ - Accelerate: 1.2.1
390
+ - Datasets: 3.2.0
391
+ - Tokenizers: 0.20.3
392
+
393
+ ## Citation
394
+
395
+ ### BibTeX
396
+
397
+ #### Sentence Transformers
398
+ ```bibtex
399
+ @inproceedings{reimers-2019-sentence-bert,
400
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
401
+ author = "Reimers, Nils and Gurevych, Iryna",
402
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
403
+ month = "11",
404
+ year = "2019",
405
+ publisher = "Association for Computational Linguistics",
406
+ url = "https://arxiv.org/abs/1908.10084",
407
+ }
408
+ ```
409
+
410
+ #### MatryoshkaLoss
411
+ ```bibtex
412
+ @misc{kusupati2024matryoshka,
413
+ title={Matryoshka Representation Learning},
414
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
415
+ year={2024},
416
+ eprint={2205.13147},
417
+ archivePrefix={arXiv},
418
+ primaryClass={cs.LG}
419
+ }
420
+ ```
421
+
422
+ #### MultipleNegativesRankingLoss
423
+ ```bibtex
424
+ @misc{henderson2017efficient,
425
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
426
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
427
+ year={2017},
428
+ eprint={1705.00652},
429
+ archivePrefix={arXiv},
430
+ primaryClass={cs.CL}
431
+ }
432
+ ```
433
+
434
+ <!--
435
+ ## Glossary
436
+
437
+ *Clearly define terms in order to be accessible across audiences.*
438
+ -->
439
+
440
+ <!--
441
+ ## Model Card Authors
442
+
443
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
444
+ -->
445
+
446
+ <!--
447
+ ## Model Card Contact
448
+
449
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
450
+ -->
config.json ADDED
@@ -0,0 +1,28 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "intfloat-fine-tuned",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 4096,
15
+ "layer_norm_eps": 1e-05,
16
+ "max_position_embeddings": 514,
17
+ "model_type": "xlm-roberta",
18
+ "num_attention_heads": 16,
19
+ "num_hidden_layers": 24,
20
+ "output_past": true,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "torch_dtype": "float32",
24
+ "transformers_version": "4.45.2",
25
+ "type_vocab_size": 1,
26
+ "use_cache": true,
27
+ "vocab_size": 250002
28
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.1.1",
4
+ "transformers": "4.45.2",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": null
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f9259071a3bfe4918bade08aed04c201558d4a92b614374d45b835538ba3c386
3
+ size 2239607176
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": [],
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": true,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "mask_token": "<mask>",
50
+ "max_length": 512,
51
+ "model_max_length": 512,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }