gmunkhtur commited on
Commit
3ff4395
·
verified ·
1 Parent(s): a68efd1

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,659 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:14380
8
+ - loss:MatryoshkaLoss
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: sentence-transformers/paraphrase-multilingual-mpnet-base-v2
11
+ widget:
12
+ - source_sentence: Ямар ямар шагнал, одон медаль хүртсэн бэ?
13
+ sentences:
14
+ - (2006) Гонгорын Хайдав ;Монгол улсын Төрийн соёрхолт Төрийн шагналт (1975), Ардын
15
+ уран зохиолч (1997) Сормууниршийн Дашдооров Урлагийн гавъяат зүтгэлтэн (1971),
16
+ Төрийн шагналт (1985) кино зураглаач Ойдовын Уртнасан Төрийн шагналт, зохиолч
17
+ Дарма Батбаяр (1998) ;Монгол улсын Ардын цолтон Гавьяат жүжигчин (1961), Ардын
18
+ жүжигчин (1977), Хөдөлмөрийн баатар (2006) Гонгорын Хайдав Төрийн шагналт (1975),
19
+ Ардын уран зохиолч (1997) Сормууниршийн Дашдооров Урлагийн гавьяат зүтгэлтэн (1964),
20
+ Ардын зураач Цэрэнжавын Доржпалам Монгол улсын Ардын Багш Далхсүрэнгийн Төмөр,
21
+ Монгол улсын Ардын Жүжигчин Адилбишийн Дашпэлжээ Монгол Улсын Ардын жүжигчин Адилбишийн
22
+ Нэргүй,Н.Норовбанзадын анхны шавь. ;Монгол улсын Гавьяатнууд Гавьяат алдарт зохиолч,
23
+ яруу найрагч Сономбалжирын Буяннэмэх (1935) Урлагийн гавьяат зүтгэлтэн (1964),
24
+ Ардын зураач Цэрэнжавын Доржпалам Хүний гавьяат эмч Будын Хас (1971 - Ардын зураач
25
+ Ц. Доржпаламын төрсөн ах) Гавьяат жүжигчин, балетчин Юндэндоогийн Цэрмаа (1973)
26
+ Гавьяат жүжигчин,
27
+ - 'олон түмний ажил", "Үнэн" сонин, 1986 (өгүүлэл) *"Монгол суртал" "Үнэн" сонин,
28
+ 1991 (өгүүлэл) *"Монгол ариншин" Улаанбаатар хот, 1992 /ном/ *1990-1992 онд Монголын
29
+ нийгмийн улс төрийн шинэчлэл, зах зээлийн сэдвээр туурвисан хамтын бүтээлүүд *1992-1997
30
+ онд Үндэсний баяр, улс тунхагласны ойн хурал, эрдэм шинжилгээний хурлуудад тавьсан
31
+ улс төр, судалгааны илтгэлүүд /илтгэлүүд/ *Ерөнхийлөгч: Шинэ зууны өмнөх бодомж,
32
+ санамж, Улаанбаатар хот 1998 /ном/ *Ерөнхийлөгчийн бодлого, сэтгэл. Улаанбаатар
33
+ хот 2000 /ном/ == Сонгуульт ажил == *1980-1984 Төв аймгийн Ардын хурлын депутат
34
+ *1990-1992 МАХН-ын Төв Хорооны тэргүүлэгч гишүүн *1992-1996 МАХН-ын Бага хурлын
35
+ гишүүн, МАХН-ын удирдах зөвлөлийн гишүүн *1992-1997 Улсын Их Хурлын гишүүн *1997
36
+ оны 2-6 дугаар сар МАХН-ын дарга /МАХН-ын ХХП их хурлаас/ == Шагнал, алдар цол
37
+ == * 1991 Ардын хувьсгалын 70 жилийн ойн хүндэт медаль * 2000.4.19 ОХУ-ын Ерөнхийлөгчийн
38
+ зарлигаар "Найрамдал" одонгоор / Орден Дружбы / * 2006 онд Сүхбаатарын одонгоор
39
+ * 2005 онд'
40
+ - үслэг эдлэлийн зөөлөн болон эрдэсшсэн үлдэгдлүүд олдсон. Үүний зэрэгцээ усан болор,
41
+ шилэн сувс, хуван эдлэл зэргийг илрүүлэн олсон нь олон улсын худалдаа солилцоонд
42
+ хүннүчүүд идэвхтэй оролцож байсныг гэрчилнэ. Мөн хүннүчүүдийн оюуны соёлын гайхамшигт
43
+ дурсгал болох хөлөгт тоглоом, Хүннүгийн амьтны загварт урлагийн содон дүрслэл
44
+ болох бэлгэт гөрөөс буюу ганц эвэрт домгийн амьтны дүрст алт шармал мөнгөн хөөмөл
45
+ хударга, хөмөлдрөгийн чимэглэл зэрэг зүйлс олджээ. Ангилал:Азийн гол мөрөн Ангилал:Монголын
46
+ гол мөрөн Ангилал:Архангай аймгийн гол мөрөн
47
+ - source_sentence: Чуулгад ямар ямар байгууллагуудыг байгуулжээ?
48
+ sentences:
49
+ - 'чуулгад, цэргийн жанжны газар, засаг ба засаг бус ван, гүн, хамба цорж, эрдэнэ
50
+ шанзодва, хутагт хувилгаад, тушаалтан лам түшмэдийн газар хийсгэхээр болгосон
51
+ байна. Бас Богдын Засгийн газраас уул тугийг албан газраас гадна айл бүр хийсгэж
52
+ болохыг зөвшөөрөн, далбааны үсэг, ном зэргийн бар сийлүүлж дарж өгч байхыг тусгайлан
53
+ заасан нь буй. Чингэснээр тухайн үед энэ далбааг төр, шашныг мандуулахын бэлгэдэл
54
+ хэмээн шүтэн биширч байв. 150px Бүгд Найрамдах Монгол Ард Улсын далбаа 1924-1940
55
+ онМонгол Улсын Үндсэн хууль 1924, 1940, 1960, 1992 МОНГОЛ УЛСЫН ИХ ХУРЛЫН ТАМГЫН
56
+ ГАЗАР ©2017. 1924 онд батлагдсан Улсын Анхдугаар Үндсэн хуулийн 49 дүгээр зүйлд
57
+ БНМАУ-ын төрийн далбааг тодорхойлж бичихдээ: “Улсын туг, далбааг улаан өнгөтэй
58
+ бөгөөд дунд нь улсын сүлд тэмдгийг оруулан үйлдүүлж гүйцэтгүүлбэл зохино” хэмээжээ.
59
+ 150px Бүгд Найрамдах Монгол Ард Улсын далбаа 1940-1945 он 1940 онд БНМАУ-ын 8
60
+ дугаар Их Хурлаар баталсан Шинэ Үндсэн хуулийн 93 дугаар зүйлд “БНМАУ-ын туг нь
61
+ 1:2 хэмжээний улаан өнгийн'
62
+ - Төгсцогт * Очирбатын Насанбурмаа ===Урлагийн алдартнууд === *Д.Энхжаргал Монгол
63
+ Улсын "СТА", Алдарт "Сirque Du Soleil"-ийн "O"Show дахь "Уран Нугараач" * Цэндийн
64
+ Батчулуун, нэрт хөгжмийн удирдаач, МУАЖ, "Морин хуур" чуулгын даргаар ажиллаж
65
+ байв. *Тангадын Мандир, зураач, түүхч *Болдын Сэргэлэн, балетчин, ДБЭТ-н даргаар
66
+ ажиллаж байсан ====Дуучид ==== *Батмөнхийн Сарантуяа, МУГЖ, Зууны манлай эстрадын
67
+ дуучин * Төмөрийн Ариунаа - МУГЖ * Б.Батчулуун, Никитон хамтлагийн ахлагч, СГЗ
68
+ * Т.Бат-Оргил, монголын анхны кантри-рок дуучин * Хайдавын Төмөрбаатар, МУГЖ,
69
+ Баянмонгол чуулга * Бавуудоржийн Тунгалаг, уртын болон нийтийн дуучин, МУГЖ Н.Ононы
70
+ "Бүүвэйн дуу"-г сэргээн дуулжээ. ====Хөгжмийн зохиолчид ==== *Лувсанжамбын Мөрдорж
71
+ * Б.Долгион, хөгжмийн зохиолч, СГЗ * Б.Ангирмаа, хөгжмийн зохиолч, продюссер ====Жүжигчид,
72
+ найруулагчид ==== * Цэгмидийн Төмөрбаатар, МУГЖ * Цэгмидийн Төмөрхуяг, "Мөнх тэнгэрийн
73
+ хүчин дор" киноны Сэнгүмд тогложээ. * Намсрайн Сувд, МУАЖ * Дамбын Батсүх тайз,
74
+ дэлгэц, хошин
75
+ - муж (/Дэлгэрхангай, Хулд, Луус, Гурвансайхан, Өндөршил сумын хойд хэсэг, Сайхан-Овоо,
76
+ Сайнцагаан, Говь-Угтаал, Цагаандэлгэр, Баянжаргалан сумдын нутаг), нэн хуурай
77
+ дулаан, цөлөрхөг хээрийн муж (Дэлгэрхангай, Хулд, Гурвансайхан сумдын урд хэсэг,
78
+ Өлзийт сумын нутаг) гэж 3 хуваадаг. Агаарын температурын дундаж хэмжээ өвлийн
79
+ сард – 16-19 хэм, зуны сард +17-21 хэм, жилд орох хур тундасны хэмжээ 95-150 мм.
80
+ === Амьтан ургамал === Нутгийн хойд ба төв хэсгээр хээрийн хар хүрэн, цайвар хүрэн
81
+ хөрс, өмнөд хэсгээр нь говийн саарал хөрс тархжээ. Нутгийн хойд ба дунд хэсгээр
82
+ хээрийн өвслөг ургамал, урд хэсгээр нь говийн ургамал ургана. Хар сүүлт, цагаан
83
+ зээр, тарвага зэрэг ан амьтан амьдардаг. Нутгийн уулархаг газраар нь ирвэс, шилүүс,
84
+ чоно, аргал, янгир нүүдэллэн амьдардаг байна. == Хүн ам зүй == === Статистик мэдээ
85
+ === Дундговь аймгийн хүн амын тоо болон Улсын хэмжээнд эзлэх байр жилийн эцсийн
86
+ байдлаар. ("Статистикийн мэдээллийн нэгдсэн сан"-аас) *1944 онд 27,582 хүн, улсын
87
+ хэмжээнд 16-р байр *
88
+ - source_sentence: Хайдавын Төмөрбаатар аль чуулгад дуулдаг байв?
89
+ sentences:
90
+ - 4G LTE гар утасны холбоо нэвтэрсэн нь хотын иргэдийг дэлхийн аль ч өндөр хөгжилтэй
91
+ хотын адилаар өндөр хурдны интернэтээр хөдөлгөөнт байдлаар харилцах боломжийг
92
+ олгосон байна. == Шинжлэх ухаан технологи == Орчин үед хувийн компаниуд ба их
93
+ сургуулиуд Улаанбаатарт өөрсдийн ба гадны дэмжлэгтэй судалгаа туршилтуудыг эрчимтэй
94
+ хөгжүүлж импортыг орлох бүтээгдхүүн үйлдвэрллийг эрчимтэй хөгжүүлж байна. Нарны
95
+ зайн шинэ технологийн үйлдвэр, цахилгаан станцын системийн удирдлагыг дотооддоо
96
+ бүрэн бүтээх ажилууд 2011-2013 онуудад хувийн компаниудын оролцоотойгоор амжилттай
97
+ хийгдэж Монголын шинжлэх ухаан технологийн хөгжлийг дэлхийн түвшинд ойртуулсан
98
+ алхмууд хийгдэж байна. Улаанбаатар дахь 100 орчим их дээд сургуулиуд нь судалгаа
99
+ шинжилгээг хөгжүүлэх нийгэм эдийн засгийн дэвшлийг хангах гол түшиц болж төсөл
100
+ хөгжүүлэлтийн ажилууд хийгдэж байна. 2013 оноос имбэдэд системийн үйлдвэрллийн
101
+ эхний суурь Улаанбаатар дахь мэдээллийн технологийн салбарт тавигдлаа. 2016 оноос
102
+ 4G гар утасны холболт
103
+ - Төгсцогт * Очирбатын Насанбурмаа ===Урлагийн алдартнууд === *Д.Энхжаргал Монгол
104
+ Улсын "СТА", Алдарт "Сirque Du Soleil"-ийн "O"Show дахь "Уран Нугараач" * Цэндийн
105
+ Батчулуун, нэрт хөгжмийн удирдаач, МУАЖ, "Морин хуур" чуулгын даргаар ажиллаж
106
+ байв. *Тангадын Мандир, зураач, түүхч *Болдын Сэргэлэн, балетчин, ДБЭТ-н даргаар
107
+ ажиллаж байсан ====Дуучид ==== *Батмөнхийн Сарантуяа, МУГЖ, Зууны манлай эстрадын
108
+ дуучин * Төмөрийн Ариунаа - МУГЖ * Б.Батчулуун, Никитон хамтлагийн ахлагч, СГЗ
109
+ * Т.Бат-Оргил, монголын анхны кантри-рок дуучин * Хайдавын Төмөрбаатар, МУГЖ,
110
+ Баянмонгол чуулга * Бавуудоржийн Тунгалаг, уртын болон нийтийн дуучин, МУГЖ Н.Ононы
111
+ "Бүүвэйн дуу"-г сэргээн дуулжээ. ====Хөгжмийн зохиолчид ==== *Лувсанжамбын Мөрдорж
112
+ * Б.Долгион, хөгжмийн зохиолч, СГЗ * Б.Ангирмаа, хөгжмийн зохиолч, продюссер ====Жүжигчид,
113
+ найруулагчид ==== * Цэгмидийн Төмөрбаатар, МУГЖ * Цэгмидийн Төмөрхуяг, "Мөнх тэнгэрийн
114
+ хүчин дор" киноны Сэнгүмд тогложээ. * Намсрайн Сувд, МУАЖ * Дамбын Батсүх тайз,
115
+ дэлгэц, хошин
116
+ - таарах шинжтэй ба энэ нутагт зөвхөн нуурын дундах толгойд болон Уран мандал ууланд
117
+ л Санхам гэдэг ургамал ургадаг аж. ==Цахим холбоос== Ангилал:Азийн нуур Ангилал:Монголын
118
+ нуур Ангилал:Архангай аймгийн нуур Ангилал:Монгол дахь Рамсарын ус, намгархаг
119
+ газар
120
+ - source_sentence: Занабазар Соёмбо үсгийг хэдэн онд зохиосон бэ?
121
+ sentences:
122
+ - уулзсан бөгөөд тэр гурав ардчилсан хөдөлгөөн байгуулахаар тохиролцож, энэ тухай
123
+ нууцаар залуучуудад зар тараахаар болжээ. Тэр гурав бусад арван залуусын хамт
124
+ хожмоо Монголын ардчилсан хувьсгалын арван гурван удирдагч гэж нэрлэгдэх болсон
125
+ юм. Тэр үед Элбэгдорж "Улаан Од" сонины сурвалжлагчаар ажиллаж байсан бөгөөд Залуучуудын
126
+ эвлэлийн их хуралд оролцсоны дараа ажилдаа ирэх үед нь Элбэгдоржийн "буруу үйлдэл"-ийн
127
+ тухай хурлын даргын үг аль хэдийнээ сонинд нь хүрсэн байв. Тус сонины эрхлэгч
128
+ Элбэгдоржийг ажлын гадуур ямар нэг үйл ажиллагаанд оролцож, коммунист, социалист
129
+ чиг шугамаас гажсан зүйл хийвэл ажлаас нь хална гэж сануулжээ. Тухайн үед Монгол
130
+ дахь цорын ганц залуучуудын байгууллага байсан Монголын Залуучуудын Эвлэл нь Монгол
131
+ Ардын Хувьсгалт Нам (МАХН)-ын харъяа байгууллага байв. Анхааруулга авсан хэдий
132
+ ч Ц.Элбэгдорж ба түүний нөхөд бусад залуустай Монгол Улсын Их сургуулийн дугуй
133
+ танхимд нууцаар цугларч, тухайн үеийн хаалттай сэдэв болох ардчилал, чөлөөт зах
134
+ зээлийн тухай юу
135
+ - төв юм. Түгжрэл утаа маш ихтэй. == Нэр == 1639 онд Ширээт нуурын газар Занабазарыг
136
+ шашны тэргүүнд өргөмжилж орд өргөө барьсан нь өргөжсөөр Улаанбаатар болжээ. Түүхэндээ
137
+ хэдэн нэрийг үдсэн. 1639 оноос Өргөө (), 1651 оноос Номын хүрээ (), 1706 оноос
138
+ Их хүрээ (), 1912 оноос Нийслэл хүрээ () хэмээж байгаад 1924 оноос хойш Улаанбаатар
139
+ () гэв.МОНГОЛ УЛСЫН НИЙСЛЭЛ УЛААНБААТАР ХОТЫН ТҮҮХ XX зууны эхэнд Улаанбаатар
140
+ хотыг Богдын хүрээ, Да хүрээ, Хүрээ () гэхэд ойлгодог байсан. Одоо үед хотын нэрийг
141
+ УБ, Нийслэл, Хот гэж товчлон ярихад тодорхой танина. Өрнө дахин дахь орнууд, түүний
142
+ дотор оросууд 1924 он хүртэл Улаанбаатар хотыг Урга (Urga) (Өргөө гэсэн үгнээс)
143
+ гэж нэрлэж байсан. 1925 оноос хойш Оросоор Улан-Батор (Ulan Bator) гэж нэрлэх
144
+ болсон. Англи хэлэнд Ulan-Bator гэсэн хэлбэр түгээмэл хэрэглэгддэг байсан ч орчин
145
+ цагт Ulaanbaatar гэсэн хэлбэр түгээмэл болж байна. == Түүх == === Урьд үе ===
146
+ Монголын нууц товчоонд тэмдэглэснээр «12-р зууны хоёрдугаар хагаст Хэрэйд аймгийн
147
+ удирдагч Ван ханы
148
+ - эхэн сарын 14-ний өдөр учир битүүлэгээр таалал төгсөв. Түүний шарилыг эхлээд Их
149
+ хүрээнд, дараа нь "Амарбаясгалант хийдэд" байрлуулав. Энэ нь Чин улсын Найралт
150
+ төв хааны тушаалаар 1726 онд байгуулсан хийд юм. II Богд гэгээн нь Занабазарын
151
+ ач, мөн Түшээт ханы гэр бүлээс тодорчээ. ===Шашны үйл ажиллагаа, Халхад хийд байгуулсан
152
+ нь=== *Түвдээс Занабазар эх орондоо ирээд Эрдэнэзуугийн сургуультай холбоотой
153
+ хийдийн ойролцоо амьдрахыг хүсэхгүй байгаагаа зарлаж, нүүдлийн хийд Их хүрээг
154
+ байгуулж 7 аймгийг харьяалж байв. Нүүдлийн хийд нэг газраас нөгөө газарт нүүдэлсээр
155
+ эцэст нь Халхын нийслэл болов. Мөн Халхад ирснийхээ дараа тэр Базардара-хүрээг
156
+ Табун-идзаагурт байгуулав. *1654 онд Хэнтийн ууланд (одоогийн Төв аймагт) Занабазар
157
+ Рэбугежээгандан-шадувлин-номын их-хүрээг байгуулав. *1654 онд Шивээт уул (одоогийн
158
+ Өвөрхангай аймагт) 19 настай Занабазар "Аз жаргалтай ганцаардлын хийд, өндөр Гэгээний
159
+ урлан" (Төвхөн хийд) өөрийн урлангаа байгуулав. ===Соёмбо үсгийг зохиосон нь===
160
+ 1686 онд Занабазар
161
+ - source_sentence: “Онцлох өгүүлэл” ангилалд ямар өгүүлэл багтаж байна вэ?
162
+ sentences:
163
+ - '*Замын-Үүд сум *Иххэт сум *Мандах сум *Өргөн сум *Сайхандулаан сум *Сайншанд
164
+ сум *Улаанбадрах сум *Хатанбулаг сум *Хөвсгөл сум *Эрдэнэ сум ==Цахим холбоос==
165
+ * Дорноговь аймгийн албан ёсны цахим хуудас * Дорноговь аймгийн хараат бус мэдээллийн
166
+ портал цахим хуудас ==Эшлэл== Ангилал:Википедиа:Онцлох өгүүлэл Ангилал:Монголын
167
+ аймаг !'
168
+ - Чулуутын хавцал Архангай аймаг нь Монгол Улсын 21 аймгийн нэг. Аймгийн төв нь
169
+ Цэцэрлэг хот юм. == Газар зүй == Далайн төвшнөөс дээш дунджаар 2414 метр. Хамгийн
170
+ өндөр цэг нь 3539 метр өндөр Харлагтайн сарьдаг уул. Хамгийн нам дор цэг нь 1290
171
+ метр өндөр Орхон Тамирын бэлчир юм. Хойд талаараа Хөвсгөл аймагтай, зүүн талаараа
172
+ Булган аймагтай, өмнө талаараа Өвөрхангай аймагтай, баруун хойд талаараа Завхан
173
+ аймагтай тус тус хиллэдэг. Дийлэнхдээ ойт хээр, тал хээр нутагтай, баруун урдуур
174
+ нь Хангайн нуруу, баруун хойгуур нь түүний салбар болох Тарвагатайн нуруу оршдог
175
+ ба зүүн болон төв хэсгээр тэдгээрээс эх авсан Орхон, Хануй, Тамир, Чулуут зэрэг
176
+ томоохон голууд урсдаг. Энэ нутаг нь аялал жуулчлалын нэгэн чухал газар бөгөөд
177
+ Өгий, Тэрхийн цагаан зэрэг нуур болон Хорго, Тайхар чулуу зэрэг галт уулын тогтцоороо
178
+ олны анхаарлыг татдаг. === Уур амьсгал === Цэцэрлэг хотод агаарын дундаж температур
179
+ нь жилд 0.1 бөгөөд, өвөл 1-р сард -15.6 хэм хүйтэн, зун нь 7-р сард 14.7 хэм дулаан
180
+ байдаг. Хангайн нуруу
181
+ - танхимд нууцаар цугларч, тухайн үеийн хаалттай сэдэв болох ардчилал, чөлөөт зах
182
+ зээлийн тухай юу мэдэхээ хэлэлцэн ярилцаж, ардчилсан хөдөлгөөн зохион байгуулах
183
+ төлөвлөгөө зохиож эхэлжээ. Тэд олон удаа уулзаж, шинэ найз нөхөд, шинэ дэмжигчдийг
184
+ өөрсөдтэйгээ нэгдүүлэхээр дагуулж ирж байв. Нэг шөнө тэд нээлттэй цуглаан зохион
185
+ байгуулах тухай зарлалаа гудамжинд шонгийн моднууд дээр наасан байв.260px|Зэвсэгт
186
+ хүчний Ерөнхий командлагч Цахиагийн Элбэгдорж 1989 оны 12 дугаар сарын 10-ны өглөө
187
+ Монголын Залуучуудын Эвлэлийн байрны өмнө ардчиллын төлөө анхны олон нийтийн цуглаан
188
+ болов. Хүмүүс цугларахад тус цуглааныг зохион байгуулагчдын нэг Элбэгдoрж микрофон
189
+ аваад, Монголд Ардчилсан хөдөлгөөн байгуулагдаж байгааг зарлан тунхагласан. Тус
190
+ хөдөлгөөнөөс удалгүй Ардчилсан Холбоо байгуулагдав. Ардчилсан Холбоо нь Монголын
191
+ анхны төрийн бус ардчилсан байгууллага бөгөөд Элбэгдорж үндэслэн байгуулагчдын
192
+ нь нэг юм. Тухайн үеийн Монголын төрийн дээд гүйцэтгэх байгууллага болох МАХН-ын
193
+ Улс Төрийн Товчооны
194
+ pipeline_tag: sentence-similarity
195
+ library_name: sentence-transformers
196
+ metrics:
197
+ - cosine_accuracy@1
198
+ - cosine_accuracy@3
199
+ - cosine_accuracy@5
200
+ - cosine_accuracy@10
201
+ - cosine_precision@1
202
+ - cosine_precision@3
203
+ - cosine_precision@5
204
+ - cosine_precision@10
205
+ - cosine_recall@1
206
+ - cosine_recall@3
207
+ - cosine_recall@5
208
+ - cosine_recall@10
209
+ - cosine_ndcg@10
210
+ - cosine_mrr@10
211
+ - cosine_map@100
212
+ model-index:
213
+ - name: SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
214
+ results:
215
+ - task:
216
+ type: information-retrieval
217
+ name: Information Retrieval
218
+ dataset:
219
+ name: Unknown
220
+ type: unknown
221
+ metrics:
222
+ - type: cosine_accuracy@1
223
+ value: 0.3741682974559687
224
+ name: Cosine Accuracy@1
225
+ - type: cosine_accuracy@3
226
+ value: 0.5628180039138944
227
+ name: Cosine Accuracy@3
228
+ - type: cosine_accuracy@5
229
+ value: 0.6219178082191781
230
+ name: Cosine Accuracy@5
231
+ - type: cosine_accuracy@10
232
+ value: 0.6900195694716242
233
+ name: Cosine Accuracy@10
234
+ - type: cosine_precision@1
235
+ value: 0.3741682974559687
236
+ name: Cosine Precision@1
237
+ - type: cosine_precision@3
238
+ value: 0.18760600130463143
239
+ name: Cosine Precision@3
240
+ - type: cosine_precision@5
241
+ value: 0.1243835616438356
242
+ name: Cosine Precision@5
243
+ - type: cosine_precision@10
244
+ value: 0.06900195694716243
245
+ name: Cosine Precision@10
246
+ - type: cosine_recall@1
247
+ value: 0.3741682974559687
248
+ name: Cosine Recall@1
249
+ - type: cosine_recall@3
250
+ value: 0.5628180039138944
251
+ name: Cosine Recall@3
252
+ - type: cosine_recall@5
253
+ value: 0.6219178082191781
254
+ name: Cosine Recall@5
255
+ - type: cosine_recall@10
256
+ value: 0.6900195694716242
257
+ name: Cosine Recall@10
258
+ - type: cosine_ndcg@10
259
+ value: 0.5333084564593825
260
+ name: Cosine Ndcg@10
261
+ - type: cosine_mrr@10
262
+ value: 0.48312412636287394
263
+ name: Cosine Mrr@10
264
+ - type: cosine_map@100
265
+ value: 0.49147031949485204
266
+ name: Cosine Map@100
267
+ ---
268
+
269
+ # SentenceTransformer based on sentence-transformers/paraphrase-multilingual-mpnet-base-v2
270
+
271
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
272
+
273
+ ## Model Details
274
+
275
+ ### Model Description
276
+ - **Model Type:** Sentence Transformer
277
+ - **Base model:** [sentence-transformers/paraphrase-multilingual-mpnet-base-v2](https://huggingface.co/sentence-transformers/paraphrase-multilingual-mpnet-base-v2) <!-- at revision 75c57757a97f90ad739aca51fa8bfea0e485a7f2 -->
278
+ - **Maximum Sequence Length:** 128 tokens
279
+ - **Output Dimensionality:** 768 dimensions
280
+ - **Similarity Function:** Cosine Similarity
281
+ <!-- - **Training Dataset:** Unknown -->
282
+ <!-- - **Language:** Unknown -->
283
+ <!-- - **License:** Unknown -->
284
+
285
+ ### Model Sources
286
+
287
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
288
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
289
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
290
+
291
+ ### Full Model Architecture
292
+
293
+ ```
294
+ SentenceTransformer(
295
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
296
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
297
+ )
298
+ ```
299
+
300
+ ## Usage
301
+
302
+ ### Direct Usage (Sentence Transformers)
303
+
304
+ First install the Sentence Transformers library:
305
+
306
+ ```bash
307
+ pip install -U sentence-transformers
308
+ ```
309
+
310
+ Then you can load this model and run inference.
311
+ ```python
312
+ from sentence_transformers import SentenceTransformer
313
+
314
+ # Download from the 🤗 Hub
315
+ model = SentenceTransformer("gmunkhtur/finetuned_paraphrase-multilingual_mpnet")
316
+ # Run inference
317
+ sentences = [
318
+ '“Онцлох өгүүлэл” ангилалд ямар өгүүлэл багтаж байна вэ?',
319
+ '*Замын-Үүд сум *Иххэт сум *Мандах сум *Өргөн сум *Сайхандулаан сум *Сайншанд сум *Улаанбадрах сум *Хатанбулаг сум *Хөвсгөл сум *Эрдэнэ сум ==Цахим холбоос== * Дорноговь аймгийн албан ёсны цахим хуудас * Дорноговь аймгийн хараат бус мэдээллийн портал цахим хуудас ==Эшлэл== Ангилал:Википедиа:Онцлох өгүүлэл Ангилал:Монголын аймаг !',
320
+ 'танхимд нууцаар цугларч, тухайн үеийн хаалттай сэдэв болох ардчилал, чөлөөт зах зээлийн тухай юу мэдэхээ хэлэлцэн ярилцаж, ардчилсан хөдөлгөөн зохион байгуулах төлөвлөгөө зохиож эхэлжээ. Тэд олон удаа уулзаж, шинэ найз нөхөд, шинэ дэмжигчдийг өөрсөдтэйгээ нэгдүүлэхээр дагуулж ирж байв. Нэг шөнө тэд нээлттэй цуглаа�� зохион байгуулах тухай зарлалаа гудамжинд шонгийн моднууд дээр наасан байв.260px|Зэвсэгт хүчний Ерөнхий командлагч Цахиагийн Элбэгдорж 1989 оны 12 дугаар сарын 10-ны өглөө Монголын Залуучуудын Эвлэлийн байрны өмнө ардчиллын төлөө анхны олон нийтийн цуглаан болов. Хүмүүс цугларахад тус цуглааныг зохион байгуулагчдын нэг Элбэгдoрж микрофон аваад, Монголд Ардчилсан хөдөлгөөн байгуулагдаж байгааг зарлан тунхагласан. Тус хөдөлгөөнөөс удалгүй Ардчилсан Холбоо байгуулагдав. Ардчилсан Холбоо нь Монголын анхны төрийн бус ардчилсан байгууллага бөгөөд Элбэгдорж үндэслэн байгуулагчдын нь нэг юм. Тухайн үеийн Монголын төрийн дээд гүйцэтгэх байгууллага болох МАХН-ын Улс Төрийн Товчооны',
321
+ ]
322
+ embeddings = model.encode(sentences)
323
+ print(embeddings.shape)
324
+ # [3, 768]
325
+
326
+ # Get the similarity scores for the embeddings
327
+ similarities = model.similarity(embeddings, embeddings)
328
+ print(similarities.shape)
329
+ # [3, 3]
330
+ ```
331
+
332
+ <!--
333
+ ### Direct Usage (Transformers)
334
+
335
+ <details><summary>Click to see the direct usage in Transformers</summary>
336
+
337
+ </details>
338
+ -->
339
+
340
+ <!--
341
+ ### Downstream Usage (Sentence Transformers)
342
+
343
+ You can finetune this model on your own dataset.
344
+
345
+ <details><summary>Click to expand</summary>
346
+
347
+ </details>
348
+ -->
349
+
350
+ <!--
351
+ ### Out-of-Scope Use
352
+
353
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
354
+ -->
355
+
356
+ ## Evaluation
357
+
358
+ ### Metrics
359
+
360
+ #### Information Retrieval
361
+
362
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
363
+
364
+ | Metric | Value |
365
+ |:--------------------|:-----------|
366
+ | cosine_accuracy@1 | 0.3742 |
367
+ | cosine_accuracy@3 | 0.5628 |
368
+ | cosine_accuracy@5 | 0.6219 |
369
+ | cosine_accuracy@10 | 0.69 |
370
+ | cosine_precision@1 | 0.3742 |
371
+ | cosine_precision@3 | 0.1876 |
372
+ | cosine_precision@5 | 0.1244 |
373
+ | cosine_precision@10 | 0.069 |
374
+ | cosine_recall@1 | 0.3742 |
375
+ | cosine_recall@3 | 0.5628 |
376
+ | cosine_recall@5 | 0.6219 |
377
+ | cosine_recall@10 | 0.69 |
378
+ | **cosine_ndcg@10** | **0.5333** |
379
+ | cosine_mrr@10 | 0.4831 |
380
+ | cosine_map@100 | 0.4915 |
381
+
382
+ <!--
383
+ ## Bias, Risks and Limitations
384
+
385
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
386
+ -->
387
+
388
+ <!--
389
+ ### Recommendations
390
+
391
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
392
+ -->
393
+
394
+ ## Training Details
395
+
396
+ ### Training Dataset
397
+
398
+ #### Unnamed Dataset
399
+
400
+
401
+ * Size: 14,380 training samples
402
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
403
+ * Approximate statistics based on the first 1000 samples:
404
+ | | sentence_0 | sentence_1 |
405
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
406
+ | type | string | string |
407
+ | details | <ul><li>min: 9 tokens</li><li>mean: 17.65 tokens</li><li>max: 42 tokens</li></ul> | <ul><li>min: 30 tokens</li><li>mean: 126.06 tokens</li><li>max: 128 tokens</li></ul> |
408
+ * Samples:
409
+ | sentence_0 | sentence_1 |
410
+ |:---------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
411
+ | <code>Дорноговь аймаг хэдэн онд байгуулагдсан бэ?</code> | <code>Дорноговь (монгол бичгээр – дорунагоби) аймаг нь Монгол Улсын зүүн аймаг бөгөөд 1931 онд байгуулагдсан. 2017 оны эцсээр 14 сум, 64 баг, 68606 хүн амтай бөгөөд олон хүн амын тоо хурдацтай нэмэгдэж байгаа юм. Аймгийн төв Сайншанд сум нь улсын нийслэл Улаанбаатар хотоос 450км-т оршдог. Дорноговь аймаг Монгол орны зүүн өмнөд хязгаарт Өмнөговь, Дундговь, Говьсүмбэр, Хэнтий, Сүхбаатар аймгуудтай хил залган оршдог. БНХАУ-тай 600 км- урт газраар хиллэдэг. Хойд, урд хоёр гүрнийг холбосон, төвийн бүсийн хөгжлийн гол тэнхлэг болсон төмөр зам дайран өнгөрдөг. Энэ замын дагуу тус аймгийн бүх сумын 42,8 хувь, хүн амын 61 хувь нь оршин сууж байна. == Хүн ам == Дорноговь аймагт 2017 оны эцсийн байдлаар 20844 өрхөд 68606 хүн ам оршин суудаг бөгөөд 1 кв.км нутаг дэвсгэрт 1.5 хүн ногдож байна. Хүн амын 61 хувь нь Сайншанд хотод, 15.2 хувь нь сумын төвд, 24.2 хувь нь хөдөөд оршин суудаг. Хүн амын 48,7 хувь нь эрэгтэйчүүд, 51,3 хувь нь эмэгтэйчүүд байна. Нэг өрхөд дунджаар 3,4 хүн ногддог. Нийт 19,7 мянган</code> |
412
+ | <code>Дорноговь аймгийн хүн амын тоо 2017 онд хэд байв?</code> | <code>Дорноговь (монгол бичгээр – дорунагоби) аймаг нь Монгол Улсын зүүн аймаг бөгөөд 1931 онд байгуулагдсан. 2017 оны эцсээр 14 сум, 64 баг, 68606 хүн амтай бөгөөд олон хүн амын тоо хурдацтай нэмэгдэж байгаа юм. Аймгийн төв Сайншанд сум нь улсын нийслэл Улаанбаатар хотоос 450км-т оршдог. Дорноговь аймаг Монгол орны зүүн өмнөд хязгаарт Өмнөговь, Дундговь, Говьсүмбэр, Хэнтий, Сүхбаатар аймгуудтай хил залган оршдог. БНХАУ-тай 600 км- урт газраар хиллэдэг. Хойд, урд хоёр гүрнийг холбосон, төвийн бүсийн хөгжлийн гол тэнхлэг болсон төмөр зам дайран өнгөрдөг. Энэ замын дагуу тус аймгийн бүх сумын 42,8 хувь, хүн амын 61 хувь нь оршин сууж байна. == Хүн ам == Дорноговь аймагт 2017 оны эцсийн байдлаар 20844 өрхөд 68606 хүн ам оршин суудаг бөгөөд 1 кв.км нутаг дэвсгэрт 1.5 хүн ногдож байна. Хүн амын 61 хувь нь Сайншанд хотод, 15.2 хувь нь сумын төвд, 24.2 хувь нь хөдөөд оршин суудаг. Хүн амын 48,7 хувь нь эрэгтэйчүүд, 51,3 хувь нь эмэгтэйчүүд байна. Нэг өрхөд дунджаар 3,4 хүн ногддог. Нийт 19,7 мянган</code> |
413
+ | <code>Дорноговь аймаг ямар аймгуудтай хиллэдэг вэ?</code> | <code>Дорноговь (монгол бичгээр – дорунаг��би) аймаг нь Монгол Улсын зүүн аймаг бөгөөд 1931 онд байгуулагдсан. 2017 оны эцсээр 14 сум, 64 баг, 68606 хүн амтай бөгөөд олон хүн амын тоо хурдацтай нэмэгдэж байгаа юм. Аймгийн төв Сайншанд сум нь улсын нийслэл Улаанбаатар хотоос 450км-т оршдог. Дорноговь аймаг Монгол орны зүүн өмнөд хязгаарт Өмнөговь, Дундговь, Говьсүмбэр, Хэнтий, Сүхбаатар аймгуудтай хил залган оршдог. БНХАУ-тай 600 км- урт газраар хиллэдэг. Хойд, урд хоёр гүрнийг холбосон, төвийн бүсийн хөгжлийн гол тэнхлэг болсон төмөр зам дайран өнгөрдөг. Энэ замын дагуу тус аймгийн бүх сумын 42,8 хувь, хүн амын 61 хувь нь оршин сууж байна. == Хүн ам == Дорноговь аймагт 2017 оны эцсийн байдлаар 20844 өрхөд 68606 хүн ам оршин суудаг бөгөөд 1 кв.км нутаг дэвсгэрт 1.5 хүн ногдож байна. Хүн амын 61 хувь нь Сайншанд хотод, 15.2 хувь нь сумын төвд, 24.2 хувь нь хөдөөд оршин суудаг. Хүн амын 48,7 хувь нь эрэгтэйчүүд, 51,3 хувь нь эмэгтэйчүүд байна. Нэг өрхөд дунджаар 3,4 хүн ногддог. Нийт 19,7 мянган</code> |
414
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
415
+ ```json
416
+ {
417
+ "loss": "MultipleNegativesRankingLoss",
418
+ "matryoshka_dims": [
419
+ 768,
420
+ 512,
421
+ 256,
422
+ 128,
423
+ 64
424
+ ],
425
+ "matryoshka_weights": [
426
+ 1,
427
+ 1,
428
+ 1,
429
+ 1,
430
+ 1
431
+ ],
432
+ "n_dims_per_step": -1
433
+ }
434
+ ```
435
+
436
+ ### Training Hyperparameters
437
+ #### Non-Default Hyperparameters
438
+
439
+ - `eval_strategy`: steps
440
+ - `per_device_train_batch_size`: 64
441
+ - `per_device_eval_batch_size`: 64
442
+ - `num_train_epochs`: 5
443
+ - `multi_dataset_batch_sampler`: round_robin
444
+
445
+ #### All Hyperparameters
446
+ <details><summary>Click to expand</summary>
447
+
448
+ - `overwrite_output_dir`: False
449
+ - `do_predict`: False
450
+ - `eval_strategy`: steps
451
+ - `prediction_loss_only`: True
452
+ - `per_device_train_batch_size`: 64
453
+ - `per_device_eval_batch_size`: 64
454
+ - `per_gpu_train_batch_size`: None
455
+ - `per_gpu_eval_batch_size`: None
456
+ - `gradient_accumulation_steps`: 1
457
+ - `eval_accumulation_steps`: None
458
+ - `torch_empty_cache_steps`: None
459
+ - `learning_rate`: 5e-05
460
+ - `weight_decay`: 0.0
461
+ - `adam_beta1`: 0.9
462
+ - `adam_beta2`: 0.999
463
+ - `adam_epsilon`: 1e-08
464
+ - `max_grad_norm`: 1
465
+ - `num_train_epochs`: 5
466
+ - `max_steps`: -1
467
+ - `lr_scheduler_type`: linear
468
+ - `lr_scheduler_kwargs`: {}
469
+ - `warmup_ratio`: 0.0
470
+ - `warmup_steps`: 0
471
+ - `log_level`: passive
472
+ - `log_level_replica`: warning
473
+ - `log_on_each_node`: True
474
+ - `logging_nan_inf_filter`: True
475
+ - `save_safetensors`: True
476
+ - `save_on_each_node`: False
477
+ - `save_only_model`: False
478
+ - `restore_callback_states_from_checkpoint`: False
479
+ - `no_cuda`: False
480
+ - `use_cpu`: False
481
+ - `use_mps_device`: False
482
+ - `seed`: 42
483
+ - `data_seed`: None
484
+ - `jit_mode_eval`: False
485
+ - `use_ipex`: False
486
+ - `bf16`: False
487
+ - `fp16`: False
488
+ - `fp16_opt_level`: O1
489
+ - `half_precision_backend`: auto
490
+ - `bf16_full_eval`: False
491
+ - `fp16_full_eval`: False
492
+ - `tf32`: None
493
+ - `local_rank`: 0
494
+ - `ddp_backend`: None
495
+ - `tpu_num_cores`: None
496
+ - `tpu_metrics_debug`: False
497
+ - `debug`: []
498
+ - `dataloader_drop_last`: False
499
+ - `dataloader_num_workers`: 0
500
+ - `dataloader_prefetch_factor`: None
501
+ - `past_index`: -1
502
+ - `disable_tqdm`: False
503
+ - `remove_unused_columns`: True
504
+ - `label_names`: None
505
+ - `load_best_model_at_end`: False
506
+ - `ignore_data_skip`: False
507
+ - `fsdp`: []
508
+ - `fsdp_min_num_params`: 0
509
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
510
+ - `fsdp_transformer_layer_cls_to_wrap`: None
511
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
512
+ - `deepspeed`: None
513
+ - `label_smoothing_factor`: 0.0
514
+ - `optim`: adamw_torch
515
+ - `optim_args`: None
516
+ - `adafactor`: False
517
+ - `group_by_length`: False
518
+ - `length_column_name`: length
519
+ - `ddp_find_unused_parameters`: None
520
+ - `ddp_bucket_cap_mb`: None
521
+ - `ddp_broadcast_buffers`: False
522
+ - `dataloader_pin_memory`: True
523
+ - `dataloader_persistent_workers`: False
524
+ - `skip_memory_metrics`: True
525
+ - `use_legacy_prediction_loop`: False
526
+ - `push_to_hub`: False
527
+ - `resume_from_checkpoint`: None
528
+ - `hub_model_id`: None
529
+ - `hub_strategy`: every_save
530
+ - `hub_private_repo`: None
531
+ - `hub_always_push`: False
532
+ - `gradient_checkpointing`: False
533
+ - `gradient_checkpointing_kwargs`: None
534
+ - `include_inputs_for_metrics`: False
535
+ - `include_for_metrics`: []
536
+ - `eval_do_concat_batches`: True
537
+ - `fp16_backend`: auto
538
+ - `push_to_hub_model_id`: None
539
+ - `push_to_hub_organization`: None
540
+ - `mp_parameters`:
541
+ - `auto_find_batch_size`: False
542
+ - `full_determinism`: False
543
+ - `torchdynamo`: None
544
+ - `ray_scope`: last
545
+ - `ddp_timeout`: 1800
546
+ - `torch_compile`: False
547
+ - `torch_compile_backend`: None
548
+ - `torch_compile_mode`: None
549
+ - `dispatch_batches`: None
550
+ - `split_batches`: None
551
+ - `include_tokens_per_second`: False
552
+ - `include_num_input_tokens_seen`: False
553
+ - `neftune_noise_alpha`: None
554
+ - `optim_target_modules`: None
555
+ - `batch_eval_metrics`: False
556
+ - `eval_on_start`: False
557
+ - `use_liger_kernel`: False
558
+ - `eval_use_gather_object`: False
559
+ - `average_tokens_across_devices`: False
560
+ - `prompts`: None
561
+ - `batch_sampler`: batch_sampler
562
+ - `multi_dataset_batch_sampler`: round_robin
563
+
564
+ </details>
565
+
566
+ ### Training Logs
567
+ | Epoch | Step | Training Loss | cosine_ndcg@10 |
568
+ |:------:|:----:|:-------------:|:--------------:|
569
+ | 0.2222 | 50 | - | 0.4494 |
570
+ | 0.4444 | 100 | - | 0.4902 |
571
+ | 0.6667 | 150 | - | 0.5005 |
572
+ | 0.8889 | 200 | - | 0.5040 |
573
+ | 1.0 | 225 | - | 0.5126 |
574
+ | 1.1111 | 250 | - | 0.5163 |
575
+ | 1.3333 | 300 | - | 0.5194 |
576
+ | 1.5556 | 350 | - | 0.5132 |
577
+ | 1.7778 | 400 | - | 0.5217 |
578
+ | 2.0 | 450 | - | 0.5223 |
579
+ | 2.2222 | 500 | 6.223 | 0.5196 |
580
+ | 2.4444 | 550 | - | 0.5195 |
581
+ | 2.6667 | 600 | - | 0.5243 |
582
+ | 2.8889 | 650 | - | 0.5284 |
583
+ | 3.0 | 675 | - | 0.5287 |
584
+ | 3.1111 | 700 | - | 0.5302 |
585
+ | 3.3333 | 750 | - | 0.5268 |
586
+ | 3.5556 | 800 | - | 0.5257 |
587
+ | 3.7778 | 850 | - | 0.5297 |
588
+ | 4.0 | 900 | - | 0.5296 |
589
+ | 4.2222 | 950 | - | 0.5324 |
590
+ | 4.4444 | 1000 | 2.6699 | 0.5333 |
591
+
592
+
593
+ ### Framework Versions
594
+ - Python: 3.10.12
595
+ - Sentence Transformers: 3.3.1
596
+ - Transformers: 4.47.1
597
+ - PyTorch: 2.5.1+cu121
598
+ - Accelerate: 1.2.1
599
+ - Datasets: 3.2.0
600
+ - Tokenizers: 0.21.0
601
+
602
+ ## Citation
603
+
604
+ ### BibTeX
605
+
606
+ #### Sentence Transformers
607
+ ```bibtex
608
+ @inproceedings{reimers-2019-sentence-bert,
609
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
610
+ author = "Reimers, Nils and Gurevych, Iryna",
611
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
612
+ month = "11",
613
+ year = "2019",
614
+ publisher = "Association for Computational Linguistics",
615
+ url = "https://arxiv.org/abs/1908.10084",
616
+ }
617
+ ```
618
+
619
+ #### MatryoshkaLoss
620
+ ```bibtex
621
+ @misc{kusupati2024matryoshka,
622
+ title={Matryoshka Representation Learning},
623
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
624
+ year={2024},
625
+ eprint={2205.13147},
626
+ archivePrefix={arXiv},
627
+ primaryClass={cs.LG}
628
+ }
629
+ ```
630
+
631
+ #### MultipleNegativesRankingLoss
632
+ ```bibtex
633
+ @misc{henderson2017efficient,
634
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
635
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
636
+ year={2017},
637
+ eprint={1705.00652},
638
+ archivePrefix={arXiv},
639
+ primaryClass={cs.CL}
640
+ }
641
+ ```
642
+
643
+ <!--
644
+ ## Glossary
645
+
646
+ *Clearly define terms in order to be accessible across audiences.*
647
+ -->
648
+
649
+ <!--
650
+ ## Model Card Authors
651
+
652
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
653
+ -->
654
+
655
+ <!--
656
+ ## Model Card Contact
657
+
658
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
659
+ -->
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "finetuned_paraphrase-multilingual_mpnet",
3
+ "architectures": [
4
+ "XLMRobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 514,
18
+ "model_type": "xlm-roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "output_past": true,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.47.1",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 250002
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.1",
5
+ "pytorch": "2.5.1+cu121"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:02e9bf8d315b0d4863dc8562b3f944d89852ce437149be6156c8982d09157f74
3
+ size 1112197096
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
sentencepiece.bpe.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cfc8146abe2a0488e9e2a0c56de7952f7c11ab059eca145a0a727afce0db2865
3
+ size 5069051
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cad551d5600a84242d0973327029452a1e3672ba6313c2a3c3d69c4310e12719
3
+ size 17082987
tokenizer_config.json ADDED
@@ -0,0 +1,62 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "250001": {
36
+ "content": "<mask>",
37
+ "lstrip": true,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "max_length": 128,
51
+ "model_max_length": 128,
52
+ "pad_to_multiple_of": null,
53
+ "pad_token": "<pad>",
54
+ "pad_token_type_id": 0,
55
+ "padding_side": "right",
56
+ "sep_token": "</s>",
57
+ "stride": 0,
58
+ "tokenizer_class": "XLMRobertaTokenizer",
59
+ "truncation_side": "right",
60
+ "truncation_strategy": "longest_first",
61
+ "unk_token": "<unk>"
62
+ }