metadata
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- generated_from_trainer
- dataset_size:37424
- loss:MultipleNegativesRankingLoss
base_model: vinai/phobert-base
widget:
- source_sentence: >-
Hoa sen duong nhu da qua quen thuoc voi nguoi Viet Nam, duoc menh danh nhu
loai quoc hoa mang huong thom diu thoang thoang, co ve dep tinh
khiet.Ngoai ra gan day cac nghien cuu con cho thay hoa sen khong nhung an
duoc ma con mang trong minh nhieu thanh phan dinh duong rat tot cho co
the!
Hoa sen khong chi noi tieng boi ve dep thanh khiet ma con duoc biet den
nhu mot nguyen lieu cao cap che bien cac mon ngon. Tu nhung ngay xua, hoa
sen da duoc chon lam nguyen lieu tao nen nhieu mon an cung dinh tinh te.
It ai biet duoc ben canh viec dung de trang tri va lam tra, canh hoa sen
con duoc nguoi ta chien gion nhin la mat va hap dan. Hat sen nau che thanh
mat va hay ket hop voi com, xoi vi bui ngon mieng. Hoa sen khong chi de
ngam ma con co the an, co the thuong thuc bang vi giac.
sentences:
- Bánh đa cá rô Văn Thắng
- Cá chép giòn hấp bia
- Xôi Gánh
- source_sentence: >-
Hai san Minh Trang Quan la dia chi am thuc chuyen hai san tuoi song, so
huu mot thuc don mon an hap dan voi du chung loai: Tom hum, tom su, cua,
ghe, muc, hau... ket hop cac cach che bien: hap, nuong, rang muoi, rang
me, sot bo toi... kha quen thuoc nhung cung du lam cho thuc khach khong
the kiem long. Do la Ghe rang me chua diu, Tom rang muoi dam da, la Tom
hum sot bo toi thom lung, beo beo hay Hau nuong pho mai ngot thom, beo
ngay...Khong qua cau ky, chu trong ve thiet ke, khong gian cua Hai san
Minh Trang Quan de cao su thoai mai va de chiu danh cho thuc khach.Neu
khong gian trong nha noi bat voi son tuong vang, voi ban ghe dang thap va
mot vai chau cay xanh nho xinh thi khong gian ben ngoai lai dac trung boi
su tu do, thoang mat. Hai san Minh Trang Quan rat thich hop voi nhung dip
tu hop, lien hoan, gap go ban be, gia dinh, khach le va nhom khach du
lich...Tai Hai san Minh Trang Quan, an ngon thoi chua du, mon an phai bo
duong va tot cho suc khoe. De tao nen suc hut cua cac mon an "hap thuy
nhiet", cac dau bep tai hoa da rat tinh te khi dau tu vao qua trinh so che
va tam uop gia vi, dam bao moi mon la mot su ket hop day dac sac giua cac
nguyen lieu di kem, giup thuc khach cam nhan duoc su dan quyen giua cac
mui vi voi nhau, lam mon ngon them thang hoa.THONG TIN LIEN HE: Dia chi:
Lo 8-12 Nguyen Luong Bang, Phuong Hien Nam, TP. Hung Yen, Tinh Hung Yen
Dien thoai: 0379 661 686 Email: [email protected] Fanpage:
https://www.facebook.com/haisanbinhdantuoisong/ Gio mo cua: Mo cua ca
ngay
Chi duong Goi dien
sentences:
- Chả Cá
- Hủ Tiếu Mì Du Ký - Lũy Bán Bích
- Hanuri
- source_sentence: >-
Nhac den Doan Hung, vung dat gan voi chien thang song Lo lich su trong
cuoc khang chien chong thuc dan Phap, ai ai cung nho den giong buoi quy da
duoc trong, giu giong hang tram nam nay - buoi Doan Hung. O Doan Hung,
buoi cua xa Chi Dam va Bang Luan la ngon nhat. Chi mot lan nem mieng buoi
voi tep buoi trang, mem mong nuoc va ngot lim, thom ngay ngat khien ta
tuong chung nhu vi buoi nhu dang tan vao tan ruot gan, da thit.
Khi xua, nhac den Buoi la nhac den Buoi Doan Hung. Loai Buoi duy nhat duoc
lua chon de tien vua. Chi cac bac vua chua moi duoc thuong thuc giong Buoi
dac biet nay. Vao nhung ngay thu hai buoi, nguoi dan chon hai nhung qua
buoi to nhat, vang dep nhat de dang cung cac Vua Hung, dang cung tien to
nhu mot su tri an cong duc cua to tien.Ngay nay, nguoi tieu dung da co
them nhieu lua chon chat luong khac nhu: Buoi Nam Roi, Buoi Da Xanh, Buoi
Dien... Nhung Buoi Doan Hung van chua bao gio bi lang quen va tham chi co
the noi la giong Buoi quy va kho mua nhat, kho den tay nguoi dung nhat
trong cac loai Buoi ngon.
sentences:
- Bánh Giò Cô Béo
- Canh măng móng giò
- Trám ngâm xì dầu
- source_sentence: >-
Canh cua thien ly khong chi giup ban ngu ngon ma con thanh nhiet rat tot
cho co the, la goi y tuong doi huu ich cho nhung mon an gi de ngu duoc dua
vao danh sach vang boi ti le dinh duong cao, cach che bien cung tuong doi
don gian, neu ban chon loai hoa thien ly con non se ngon hon rat nhieu.
Cach lam mon canh cua thien ly:Cua dong rua sach, go mai, yem de rieng, bo
yem, rua sach, de rao, cho vao coi, gia nhuyen voi vai hat muoi.Dung thia
lay phan gach o mai cua, cho vao bat voi 1/4 thia ca-phe hat nem. Trang
qua nuoc cho het mui hoi.Cho cua da gia vao to, hoa voi 1 lit nuoc, bop
nhe de thit cua tan deu. Loc cua bang ro luoi mat nho voi 600ml nuoc, sau
do loc lai cho het can va xac cua.Bac noi nuoc cua len bep, nem vua an,
dun lua to va dung dua khuay theo chieu kim dong ho den luc noi nong va
nuoc cua chuyen sang mau duc thi thoi. Khi cua da noi kin mat noi va canh
soi thi ha lua that nho de chin cai cua,Hoa thien ly nhat bo phan sau,
giap, rua sach voi nuoc muoi, de rao.Cho canh soi thi cho hoa thien ly
vao, van lua to de canh soi lai. Cho cho gach cua da lam sach vao noi canh
dang soi de gach cua tan ra, tao thanh mot mau vang tren mat noi canh thi
tat bep.Nem bot gia vi, hat nem sao cho vua an.Cho canh ra to va chuan bi
an.
sentences:
- Canh cua thiên lý
- H2 Tea
- Miến xào tôm sốt trứng muối
- source_sentence: >-
Ốc vú nàng khá quý hiếm, là một trong những món ăn đặc sản ngon nổi tiếng
nhất tại Côn Đảo. Ốc vú nàng có vỏ hình chóp lệch, trên đỉnh có một núm
nhỏ, vỏ ngoài màu xám đen, mặt trong lấp lánh ánh xà cừ, dùng cát xát vào
vỏ thì con ốc sẽ ánh lên một màu hồng sáng, càng lớn thì vỏ ốc có màu hồng
càng đậm.
Thông thường, ốc vú nàng chỉ to bằng khoảng ba ngón tay người lớn, nhưng
ốc vú nàng ở Côn Đảo có thể to gần bằng bàn tay. Ốc vú nàng có vô vàn cách
chế biến và cách thưởng thức khác nhau như luộc, làm gỏi, hấp... nhưng
được ưa thích nhất là nướng. Dù chế biến theo cách nào thì cũng đều mang
một hương vị thơm ngon riêng biệt không lẫn với bất kỳ loại ốc nào. Loại
ốc vú nàng này được ngư dân Côn Đảo khai thác chủ yếu tại khu vực Hòn Tài,
Hòn Trác và luôn giữ được độ tươi khi đưa vào chế biến.
sentences:
- Ốc vú nàng
- Bánh tằm bì - Bánh Ướt Cây Me
- Trứng chiên thịt băm
pipeline_tag: sentence-similarity
library_name: sentence-transformers
SentenceTransformer based on vinai/phobert-base
This is a sentence-transformers model finetuned from vinai/phobert-base. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: vinai/phobert-base
- Maximum Sequence Length: 128 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("trongvox/phobert-semactic-retrival-food-2")
# Run inference
sentences = [
'Ốc vú nàng khá quý hiếm, là một trong những món ăn đặc sản ngon nổi tiếng nhất tại Côn Đảo. Ốc vú nàng có vỏ hình chóp lệch, trên đỉnh có một núm nhỏ, vỏ ngoài màu xám đen, mặt trong lấp lánh ánh xà cừ, dùng cát xát vào vỏ thì con ốc sẽ ánh lên một màu hồng sáng, càng lớn thì vỏ ốc có màu hồng càng đậm. \n\nThông thường, ốc vú nàng chỉ to bằng khoảng ba ngón tay người lớn, nhưng ốc vú nàng ở Côn Đảo có thể to gần bằng bàn tay. Ốc vú nàng có vô vàn cách chế biến và cách thưởng thức khác nhau như luộc, làm gỏi, hấp... nhưng được ưa thích nhất là nướng. Dù chế biến theo cách nào thì cũng đều mang một hương vị thơm ngon riêng biệt không lẫn với bất kỳ loại ốc nào. Loại ốc vú nàng này được ngư dân Côn Đảo khai thác chủ yếu tại khu vực Hòn Tài, Hòn Trác và luôn giữ được độ tươi khi đưa vào chế biến.',
'Ốc vú nàng',
'Trứng chiên thịt băm',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 37,424 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 71 tokens
- mean: 127.52 tokens
- max: 128 tokens
- min: 3 tokens
- mean: 7.36 tokens
- max: 21 tokens
- min: 0.0
- mean: 0.5
- max: 1.0
- Samples:
sentence_0 sentence_1 label Vua ngon, vua re, vua bo la 3 the manh cua mon an nay trong bua com sinh vien. Phan da, mon an nay mot tuan xuat hien tu 5 den 7 lan mot tuan trong mam com cua sinh vien vi no don gian, de nau va cung kha day du dinh duong. Do nuoc sot ca chua len dau hu vua ran rac hanh la va tieu len la an vo cung bat com. Day la mon vua ngon, vua re an cung com nong. Rieng mon an ve dau, ban co the tha ho sang tao va che bien. Dau hu mang rat nhieu chat dinh duong, va dac biet la dam khi che bien cung ca chua se rat phu hop. Mon an nay tuy re nhung cung rat bo do.
Nguyen lieu:
Dau hu Ca chua Toi, hanh la
Cach thuc hien:
Cho dau an vao chao, dun den khi dau gia thi cho dau vao ran deu cac mat.Phi thom toi roi cho ca chua cung voi chut nuoc soi vao.Xao ca chua den khi mem thi cho dau hu da ran vao.Them nem gia vi sao cho vua mieng roi dun den khi thay nuoc ca chua sen set thi cho chem chut hanh la vao roi tat bep.Đậu hũ sốt cà chua
1.0
Du troi nang hay mua, mua dong gia ret hay mua he nong nuc thi mon kem van la mon an "khong the cuong lai duoc" va nhat la loai kem socola. Cach lam kem socola cung kha don gian va ban co the tu lam tai nha.Nguyen lieu:Whipping cream: 400 gSua dac: 140 gBot ca cao nguyen chat: 60 gHop dung, pho danh trung hoac may danh trungCach lam:Dau tien cho 400g whipping da duoc lam lanh ra to lon. Dung phoi hoac may danh trung danh den khi whipping chuyen trang thai bong mem. Nhat phoi len tao chop hoi quap xuong.Cho 140g sua dac va 60g bot ca cao nguyen chat vao whipping. Dung phoi long tron deu hon hop len. Luu y dung tron qua lau se khien hon hop bi tach nuoc. Khi hon hop deu, kha dac va sanh min thi dat.Sau khi tron deu hon hop, ban cho hon hop vao khuon, khay hay to, roi dung phoi dan cho deu hon hop. Sau do, dung mang boc thuc pham boc kin be mat lop kem lai roi cho vao ngan da tu lanh khoang 4 tieng dong ho.Sau 4 tieng lay kem ra va thuong thuc. De tang them mui vi, ban co the an kem kem v...
Kem socola
1.0
Nguyen lieu:
500 gr suon non3 nhanh hanh la thai khuc dai5 tep toi1 muong canh ruou3 muong canh nuoc tuong = xi dau1 muong canh duong1/2 muong ca phe tieu den1 muong canh nuoc mam1 trai ot sung700 ml nuoc xuong ga hay nuoc lanh.
Cach che bien:
Dau tien khi suon non mua ve cac ban lay suon chat mieng vua an, sau do rua suon qua nuoc co pha muoi roi xa nuoc lanh that sach.Sau do cac ban bat chao len bep, cho vao 2 muong canh dau, cho dau hoi nong cho hanh la vao xao 1 phut, ke den cho toi vao xao them 1 phut nua. Tiep theo cho suon vao vao cho that san roi moi cho nuoc tuong vao xao 4 phut phut nua. Cuoi cung cho nuoc + ruou va tat ca cac gia vi con lai vao, day nap ham voi lua vua. Khi nuoc hoi sanh lai thi nem nem lai cho vua an la tat bep.Thanh pham va trinh bay: Cho suon kho tau ra dia, trai ot de len hay mot chut la mui ta (ngo) va rac chut hat tieu len tren cho hap dan va day vi nhe.Sườn kho tàu
1.0
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
per_device_train_batch_size
: 16per_device_eval_batch_size
: 16num_train_epochs
: 4multi_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 16per_device_eval_batch_size
: 16per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 4max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss |
---|---|---|
0.2138 | 500 | 2.1363 |
0.4275 | 1000 | 1.9874 |
0.6413 | 1500 | 1.9273 |
0.8551 | 2000 | 1.9023 |
1.0688 | 2500 | 1.8001 |
1.2826 | 3000 | 1.6671 |
1.4964 | 3500 | 1.6611 |
1.7101 | 4000 | 1.6839 |
1.9239 | 4500 | 1.6716 |
2.1377 | 5000 | 1.5615 |
2.3514 | 5500 | 1.4695 |
2.5652 | 6000 | 1.4506 |
2.7790 | 6500 | 1.4754 |
2.9927 | 7000 | 1.4856 |
3.2065 | 7500 | 1.3189 |
3.4203 | 8000 | 1.3134 |
3.6340 | 8500 | 1.3328 |
3.8478 | 9000 | 1.3009 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.3.1
- Transformers: 4.47.1
- PyTorch: 2.5.1+cu121
- Accelerate: 1.2.1
- Datasets: 3.2.0
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}