SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0
This is a sentence-transformers model finetuned from Snowflake/snowflake-arctic-embed-l-v2.0 on the json dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: Snowflake/snowflake-arctic-embed-l-v2.0
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 1024 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- json
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("dilovancelik/snowflake-arctic-embed-l-v2.0_finetune_danish_subject")
# Run inference
sentences = [
'Decentralisering af politi og skattemyndigheder',
'Men når sosu’en, sygeplejersken og læreren siger, at meget pludselig kunne lade sig gøre på kort tid, så skal vi virkelig spidse ører. Regeringen har valgt at starte med politiet som det første skridt i nærhedsreformen. Politiet er kommet for langt væk fra den almindelige danskers hverdag. Med regeringens udspil til en ny politiaftale halverer vi Rigspolitiet. I stedet opretter vi 20 nye nærpolitienheder: 300 flere betjente i den borgernære indsats i landets politikredse. Med den måske største decentralisering af dansk politi i en generation, så styrker vi nu den nære tryghed, som er helt grundlæggende for os alle sammen. Også på skatteområdet er vi i gang. Vi gik til valg på at oprette fire nye skattecentre – fordelt i hele landet. Det bliver faktisk til otte i stedet. De to første står klar i denne uge i Frederikssund og Fredericia. Og til næste år åbner vi to mere i Viborg og Esbjerg. Nærhed handler både om geografi, et opgør med mange års centralisering og om mindre central styring. Mere tid lokalt. Men jeg forstår godt jer offentligt ansatte, som bliver fjerne i blikket, når vi taler om det her på Christiansborg. Og alle jer andre derude, som synes, I har hørt den samme sang tusind gange. Jeg forstår godt, hvis I ikke rigtig tror, det kommer til at ske. Allerede i 80’erne begyndte daværende statsminister Poul Schlüter at tale imod det voksende bureaukrati. Siden er det kun blevet værre og værre. Vi har aldrig brugt flere penge på velfærd, men resultaterne står ikke mål. Det var også baggrunden for de frikommuneforsøg, som VK-regeringen opfandt for nogle år siden. En god ide. Nedefra og op blev der formuleret masser af fine forslag. Sidst vi sad i regering, var særligt Det Radikale Venstre optaget af at sætte kommunerne mere fri. Det var rigtigt. Nu foreslår vi noget, der er endnu mere vidtgående – noget, vi ikke har prøvet før. Jeg indrømmer, det er en lidt vild ide. Regeringen vil give syv danske kommuner fuldstændig frihed på et udvalgt velfærdsområde. For eksempel Helsingør. De næste tre år får de fuldstændig frihed på daginstitutionsområdet. Sammen med forældre og det pædagogiske personale får Helsingør lov til at skabe Danmarks bedste dagpleje, vuggestuer og børnehaver. Vi fjerner så meget statslig regulering og lovgivning som muligt. I stedet lader vi mennesker tage ansvaret selv. Vi lever i år 2020. Vi er en af verdens bedst uddannede befolkninger. Vi behøver ikke lovgive om alt mellem himmel og jord. Udover Helsingør har regeringen indgået lignende aftaler med borgmestrene i Rebild, Viborg, Middelfart, Holbæk, Langeland og Esbjerg.',
'Der er ikke plads til had i Amerika. Ikke mod jøder. Ikke mod muslimer. Ikke mod nogen. Dét, vi afviser, er terrorismen. Vi fordømmer den vilkårlige ondskab. Som vi altid har gjort. Dét er, hvad Amerika står for',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Evaluation
Metrics
Triplet
- Datasets:
dev_evaluator
anddanish_embedding_validator
- Evaluated with
TripletEvaluator
Metric | dev_evaluator | danish_embedding_validator |
---|---|---|
cosine_accuracy | 0.9956 | 0.9956 |
Training Details
Training Dataset
json
- Dataset: json
- Size: 5,709 training samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 3 tokens
- mean: 9.39 tokens
- max: 81 tokens
- min: 14 tokens
- mean: 364.37 tokens
- max: 2293 tokens
- min: 13 tokens
- mean: 122.22 tokens
- max: 1031 tokens
- Samples:
anchor positive negative Behovet for ansvarlig teknologiudvikling
Alle disse globale tendenser udfordrer Danmark. Vores sikkerhedspolitiske virkelighed er grundlæggende forandret. I vores eget nærområde i Østersøregionen. Hvor Rusland opruster militært og agerer meget aggressivt. Og i Arktis, hvor Rusland genåbner gamle baser. I dag er sikkerhed ikke kun et spørgsmål om krudt og kugler. Det gælder i dag nærmest alt i vores hverdag. I særdeleshed teknologi. Der er brug for et stærkere modsvar mod dem, der bruger teknologi og cyber til at angribe os. Spionerer mod os. Bevidst spreder desinformation. Eller påvirker demokratiske valghandlinger. Vi står over for en ualmindelig stor og kompliceret opgave med at forme teknologiudviklingen i en ansvarlig, demokratisk og sikker retning. Der er ingen, som har taget ansvar endnu. Vi har set uhyggelige forsøg på at fordreje den offentlige samtale og påvirke den demokratiske proces. Det, der engang bare var teknologi, er nu også sikkerhedspolitik.
Regeringen vil nu igen tage penge fra lejerne. Det, der hedder Landsbyggefonden. 13 milliarder. Bum.
Udsendelse i militærtjeneste
Kære udsendte, kære pårørende. I dag hylder vi de mænd og kvinder, som har været udsendt, og som er udsendt for Danmark. En af dem hedder Mikkel. Han er kaptajn i Flyvevåbnet og indtil den 1. maj i år var han udsendt til Irak. Jeg vil gerne begynde med at læse op, hvad han har skrevet om sin oplevelse. “At være udsendt for Danmark kan ikke beskrives med et enkelt ord. Det er afsked og afsavn og en knude i maven. Det er ventetid og kedsomhed, frustrationer og hårdt arbejde. Det er skræmmende, når man befinder sig imellem stridende parter i en konflikt, man knap nok forstår.
Derfor et helt konkret forslag fra Socialdemokratiet: De unge, der går imod strømmen og tager en erhvervsuddannelse. I skal have en bonus.
Reformer i Uddannelsessystemet
Den tilfredsstillelse, der ligger i netop det. At yde en indsats. Gøre sig umage. Den findes hver eneste dag i vores samfund. Sygeplejersken, der tager imod en ældre mand, som klager over rygsmerter. Men som med sin viden og kompetencer gennemskuer, at han måske har en blodprop i hjertet, og får sendt ham hurtigt i behandling. Tillidsrepræsentanten, der har hjulpet en kollega, som har det svært. Maskinarbejderen, der har programmeret noget ud over det sædvanlige og ser, hvad der kommer ud af det. Folkeskolelæren, der har tid til at tage godt imod alle elever, inden undervisningen starter. Dén glæde. Dén stolthed. Har vi været gode nok til at anerkende den som samfund? Det synes jeg ikke. Færre unge søger ind på velfærdsuddannelserne og de faglærte uddannelser. Det er blevet sværere at fastholde dygtige medarbejdere særligt i sundhedsvæsenet og i ældreplejen. Og alt for ofte, når en stilling slås op. Er det ikke muligt at ansætte en ny kollega. Det betyder ventelister. Operationer, der ...
Secretary General. Excellencies. Ladies and gentlemen. “Anyone who isn’t profoundly shocked by quantum theory – has not understood it.” Those are the words of the Danish scientist Niels Bohr. Who laid the foundation for everything we know as quantum physics today. More than 100 years ago, Niels Bohr took the first steps – right here in Copenhagen. Back then, he knew that his discoveries would not only shock his fellow scientists. But also fundamentally change how we perceive and understand the world.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Evaluation Dataset
json
- Dataset: json
- Size: 5,709 evaluation samples
- Columns:
anchor
,positive
, andnegative
- Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 3 tokens
- mean: 9.34 tokens
- max: 76 tokens
- min: 13 tokens
- mean: 331.71 tokens
- max: 2161 tokens
- min: 13 tokens
- mean: 126.9 tokens
- max: 896 tokens
- Samples:
anchor positive negative Erhvervsuddannelser
Hvordan skal vi få unge til at tage en erhvervsuddannelse, når Løkke skærer ned?
I Jerusalem i sidste uge mødte jeg to danske overlevere af holocaust. Jytte Israel og Robert Fischermann. Sikke et privilegium. Deres historie skal fortælles igen og igen – og leve videre. Jytte var en helt lille pige. Hun var en af de heldige europæiske jøder. Blev hjulpet både af folk, hun kendte. Og ukendte. Naboer og andre danskere der så det som deres opgave at hjælpe danske jøder godt på vej til Sverige. Hun blev fragtet afsted i fragtrummet af et stort kulskib. Godt hjulpet på vej af nogle snarrådige naboer på Islands Brygge. To unge tyske soldater som skulle til at inspicere skibet – blev i stedet narret væk med den sidste flaske franske cognac, man fandt i lejligheden. Roberts historie er helt anderledes og lidelsesfuld. Familien – eller i hvert fald store dele af den – blev i 1943 fanget af tyskerne. Og Robert ender som kun 15-årig i Theresienstadt. Robert fortæller mange ting, men især et par af dem vil jeg dele med jer. Fordi de selvfølgelig har gjort så stort indtryk. På d...
Juridiske og administrative opgaver
Og tak til alle jer, de fleste slet ikke møder; jer, der fjerner skrald og gør rent. Jer, der arbejder i fængslerne. I psykiatrien. Jer, der knokler med papirarbejdet. Der er noget galt.
In other words, ladies and gentlemen: A lot is at stake! And all of us gathered here today have a great responsibility on our shoulders. Quantum technology is today an inevitable part of our security framework in NATO. But as you know – better than anyone else: Quantum technology takes time, skills and funds to develop. If we want to ensure our common security in the future. And unlock the quantum potential in our societies. We have to lay the groundwork now. And we – as responsible governments – need to provide the right conditions for research and industry to prosper and grow.
Ventelister for behandlinger i sundhedsvæsenet
[...]. Vi har igennem den seneste uges tid hørt om danskere, der har ventet alt for længe på deres behandling for tarmkræft. Det er mennesker, der er alvorligt syge, og man kan ikke betegne det som andet end et svigt. Det er en alvorlig situation, og det er også i mine øjne et tillidsbrud, der er uacceptabelt. I fredags fremlagde indenrigsministeren en genopretningsplan på kræftområdet, og vi kommer til at følge det her område utrolig tæt. Det fører mig til det næste. Tidligere i dag holdt regeringen et pressemøde om fremtidens sundhedsvæsen. Lad mig starte med at sige, at vi har et sundhedsvæsen, der på mange måder er godt og stærkt. Vi har fri og lige adgang til sundhed, i hvert fald på papiret; vi har højt specialiserede sygehuse; vi har dygtige medarbejdere; der er stadig flere af os, der overlever sygdomme, vi ikke ville have overlevet tidligere; og rigtig, rigtig meget går godt. Men – og der er også et men – det er mit indtryk, at rigtig mange danskere kan se det samme, som jeg s...
Afslutning] Den danske sangkunstner Ivan Pedersen synger i en sang på hans nyeste CD- udgivelse, at tanker er toldfri......Og hvem siger i øvrigt at drømme er noget, der skal høre natten til. Rigtig god 1. maj.
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy
: stepslearning_rate
: 2e-05num_train_epochs
: 1warmup_ratio
: 0.1bf16
: Truebatch_sampler
: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: stepsprediction_loss_only
: Trueper_device_train_batch_size
: 8per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonetorch_empty_cache_steps
: Nonelearning_rate
: 2e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1.0num_train_epochs
: 1max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.1warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Truefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Nonehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseinclude_for_metrics
: []eval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falseeval_on_start
: Falseuse_liger_kernel
: Falseeval_use_gather_object
: Falseaverage_tokens_across_devices
: Falseprompts
: Nonebatch_sampler
: no_duplicatesmulti_dataset_batch_sampler
: proportional
Training Logs
Epoch | Step | Training Loss | Validation Loss | dev_evaluator_cosine_accuracy | danish_embedding_validator_cosine_accuracy |
---|---|---|---|---|---|
0.0022 | 1 | 1.2548 | - | - | - |
0.0547 | 25 | 1.1116 | - | - | - |
0.1094 | 50 | 0.862 | - | - | - |
0.1641 | 75 | 0.716 | - | - | - |
0.2188 | 100 | 0.5904 | 0.5636 | 0.9934 | - |
0.2735 | 125 | 0.71 | - | - | - |
0.3282 | 150 | 0.6618 | - | - | - |
0.3829 | 175 | 0.6027 | - | - | - |
0.4376 | 200 | 0.4593 | 0.5097 | 0.9956 | - |
0.4923 | 225 | 0.534 | - | - | - |
0.5470 | 250 | 0.504 | - | - | - |
0.6018 | 275 | 0.5847 | - | - | - |
0.6565 | 300 | 0.4916 | 0.4957 | 0.9956 | - |
0.7112 | 325 | 0.5775 | - | - | - |
0.7659 | 350 | 0.5891 | - | - | - |
0.8206 | 375 | 0.5832 | - | - | - |
0.8753 | 400 | 0.4679 | 0.4843 | 0.9956 | - |
0.9300 | 425 | 0.527 | - | - | - |
0.9847 | 450 | 0.4693 | - | - | - |
-1 | -1 | - | - | 0.9956 | 0.9956 |
Framework Versions
- Python: 3.11.11
- Sentence Transformers: 3.4.1
- Transformers: 4.48.3
- PyTorch: 2.5.1+cu124
- Accelerate: 1.3.0
- Datasets: 3.3.1
- Tokenizers: 0.21.0
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Inference Providers
NEW
This model is not currently available via any of the supported Inference Providers.
Model tree for dilovancelik/snowflake-arctic-embed-l-v2.0_finetune_danish_subject
Base model
Snowflake/snowflake-arctic-embed-l-v2.0Evaluation results
- Cosine Accuracy on dev evaluatorself-reported0.996
- Cosine Accuracy on danish embedding validatorself-reported0.996