SentenceTransformer based on Snowflake/snowflake-arctic-embed-l-v2.0

This is a sentence-transformers model finetuned from Snowflake/snowflake-arctic-embed-l-v2.0 on the json dataset. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: Snowflake/snowflake-arctic-embed-l-v2.0
  • Maximum Sequence Length: 8192 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • json

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("dilovancelik/snowflake-arctic-embed-l-v2.0_finetune_danish_subject")
# Run inference
sentences = [
    'Decentralisering af politi og skattemyndigheder',
    'Men når sosu’en, sygeplejersken og læreren siger, at meget pludselig kunne lade sig gøre på kort tid, så skal vi virkelig spidse ører. Regeringen har valgt at starte med politiet som det første skridt i nærhedsreformen. Politiet er kommet for langt væk fra den almindelige danskers hverdag. Med regeringens udspil til en ny politiaftale halverer vi Rigspolitiet. I stedet opretter vi 20 nye nærpolitienheder: 300 flere betjente i den borgernære indsats i landets politikredse. Med den måske største decentralisering af dansk politi i en generation, så styrker vi nu den nære tryghed, som er helt grundlæggende for os alle sammen. Også på skatteområdet er vi i gang. Vi gik til valg på at oprette fire nye skattecentre – fordelt i hele landet. Det bliver faktisk til otte i stedet. De to første står klar i denne uge i Frederikssund og Fredericia. Og til næste år åbner vi to mere i Viborg og Esbjerg. Nærhed handler både om geografi, et opgør med mange års centralisering og om mindre central styring. Mere tid lokalt. Men jeg forstår godt jer offentligt ansatte, som bliver fjerne i blikket, når vi taler om det her på Christiansborg. Og alle jer andre derude, som synes, I har hørt den samme sang tusind gange. Jeg forstår godt, hvis I ikke rigtig tror, det kommer til at ske. Allerede i 80’erne begyndte daværende statsminister Poul Schlüter at tale imod det voksende bureaukrati. Siden er det kun blevet værre og værre. Vi har aldrig brugt flere penge på velfærd, men resultaterne står ikke mål. Det var også baggrunden for de frikommuneforsøg, som VK-regeringen opfandt for nogle år siden. En god ide. Nedefra og op blev der formuleret masser af fine forslag. Sidst vi sad i regering, var særligt Det Radikale Venstre optaget af at sætte kommunerne mere fri. Det var rigtigt. Nu foreslår vi noget, der er endnu mere vidtgående – noget, vi ikke har prøvet før. Jeg indrømmer, det er en lidt vild ide. Regeringen vil give syv danske kommuner fuldstændig frihed på et udvalgt velfærdsområde. For eksempel Helsingør. De næste tre år får de fuldstændig frihed på daginstitutionsområdet. Sammen med forældre og det pædagogiske personale får Helsingør lov til at skabe Danmarks bedste dagpleje, vuggestuer og børnehaver. Vi fjerner så meget statslig regulering og lovgivning som muligt. I stedet lader vi mennesker tage ansvaret selv. Vi lever i år 2020. Vi er en af verdens bedst uddannede befolkninger. Vi behøver ikke lovgive om alt mellem himmel og jord. Udover Helsingør har regeringen indgået lignende aftaler med borgmestrene i Rebild, Viborg, Middelfart, Holbæk, Langeland og Esbjerg.',
    'Der er ikke plads til had i Amerika. Ikke mod jøder. Ikke mod muslimer. Ikke mod nogen. Dét, vi afviser, er terrorismen. Vi fordømmer den vilkårlige ondskab. Som vi altid har gjort. Dét er, hvad Amerika står for',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]

Evaluation

Metrics

Triplet

  • Datasets: dev_evaluator and danish_embedding_validator
  • Evaluated with TripletEvaluator
Metric dev_evaluator danish_embedding_validator
cosine_accuracy 0.9956 0.9956

Training Details

Training Dataset

json

  • Dataset: json
  • Size: 5,709 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 9.39 tokens
    • max: 81 tokens
    • min: 14 tokens
    • mean: 364.37 tokens
    • max: 2293 tokens
    • min: 13 tokens
    • mean: 122.22 tokens
    • max: 1031 tokens
  • Samples:
    anchor positive negative
    Behovet for ansvarlig teknologiudvikling Alle disse globale tendenser udfordrer Danmark. Vores sikkerhedspolitiske virkelighed er grundlæggende forandret. I vores eget nærområde i Østersøregionen. Hvor Rusland opruster militært og agerer meget aggressivt. Og i Arktis, hvor Rusland genåbner gamle baser. I dag er sikkerhed ikke kun et spørgsmål om krudt og kugler. Det gælder i dag nærmest alt i vores hverdag. I særdeleshed teknologi. Der er brug for et stærkere modsvar mod dem, der bruger teknologi og cyber til at angribe os. Spionerer mod os. Bevidst spreder desinformation. Eller påvirker demokratiske valghandlinger. Vi står over for en ualmindelig stor og kompliceret opgave med at forme teknologiudviklingen i en ansvarlig, demokratisk og sikker retning. Der er ingen, som har taget ansvar endnu. Vi har set uhyggelige forsøg på at fordreje den offentlige samtale og påvirke den demokratiske proces. Det, der engang bare var teknologi, er nu også sikkerhedspolitik. Regeringen vil nu igen tage penge fra lejerne. Det, der hedder Landsbyggefonden. 13 milliarder. Bum.
    Udsendelse i militærtjeneste Kære udsendte, kære pårørende. I dag hylder vi de mænd og kvinder, som har været udsendt, og som er udsendt for Danmark. En af dem hedder Mikkel. Han er kaptajn i Flyvevåbnet og indtil den 1. maj i år var han udsendt til Irak. Jeg vil gerne begynde med at læse op, hvad han har skrevet om sin oplevelse. “At være udsendt for Danmark kan ikke beskrives med et enkelt ord. Det er afsked og afsavn og en knude i maven. Det er ventetid og kedsomhed, frustrationer og hårdt arbejde. Det er skræmmende, når man befinder sig imellem stridende parter i en konflikt, man knap nok forstår. Derfor et helt konkret forslag fra Socialdemokratiet: De unge, der går imod strømmen og tager en erhvervsuddannelse. I skal have en bonus.
    Reformer i Uddannelsessystemet Den tilfredsstillelse, der ligger i netop det. At yde en indsats. Gøre sig umage. Den findes hver eneste dag i vores samfund. Sygeplejersken, der tager imod en ældre mand, som klager over rygsmerter. Men som med sin viden og kompetencer gennemskuer, at han måske har en blodprop i hjertet, og får sendt ham hurtigt i behandling. Tillidsrepræsentanten, der har hjulpet en kollega, som har det svært. Maskinarbejderen, der har programmeret noget ud over det sædvanlige og ser, hvad der kommer ud af det. Folkeskolelæren, der har tid til at tage godt imod alle elever, inden undervisningen starter. Dén glæde. Dén stolthed. Har vi været gode nok til at anerkende den som samfund? Det synes jeg ikke. Færre unge søger ind på velfærdsuddannelserne og de faglærte uddannelser. Det er blevet sværere at fastholde dygtige medarbejdere særligt i sundhedsvæsenet og i ældreplejen. Og alt for ofte, når en stilling slås op. Er det ikke muligt at ansætte en ny kollega. Det betyder ventelister. Operationer, der ... Secretary General. Excellencies. Ladies and gentlemen. “Anyone who isn’t profoundly shocked by quantum theory – has not understood it.” Those are the words of the Danish scientist Niels Bohr. Who laid the foundation for everything we know as quantum physics today. More than 100 years ago, Niels Bohr took the first steps – right here in Copenhagen. Back then, he knew that his discoveries would not only shock his fellow scientists. But also fundamentally change how we perceive and understand the world.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Evaluation Dataset

json

  • Dataset: json
  • Size: 5,709 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 3 tokens
    • mean: 9.34 tokens
    • max: 76 tokens
    • min: 13 tokens
    • mean: 331.71 tokens
    • max: 2161 tokens
    • min: 13 tokens
    • mean: 126.9 tokens
    • max: 896 tokens
  • Samples:
    anchor positive negative
    Erhvervsuddannelser Hvordan skal vi få unge til at tage en erhvervsuddannelse, når Løkke skærer ned? I Jerusalem i sidste uge mødte jeg to danske overlevere af holocaust. Jytte Israel og Robert Fischermann. Sikke et privilegium. Deres historie skal fortælles igen og igen – og leve videre. Jytte var en helt lille pige. Hun var en af de heldige europæiske jøder. Blev hjulpet både af folk, hun kendte. Og ukendte. Naboer og andre danskere der så det som deres opgave at hjælpe danske jøder godt på vej til Sverige. Hun blev fragtet afsted i fragtrummet af et stort kulskib. Godt hjulpet på vej af nogle snarrådige naboer på Islands Brygge. To unge tyske soldater som skulle til at inspicere skibet – blev i stedet narret væk med den sidste flaske franske cognac, man fandt i lejligheden. Roberts historie er helt anderledes og lidelsesfuld. Familien – eller i hvert fald store dele af den – blev i 1943 fanget af tyskerne. Og Robert ender som kun 15-årig i Theresienstadt. Robert fortæller mange ting, men især et par af dem vil jeg dele med jer. Fordi de selvfølgelig har gjort så stort indtryk. På d...
    Juridiske og administrative opgaver Og tak til alle jer, de fleste slet ikke møder; jer, der fjerner skrald og gør rent. Jer, der arbejder i fængslerne. I psykiatrien. Jer, der knokler med papirarbejdet. Der er noget galt. In other words, ladies and gentlemen: A lot is at stake! And all of us gathered here today have a great responsibility on our shoulders. Quantum technology is today an inevitable part of our security framework in NATO. But as you know – better than anyone else: Quantum technology takes time, skills and funds to develop. If we want to ensure our common security in the future. And unlock the quantum potential in our societies. We have to lay the groundwork now. And we – as responsible governments – need to provide the right conditions for research and industry to prosper and grow.
    Ventelister for behandlinger i sundhedsvæsenet [...]. Vi har igennem den seneste uges tid hørt om danskere, der har ventet alt for længe på deres behandling for tarmkræft. Det er mennesker, der er alvorligt syge, og man kan ikke betegne det som andet end et svigt. Det er en alvorlig situation, og det er også i mine øjne et tillidsbrud, der er uacceptabelt. I fredags fremlagde indenrigsministeren en genopretningsplan på kræftområdet, og vi kommer til at følge det her område utrolig tæt. Det fører mig til det næste. Tidligere i dag holdt regeringen et pressemøde om fremtidens sundhedsvæsen. Lad mig starte med at sige, at vi har et sundhedsvæsen, der på mange måder er godt og stærkt. Vi har fri og lige adgang til sundhed, i hvert fald på papiret; vi har højt specialiserede sygehuse; vi har dygtige medarbejdere; der er stadig flere af os, der overlever sygdomme, vi ikke ville have overlevet tidligere; og rigtig, rigtig meget går godt. Men – og der er også et men – det er mit indtryk, at rigtig mange danskere kan se det samme, som jeg s... Afslutning] Den danske sangkunstner Ivan Pedersen synger i en sang på hans nyeste CD- udgivelse, at tanker er toldfri......Og hvem siger i øvrigt at drømme er noget, der skal høre natten til. Rigtig god 1. maj.
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • learning_rate: 2e-05
  • num_train_epochs: 1
  • warmup_ratio: 0.1
  • bf16: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 1
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • dispatch_batches: None
  • split_batches: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional

Training Logs

Epoch Step Training Loss Validation Loss dev_evaluator_cosine_accuracy danish_embedding_validator_cosine_accuracy
0.0022 1 1.2548 - - -
0.0547 25 1.1116 - - -
0.1094 50 0.862 - - -
0.1641 75 0.716 - - -
0.2188 100 0.5904 0.5636 0.9934 -
0.2735 125 0.71 - - -
0.3282 150 0.6618 - - -
0.3829 175 0.6027 - - -
0.4376 200 0.4593 0.5097 0.9956 -
0.4923 225 0.534 - - -
0.5470 250 0.504 - - -
0.6018 275 0.5847 - - -
0.6565 300 0.4916 0.4957 0.9956 -
0.7112 325 0.5775 - - -
0.7659 350 0.5891 - - -
0.8206 375 0.5832 - - -
0.8753 400 0.4679 0.4843 0.9956 -
0.9300 425 0.527 - - -
0.9847 450 0.4693 - - -
-1 -1 - - 0.9956 0.9956

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 3.4.1
  • Transformers: 4.48.3
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.3.1
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for dilovancelik/snowflake-arctic-embed-l-v2.0_finetune_danish_subject

Finetuned
(12)
this model

Evaluation results