EllieChoi commited on
Commit
efe8764
·
verified ·
1 Parent(s): 3113f05

Upload folder using huggingface_hub

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,606 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:17552
8
+ - loss:MultipleNegativesRankingLoss
9
+ base_model: shangrilar/klue-roberta-base-klue-sts
10
+ widget:
11
+ - source_sentence: 김치의 숙성정도를 알아내는 센서가 있는 김치냉장고 이름은?
12
+ sentences:
13
+ - "알코올 의존증은 생리학적 원인과 심리학적 원인에 의해 심화된다. 체내의 알코올 대사 과정에서 발생하는 테트라하이드로 이소퀴놀란스는 모르핀과\
14
+ \ 비슷한 구조를 갖는 물질로 동물 실험에서 알코올 기호를 높이는 것이 확인됐다. 이 물질로 인해 알코올 의존증 환자는 술을 끊을 경우 오한,\
15
+ \ 구토, 무력감 등의 금단 증상을 겪는다. 또한 알코올 의존증은 심리적 원인에도 많은 영향을 받는데, 가족의 사랑을 받지 못해 의존적인 성향을\
16
+ \ 보이는 사람들이 보다 알코올 의존증에 취약하다. \n\n신체적 원인은, 1950년대 초반에 캘리포니아 공과대학 연구소의 연구 결과를 통한\
17
+ \ 인체의 뇌에 쾌락 중추 연구 결과 따르면, 신경해부학적로 볼때 알코올이 오피 오이드(아편이라는 물질 과 화학성분이 유사)라는 물질이 분비를\
18
+ \ 촉진하여, 알코올에 의해서 자극을 통해서, 지속적인 쾌감을 느끼려는 욕구에 의해서 술에 대한 중독이 심화 된다는 것이다. \n유전적으로\
19
+ \ 부모가 알코올 의존상태일때는 그 자녀는 4배 이상 알코올 의존증환자가되며, 심리적으로는 현실에 대한 불안이나 억압 또는 부정적인것을 잊어버리기\
20
+ \ 위한 보상을 받으려는 욕구로 알코올을 섭취한다. \n\n알코올 의존의 원인이 되는 알코올 남용과 알코올 의존의 경우에는 다음과 같이 나누어진다.\
21
+ \ \n*‘알코올남용’의 경우 알코올에 대한 의존이 심한것으로 반복적 음주로 직장 및 가정에서 역할을 다하지 못하거나, 신체적으로 건강등에\
22
+ \ 위험한 상황에서 반복적으로 음주한다.\n* ‘알코올의존’은 예전만큼 음주해서는 알코올의 효과가 감소되어 음주량이 더 많아 지는것 및 술을\
23
+ \ 줄이거나 끊었을 때 나타나는 불안, 불면, 설사, 환청, 환시, 간질발작과 같은 증상등이 나타나는데 이런 증상을 없애기 위해 술을 또 마시는것등이다."
24
+ - 광주광역시 광산구의 삼성전자 냉장고 생산라인. 18일 찾은 이곳에선 요즘 김장철을 맞아 19초마다 1대씩, 매일 2000여대의 김치냉장고를
25
+ 생산하고 있었다. 생산라인을 총괄하는 김광덕 상무는 “11월엔 하루 10시간씩 2교대로 일해도 소화하지 못할 만큼 물량이 몰리고 있다”고 말했다.삼성이
26
+ 올해 김치냉장고 시장에 내놓은 승부수는 ‘메탈’이다. 김치를 장독에 담아 땅속에 묻는 것과 같은 수준으로 온도 변화를 최소화하기 위해 김치냉장고
27
+ 칸칸을 알루미늄 스테인리스 등 금속으로 감쌌다. 제품명을 ‘메탈 그라운드’로 정한 것도 그래서다. 이를 통해 냉장고 문을 여닫을 때도 내부
28
+ 온도 변화를 ±0.3도 이내로 유지할 수 있게 했다. 온도 편차가 0.2도만 커져도 김치가 15%나 더 숙성하기 때문이라고 삼성 측은 설명했다.김치냉장고
29
+ 개발팀이 금속 재질을 적용하기로 결정한 것은 지난 1월이었다. 지난해 내놓은 제품은 김치통 밖에 캡슐을 하나 더 씌우는 방법으로 정온성을 유지했다.
30
+ 하지만 소비자 입장에선 김치를 꺼내기 위해 캡슐에 이어 김치통을 다시 열어야 해 불편했다. 그래서 캡슐을 없애는 대신 냉기 전달력이 뛰어난
31
+ 금속을 쓰기로 한 것이다.이때부터 김치와의 전쟁이 시작됐다. 처음 시도하는 것이다 보니 어떤 두께로 어떤 소재의 금속을 써야 김치를 익히는
32
+ 데 가장 좋은지 알 수가 없었다. 또 다양해진 소비자 입맛에 맞추기 위해서는 배추김치 외에도 묵은지, 깍두기, 저염 김치 등 다양한 김치에
33
+ 맞는 숙성기술을 확보해야 했다. 결국 먹어 보는 수밖에 없었다. 개발팀은 금속판 두께, 온도 등 다양한 변수를 설정하고 직접 김치를 익힌 뒤
34
+ 시식했다. 이날 방문한 연구실에도 수십대의 냉장고에 갖가지 김치들이 보관돼 있었다. 이명주 책임연구원은 “김치를 먹고 빵 같은 것을 씹어 입을
35
+ 씻어낸 뒤 다시 김치를 먹기를 몇 달이나 반복했다”며 “실험용으로 쓴 김치가 5t이 넘는다”고 말했다. 결국 여섯 종류의 김치를 익히는 최적의
36
+ 기술을 개발해 제품에 담았다.개발팀은 여기에 그치지 않고 보관통마다 담겨 있는 김치가 어느 정도 익었는지 볼 수 있는 센��도 달기로 했다.
37
+ 설익은 김치를 좋아하는 사람도 있고 조금 쉰 듯한 맛을 즐기는 사람도 있기 때문이다. 팀은 연구를 통해 김치가 익을수록 초산이라는 성분을 많이
38
+ 뿜어낸다는 것을 알아냈다. ‘메탈 그라운드’에 포함된 김치통에는 이 센서가 각각 달려 있다.김치냉장고는 국내에서만 팔리는 제품이지만 시장 규모는
39
+ 작지 않다. 매년 1조원어치의 김치냉장고가 팔리고 있다는 게 업계 분석이다. 특히 올해는 풍년으로 배추 가격이 크게 떨어진 데다 교체 수요가
40
+ 몰리면서 예년보다 시장 규모가 10% 이상 커질 것으로 전망하고 있다. 삼성을 비롯한 각 사가 치열한 김치냉장고 신제품 경쟁을 벌이는 이유다.
41
+ - "그러나 한편으로는 미국 사회의 인종차별주의적, 흑인을 차별하는 태도를 목격하면서 백인들의 오만함에 대한 부정적인 생각을 갖게 되었다. 미국\
42
+ \ 체류 중 황인종을 멸시하는 백인 불량배들에게 끌려가 가끔 얻어맞기도 하고, “유색 인종”이라는 이유로 호텔 투숙을 거절당해 정거장에서 밤을\
43
+ \ 지샜는가 하면, 세례 교인이었던 그와 가장 가까워야 할 미국인 선교사에게마저 늘 은근히 - 그리고 가끔은 매우 노골적으로 - “왕따”당하는\
44
+ \ 처지였다 귀국 이후에 조선에서 만난 미국인 선교사들도 비슷하게 그를 대우했다.\n\n당시의 그에 대해 후일 노르웨이 오슬로 대학 교수 박노자는\
45
+ \ '백인 인종주의에 상처받아 만신창이가 되었을 그의 마음 상태 '를 지적하기도 했다.\n\n만약 내가 마음대로 내 고국을 선택할 수 있다면,\
46
+ \ 나는 일본을 선택할 것이다. 오, 축복받은 일본이여! 동방의 낙원이여! |1893년 11월 1일자 일기 \n\n그는 평소 조선인들의 불결한\
47
+ \ 위생과 겉치레, 감정적 대응 등을 내심 경멸해왔다. 그리고 서구의 기독교사상과 일한 만큼만 대가를 받는다는 청교도 정신, 합리주의의 수용을\
48
+ \ 통해 이를 개선하려 했다. 그러나 평소 기독교선교사들로부터도 자기 일 처리도 못하는 작은 아이, 원주민, 예의를 지키지 않아도 될 만한\
49
+ \ 사람의 대접을 늘 받아 온 윤치호는, 인종주의야말로 미국의 가장 중요한 특징이라는 결론을 내리게 되었다 그 뒤 그는 조선에도 민주주의와\
50
+ \ 자유주의, 기독교 정신의 도입이 시급하다고 봤다. 그러나 미국의 민주주의와 자유주의, 기독교 사상과 개척정신은 높이 평가하면서도 내심 백인종을\
51
+ \ 혐오하는 이중적인 태도와 인종주의적인 사고를 갖게 되었다.\n\n어느 교회에서 남부 출신 남감리교회 목사들이 예배 시간에 흑인을 박멸해야\
52
+ \ 된다는 설교, 흑인들을 아프리카로 추방해야 된다는 설교를 듣고는 충격을 받기도 했다 그들이 목사인가 기독교인인가 자체를 의심하기도 했다.\
53
+ \ 하지만 흑인이 백인들로부터 차별대우를 받는 것에는 분노하면서도 흑인에 대해서는 1893년 2월 17일자 일기에 '(아프리카인들이 미국에\
54
+ \ 끌려와) 영어를 배운 것만으로도 그들의 노예생활에 대해 충분히 보상받은 것이다. 라는 이중적인 시각을 갖게 된다. 귀국 이후 그는 국내\
55
+ \ 인사들이 미국을 무조건적으로 의존하거나 일제와는 다른 선량한 국가일 것이라는 생각을 비판, 경계하기도 했다."
56
+ - source_sentence: 다음 해 우리나라 국채의 규모는 얼마인가?
57
+ sentences:
58
+ - 국회 예산결산특별위원회는 오는 30일 ‘2015년도 예산안 및 기금운용계획안에 대한 공청회’를 열고 각계 전문가로부터 내년도 예산안에 대한
59
+ 의견을 듣는다. 이어 11월6일 전체회의를 시작으로 본격적인 예산 심의에 들어간다. 7~8일에는 정홍원 국무총리와 최경환 부총리 겸 기획재정부
60
+ 장관이 출석한 가운데 예산안에 대한 정부 측 제안 설명과 예결위 전문위원의 검토 보고를 듣고 종합 정책질의를 할 예정이다.예결특위는 10~13일
61
+ 부별 심사를 거쳐 16일부터 예산안심사 소위원회를 가동하고 30일 전체회의에서 예산안을 의결해 본회의로 넘긴다는 계획이다. 올해부터는 개정
62
+ 국회법(일명 국회선진화법)에 따라 11월 안에 내년도 예산안 심의를 마치지 못하면 12월1일 본회의에 정부 원안이 자동 부의(토의에 부침)된다.
63
+ 여야 모두 헌법상 예산안 처리 시한인 12월2일을 준수하겠다는 방침이지만 현행법상 여야 원내대표 합의로 이를 연기할 수 있도록 돼 있어 올해도
64
+ 예산안 처리 시한을 넘길 가능성을 배제할 수 없다.정부가 국회에 제출한 내년도 ��산안 규모는 총 376조원으로 올해에 비해 5.7%(20조2000억원)
65
+ 늘었다. 국민연금 등을 제외한 관리재정수지 적자가 올해 25조5000억원에서 내년에는 33조6000억원으로 확대될 전망이다. 내년 국가채무도
66
+ 국내총생산(GDP)의 35.7%인 570조1000억원으로 급증해 사상 최고치를 기록하게 된다.정부·여당은 이에 대해 활력을 잃어가고 있는 한국
67
+ 경제를 되살리기 위한 불가피한 조치라고 보고 있으나 야당 측은 무리한 재정 운용으로 미래 세대에 부담을 떠넘겨서는 안 된다고 지적한다. 국회
68
+ 기획재정위원회 소속 한 새정치민주연합 의원은 “이렇게 무리한 적자재정을 편성한 것은 아무리 좋게 봐주려고 해도 내후년 총선을 겨냥해 경기를
69
+ 부양하려는 의도라는 의심을 지울 수 없다”며 “정말 한국 경제의 구조적 문제를 해결하려고 한다면 일시적 처방이 아닌 잠재성장률 자체를 높이기
70
+ 위한 정책을 내놨어야 한다”고 말했다.예산안은 물론 법안 심사 과정에서도 여야 간 한판 승부가 불가피하다. 대표적 쟁점 법안인 세월호 특별법,
71
+ 정부조직법, ‘유병언법’ 등 ‘세월호 3법’과 여권이 사활을 걸고 추진 중인 경제활성화 관련 법, 정부가 연내 입법에 드라이브를 걸고 있는
72
+ 공무원연금 개혁안 등을 놓고 여야가 첨예하게 대립하고 있기 때문이다. 특히 정부·여당이 최우선 입법 과제로 꼽고 있는 서비스산업발전기본법,
73
+ 의료법 개정안, 관광진흥법, 자본시장법, 크루즈법, 마리나 항만법, 소규모 주택임대 수입에 대해 소득세를 낮추는 소득세법 개정안, 월세 임차인에
74
+ 대한 세제지원 확대 등을 담은 조세특례제한법 개정안, 분양가 상한제를 탄력 적용하는 주택법 개정안, 재건축 초과이익 환수폐지 법안 등 30여개에
75
+ 달하는 경제활성화 법이 국회에 묶여 있는 상태다.김현숙 새누리당 원내대변인은 “안타깝게도 새정치연합은 민생과 복지를 얘기하면서 그 핵심인 경제활성화는
76
+ 외면하고 있다”며 “질타만 하지 말고 관련 법을 꼼꼼히 살펴보고 반드시 함께 처리해 대한민국이 저성장의 굴레에서 벗어나는 기회로 삼아야 한다”고
77
+ 주장했다.
78
+ - '당간지주는 사찰 입구에 설치해 두는 것으로, 절에 행사나 의식이 있을 때 이곳에 당이라는 깃발을 걸어둔다. 이 깃발을 매달아두는 길쭉한 장대를
79
+ 당간이라 하며, 이를 양쪽에서 지탱해 주는 두 돌기둥을 당간지주라 한다. 드물게 당간이 있으나 대부분은 두 기둥만 남아 있다.
80
+
81
+
82
+ 이 당간지주는 만덕동에서 제1 만덕터널로 들어가는 진입로 아래의 만덕사터에 서 있다. 두 기둥 중에서 한쪽 기둥만 남아 있으며, 기둥 옆으로는
83
+ 당간의 받침돌로 보이는 작은 돌이 놓여 있다. 바깥면은 가운데에 도드라진 선을 한 줄 새겨놓았고, 안쪽면 꼭대기에는 네모난 홈을 파서 당간을
84
+ 고정시키도록 하였다. 맨 위는 안쪽에서 바깥쪽으로 2단의 굴곡을 주면서 둥글게 깎아두었다.
85
+
86
+
87
+ 각 부분의 돌을 다듬는 솜씨가 인근의 범어사 당간지주와 비교하여 매우 세련되어 있다. 비록 한쪽 기둥만 남아 있으나, 땅위에 드러난 높이가
88
+ 길어 그 사이에 당간이 놓였다면 더욱 더 웅장했을 것으로 보인다. 만덕사가 창건된 시기와 때를 같이하여 고려 전기에 만든 것으로 보이며, 만덕사
89
+ 옛터의 경계를 정하는데 있어 좋은 자료가 되고 있다.'
90
+ - '전년도에 2년 연속 일본 시리즈 정상에 오른 세이부 라이온스의 모리 마사아키 감독이 퍼시픽 리그 올스타팀을 지휘했고 센트럴 리그 우승을 이끈
91
+ 요미우리 자이언츠의 오 사다하루 감독이 센트럴 리그 올스타팀의 지휘를 맡았다. 1987년부터 MVP 수상자에게 상금과 상품을 증정해 온 산요
92
+ 전기가 이 해부터 특별 협찬 기업이 되면서 대회명도 ‘산요 올스타 게임’(サンヨーオールスターゲーム)이라는 명칭이 변경됐다(2006년까지).
93
+
94
+
95
+ 지붕을 씌우고 좌우 양쪽의 100m 넓이를 가지는 도쿄 돔이 개장하면서 ‘야구의 질이 달라졌다’라고 말할 정도였고, 시즌 종료와 함께 긴 역사를
96
+ 가졌던 한큐 브레이브스와 난카이 호크스가 매각되면서 프로 야구도 새로운 시대를 맞이하려 하고 있었다.
97
+
98
+
99
+ 7월 23일로 치를 예정이었던 1차전이 우천으로 인해서 24일로 연기됐다. 1차전에서는 결과적으로 올스타전 최종 개최가 되는 한큐 니시노미야
100
+ 구장에서 개최돼 니시노미야 구장의 홈팀인 한큐의 호시노 노부유키가 퍼시픽 올스타팀의 선발 투수로서 등판하여 책임 투구 이닝을 무실점으로 틀어
101
+ 막았고 한큐의 주력 타자인 부머 웰스가 대형 홈런을 날리는 등 역사 깊은 구단의 화려한 해체와 같은 전개가 이뤄졌다.
102
+
103
+
104
+ 2차전에서는 나고야 구장에서 개최됐는데 오 사다하루를 동경하여 프로에 입문한 고졸 신인 다쓰나미 가즈요시가 선발 출전했고, 당시에는 지명타자가
105
+ 올스타전에 도입돼 있지 않아서 가도타 히로미쓰가 3번 타자 겸 우익수로서 선발 출전했다. 6회에 오카다 아키노부(한신)의 역전 홈런으로 센트럴
106
+ 올스타팀은 1승 1패를 기록했고 오카다는 2차전 MVP에 선정됐다. 그리고 최종전인 3차전에서는 개장한 지 4개월 된 도쿄 돔에서 처음으로
107
+ 올스타전이 개최됐는데 당시 도쿄 돔을 홈구장으로 사용하고 있던 닛폰햄 파이터스의 에이스 니시자키 유키히로가 퍼시픽 올스타팀의 선발 투수로서
108
+ 3이닝을 퍼펙트(2회말에는 클린업에게서 3자 연속 삼진, 3회말 2사에 대타 다쓰나미로부터 5개째의 삼진) 기록을 세웠다. 1986년 이후
109
+ 2년 만에 연장전으로 들어가면서 무승부 직전의 12회말, 야수를 전부 기용한 센트럴 올스타팀은 투수 미즈노 가쓰히토를 대타로 보냈는데 이것이
110
+ 끝내기 희생 플라이가 되면서 센트럴 올스타팀이 쇼와 시대의 마지막 올스타전을 승리로 매듭지었다.
111
+
112
+
113
+ 3차전이 열린 도쿄 돔에서는 1988년도 야구 명예의 전당 시상식이 거행됐는데 센트럴 올스타팀의 감독이자 요미우리를 지휘하고 있는 오 사다하루의
114
+ 후임으로 유력하게 거론돼던 나가시마 시게오가 그해 야구 명예의 전당의 헌액자로서 등장했다(그 후 히로오카 다쓰로를 임명하려 했으나 고사했고
115
+ 후지타 모토시가 재부임). 사다하루·나가시마의 ‘ON 콤비’가 올스타전 무대에서 동시에 등장한 것은 1979년(나가시마는 감독, 사다하루는
116
+ 현역 선수) 이후의 일이었고 이들 두 사람이 양대 리그의 감독으로서 올스타전에 나란히 등장한 것은 그로부터 13년 후인 2001년이다.
117
+
118
+
119
+ 그 해에는 워렌 크로마티의 대역으로 요미우리에서 대활약한 뤼밍츠가 감독 추천으로 올스타전에 첫 출전하여 전 경기에 선발로 출전했지만 무안타에
120
+ 그쳤다.'
121
+ - source_sentence: 정치하는 엄마들이 피해자들이 정상적인 일상생활을 할 수 있도록 돕기 위해 진행했던 서비스는?
122
+ sentences:
123
+ - "스쿨미투는 학교에서 일어난 아동 성폭력을 아동청소년들 스스로 고발하며 공론화의 주체가 된 인권운동이다. 2018년 4월 용화여고 졸업생들이\
124
+ \ 재학 중에 겪었던 학교 성폭력을 공론화하자, 재학생들이 교실 창문에 포스트잇으로 #METOO #WITHYOU 모양으로 붙여 화답하며 한국의\
125
+ \ 고질적인 학교 성폭력 실태 고발이 들불처럼 이어졌다. 오랫동안 교사들이 저질러온 성폭행, 성추행, 성희롱, 성차별 발언들이 만연한 교육현장의\
126
+ \ 추악한 민낯은 한국 사회에 큰 충격을 주었다. 2018년 10월 국정감사에서 ‘스쿨미투’가 언급될 만큼 피해 학생들의 제보와 폭로가 이어져\
127
+ \ 사태의 심각성이 입증되었지만, 처벌은 미온적이고 가해교사들은 교단으로 부메랑처럼 복귀하는 등 교육 현장은 개선되지 않았다. 더 이상의 피해를\
128
+ \ 막기 위해 용기 냈던 학생들은 주동자 색출 위협과 소외와 조롱을 견디며 보호받지 못했다. 학교 및 교육 당국의 더디고 미흡한 조치로 공론화\
129
+ \ 당사자들은 일상으로 돌아오지 못하고 힘겹게 학업을 이어가거나 학교를 떠나기도 했다. 한국사회는 마땅히 안전해야 할 교육 현장에서 아동학대•\
130
+ \ 아동인권 침해 사안이 일어나도 문제 해결의 결정적 주체인 학교가 은폐• 축소하면 전혀 알 수 없는 끔찍한 현실을 마주하게 되었다.\n\n\
131
+ \n이에 정치하는엄마들은 피해 당사자들이 하루빨리 일상으로 복귀하길 바라는 마음으로 무료 법률지원을 시작했다. 2018년 2월부터 스쿨미투를\
132
+ \ 공론화한 전국 79개교 중 연락 가능한 49개교 트위터 계정들에 안내를 시작으로 피해 당사자들이 학교, 교육청, 경찰 등과 겪고 있는 갈등\
133
+ \ 조정을 이어가고 있다. 더불어 대한민국의 교육현장에서 오랫동안 자행되어 왔던 아동 인권 침해의 벽을 뚫고 나온, 아동 청소년들의 절박하고\
134
+ \ 용기있는 목소리들을 바탕으로 스쿨미투 전국지도를 제작하여 온라인 상에 공개하고 있다.\n\n\n피해자 회복과 가해 재발 방지를 위해 투명한\
135
+ \ 행정처리와 정보공개는 필수이다. 이에 2019년 3월 정치하는엄마들은 제주를 제외한 전국 16개 시도교육청에 스쿨미투 현황 파악을 위한\
136
+ \ 정보공개청구를 하였다. 그러나 대부분의 시도교육청으로부터 비공개 답변을 받았다. 정보공개 청구 당시 23개교로 학생들이 가장 많이 고발한\
137
+ \ 지역 관할인 서울시교육청의 불투명한 정보 비공개, 부존재로 답변하는 등 소극행정에 대하여 정치하는엄마들은 서울시교육청 상대로 2019년\
138
+ \ 5월 스승의 날을 맞아 정보공개거부 철회 행정소송 제기했다. 2020년 3월 5일 서울행정법원은 교사 실명 등 개인정보를 가리고 스쿨미투\
139
+ \ 처리결과를 공개하라는 일부승소 판결을 내렸다. 그러나 서울시교육청은 정보가 공개될 경우 배제징계를 받은 교사가 교단에 설 수 있을지 걱정된다며,\
140
+ \ 교사의 사생활 보호를 이유로 2020년 3월 20일 항소하여 올바른 교육문화 정책의 방향과 아동인권을 후퇴시킨다는 비판을 받고 있다. \n\
141
+ \n\n스쿨미투는2019년 3월 한국을 찾은 트위터 CEO 잭 도시가 불의에 맞서는 한국 청소년들이 공론의 장으로 트위터를 선택해준 걸 자랑스럽게\
142
+ \ 여기며 높이 평가할 정도로 2018년 한국 인권운동의 한 획을 그은 역사적인 일이다. 동시에 2019년 유엔 아동인권위원회 본회의 안건으로\
143
+ \ 채택될 만큼 국제사회가 한국에게 그 후속대책과 국가적 책임을 묻고 있는 중대한 사안이다. 학교 성폭력 해결은 현재를 살아가고 있는 아동뿐만\
144
+ \ 아니라 오랫동안 위계에 갇혀 부당한 권력에 침묵했던 시민들 스스로가 인권침해 상황을 견뎌왔던 존재였음을 인정하는 것부터 그 첫걸음이 될\
145
+ \ 것이다.\n\n정치하는엄마들은 아이들과 함께 살아가는 사람들로서, 교육 현장에 만연해 있는 성폭력 해결을 통해 그 누구도 차별 받지 않고\
146
+ \ 존재 그대로 존중받는 세상을 만들기 위해 노력하고 있다."
147
+ - '그녀는 경기도 용인의 한 이교도 집안에서 태어났다. 그녀는 경기도 봉천리에 있는 한 이교도 이씨 집안으로 시집왔고, 중년에 시누이 이매임
148
+ 테레사의 권유로 천주교에 입교했다. 그녀는 그녀의 남편이 개종했으면 하는 바람은 이루지 못했지만, 자식들이 개종하는데에는 일조하였다. 후일에
149
+ 그녀의 딸들 중 이영희 막달레나는 1839년 7월 20일에 순교했고, 같은 해 9월 3일에는 이정희 바르바라도 순교하였다.
150
+
151
+
152
+ 1839년 3월에 그녀는 성사를 받으러 한양으로 올라왔다. 그녀는 시누이 이매임과 두 딸 이영희와 이정희가 사는 집에 머물던 중 교우 남명혁
153
+ 다미아노와 이광헌 아우구스티노의 용감한 순교 소식을 계기로, 두 딸과 시누이, 동료 김성임 마르타 그리고 김 루치아 등과 함께 자수를 결심하고
154
+ 1839년 4월 11일에 남명혁 다미아노의 집을 경계하던 포졸들에게 묵주를 보이며 천주교 신자임을 알리고 자수하였다.
155
+
156
+
157
+ 허계임의 옥중 생활에 대해서는 많은 기록이 남아 있지 않은데, 그녀는 격심한 고문을 받았지만, 용기와 인내로 온갖 고통을 견뎌냈다는 것이 그것에
158
+ 대해 알려진 대부분이다. 그녀의 용기는 그녀의 두 딸 이영희와 이정희의 용기만큼 위대했다. 그 두 순교자의 어머니 또한 순교자가 된 것이다.
159
+ 그 영광스러운 순교자 가족은 하느님의 은총이다.
160
+
161
+
162
+ 허계임은 1839년 9월 26일에 서소문 바깥에서 여덟 명의 교우와 함께 참수되었다. 그렇게 그녀는 67세의 나이로 순교하였다.'
163
+ - 대림성모병원(병원장 김성원)이 ‘코로나19로 인한 5대 암(위암‧대장암‧자궁경부암‧간암‧유방암) 진단 지연 실태’에 대한 분석 결과를 발표했다.
164
+ 암은 발견 시기에 따라 생존율이 크게 달라지기 때문에 조기 발견이 매우 중요하다. 대림성모병원은 코로나19로 인해 낮아진 5대 암 진단 실태를
165
+ 알리고 빠른 검진의 중요성을 강조하고자 이번 조사를 실시했다. ■ 올해 3~5월 5대 암 진단 건수, 전년 동기 대비 5000여건 감소 대림성모병원이
166
+ 국민건강보험공단에 등록된 위암, 대장암, 자궁경부암, 간암, 유방암 산정특례 건수를 분석한 결과, 2020년 3~5월 건수가 전년 동기간 대비
167
+ 5,146건 감소한 것으로 나타났으며, 이는 2019년에 비해 21.4% 감소한 수치이다. 해당 건수에는 산정특례 종료 시점에서 재발 또는
168
+ 전이로 기간을 연장하는 경우는 제외했기 때문에 해당 암을 처음 진단받은 환자 수가 전년 대비 크게 낮아진 것을 알 수 있다. 위암 등록건수는
169
+ 2019년 6,823건에서 2020년 4,735건으로 2,088건 감소해 30.6%가 낮아졌다. 대장암은 6,765건에서 5,325건으로 1,440건(21.3%
170
+ 감소), 자궁경부암은 846건에서 632건으로 214건(25.3% 감소), 간암은 3,800건에서 3,276건으로 524건(13.8% 감소),
171
+ 유방암은 5,789건에서 4,909건으로 880건(15.2% 감소)이 줄어든 것으로 나타났다. ■ 코로나19로 5대 암 수검율 큰 폭 하락
172
+ 이처럼 코로나19가 발병한 이후 3개월간 2020년 3~5월 5대 암 환자 수는 전년 대비해 5,000여 명이 감소한 것으로 나타났다. 이는
173
+ 수많은 암 환자가 진단되지 않고 있다는 것을 의미한다. 암 발견 시기는 생존율에 큰 영향을 미치기 때문에 조기검진을 통한 빠른 치료는 무엇보다
174
+ 중요하다. 대림성모병원은 진단 건수뿐만 아니라 실제 검진율이 얼마나 감소했는지 알아보기 위해 본원의 5대 암 검진 건수를 분석했다. 그 결과
175
+ 올해 2~5월에 5대 암 검진 건수가 작년 동기간 대비해 52.8%가 감소한 것으로 나타났다. 대림성모병원 김성원 병원장은 “코로나19로 인한
176
+ 검진율 감소는 본원뿐만 아니라 전국의 모든 병원이 체감하고 있을 것이다.”라며 “코로나19 2차 대유행 및 장기화를 대비하기 위해 사회적 거리두기를
177
+ 통한 생활 방역이 매우 중요한 시기이다. 하지만 암 검진을 늦추는 것은 진단 지연으로 암이 전이되어 심각한 결과를 초래할 수 있기 때문에 검진
178
+ 대상자는 제때 검진을 받고 암 증상이 있다면 조금이라도 빨리 병원을 방문하기를 바란다.”라고 말했다.
179
+ - source_sentence: 전자태그 갱신제와 함께 도입되는 제도는?
180
+ sentences:
181
+ - 왓챠는 ‘제1회 왓챠 시리즈 각본 공모전’ 결과 대상을 수상한 전설 작가의 <공단>을 포함해 총 5편의 수상작을 선정했다고 29일 발표했다.
182
+ <공단>은 개성공단에서 일하던 북한 여인과 남한 여인이 서로와의 교감을 통해 성장하고 연대하며 희망과 사랑을 찾게 되는 이야기다. 대상에 선정된
183
+ 전설작가에게는 상금 2천만원이 수여된다. 우수상에는 전효정 작가의 <웬수의 네 번째 웨딩>과 김도연 작가의 <다시 좀비가 될 순 없어>, 두
184
+ 편이 선정됐다. 우수상 수상 작가에게는 1천만원의 상금이 수여된다. <웬수의 네 번째 웨딩>은 웨딩플래너인 주인공이 짝사랑하는 남자의 새아빠가
185
+ 될 자신의 철없는 친아빠의 네 번째 결혼식 웨딩플래닝을 맡게 되면서 미처 몰랐던 진정한 사랑을 찾아가는 성장 스토리다. <다시 좀비가 될 순
186
+ 없어>는 좀비에게 물리는 것보다 좀비 확진자였다는 사회적 낙인이 더 무서운 세상에서 좀비 확진자였던 주인공이 회사라는 공간에서 생존해가는 이야기다.
187
+ 장려상에는 조유진 작가의 <완벽한 하루>와 안세화 작가의 <손을 잡아줘>가 선정됐다. 두 작가에게는 상금 5백만원이 수여된다. 총 상금 5천만원
188
+ 규모로 올해 처음으로 진행된 ‘왓챠 시리즈 각본 공모전’에는 600편 넘는 작품이 응모됐다.
189
+ - 화장품을 팔기 위해선 정신감정을 받아야 한다. 메이크업 전문업체를 내려면 미용사 자격증이 있어야 한다. 일회용 이쑤시개도 개별 포장지에 제조연월을
190
+ 모두 표시해야 한다…. 덩어리 규제만 경제의 발목을 잡는 것이 아니다. 은퇴 후 창업 등 자영업 전선에 나선 사람들은 전혀 예기치 않은 규제와
191
+ 맞닥뜨려 곤란을 겪는 경우가 많다. 25일 한국경제신문이 자영업 규제 실태를 파악한 결과 소상공인의 창업을 가로막는 안전·위생 규제는 수십
192
+ 가지에 달했다. 대표적인 게 화장품 제조·유통업체를 운영하려면 정신감정을 받아야 한다는 화장품법 조항이다. 식품의약품안전처는 소비자 안전을
193
+ 위해 필요한 조항이라고 설명하지만 이것이 과연 필요한 규제인지는 논란이 분분하다. 업계의 한 관계자는 “제품 안전을 위해 하필이면 정신감정을
194
+ 의무화해야 할 이유가 뭔지 모르겠다”며 “정말 황당해 하는 사람이 많다”고 말했다. A5면에 계속 고은이 기자 [email protected]
195
+ 한경 기업신문고 무역협회·전경련·중기중앙회와 함께 운영합니다
196
+ - 서울시가 승용차요일제 가입 차량에 제공하던 자동차세 5% 감면 혜택을 내년부터 폐지한다. 2003년 승용차요일제가 도입된 지 11년 만에 가입
197
+ 혜택을 축소하는 것이다. ▶본지 2월10일자 A31면 참조서울시는 “승용차요일제의 실효성을 높이기 위해 전문가 간담회와 시민공청회 등을 거쳐
198
+ 이 같은 방안을 확정했다”고 27일 발표했다. 승용차요일제는 월~금요일 5일 중 시민 스스로 쉬는 날을 정하고 승용차요일제 전자태그를 차량에
199
+ 부착한 뒤 해당 요일에 차량을 운행하지 않으면 혜택을 주는 제도다. 지난달 말 기준으로 서울 등록차량 237만대 중 33%인 79만대가 가입돼
200
+ 있다.서울시는 그동안 승용차요일제 가입 차량에 대해 남산 혼잡통행료 50%, 공영주차장 요금 30% 할인과 자동차세 5% 감면 등 다양한 인센티브를
201
+ 제공해왔다. 그러나 일부 가입자가 혜택만 받고 전자태그를 떼거나 운휴일을 위반하는 사례가 잇따라 제도 정비의 필요성이 제기됐다. 서울시는 시내
202
+ 19곳에 전자태그 리더기를 설치해 요일제 위반 차량을 적발했지만 이들 지점을 제외하면 사실상 단속이 어렵다. 서울시는 한 해 3회 이상 운휴일을
203
+ 위반한 차량 5만여대를 적발했지만 실제 위반 차량은 수십만대에 달할 것으로 보고 있다.이와 함께 전자태그 갱신제도 오는 9월부터 시행한다.
204
+ 전자태그 발급일로부터 만 5년이 지난 뒤 90일 이내에 태그를 재발급받지 않으면 자동 탈퇴 처리한다. 다만 도입 초기 혼란 방지를 위해 2006~2010년에
205
+ 발급된 전자태그(약 60만장)에 한해 2016년 3월30일까지 재발급받는 것을 허용한다.대신 서울시는 자기 승용차를 평상시보다 덜 몰아 주행거리를
206
+ 줄이면 인센티브를 지급하는 ‘드라이빙 마일리지제’를 도입, 9월부터 시범운영에 들어갈 방침이다. 서울시는 보험사와 협의해 조만간 구체적인 인센티브
207
+ 방안을 마련할 계획이다.
208
+ - source_sentence: JD월드와이드보다 먼저 해외 직구 사이트를 만든 회사는?
209
+ sentences:
210
+ - 중국의 1, 2위 전자상거래업체 알리바바와 JD닷컴이 급성장하는 해외 직접구매(직구) 시장을 놓고 맞붙었다.16일 사우스차이나모닝포스트(SCMP)에
211
+ 따르면 JD닷컴은 지난 15일 해외 직구 전용 사이트 JD월드와이드(www.jd.hk)를 개설해 본격적인 영업에 들어갔다. 중국 소비자는 이
212
+ 사이트에서 중국에 직접 진출하지 않은 기업의 제품도 온라인으로 구매할 수 있다. 현재 버버리 랄프로렌 리바이스 보스 에코 등 패션 브랜드와
213
+ 시세이도 랑콤 등 화장품 브랜드가 제품을 판매하고 있다. JD닷컴 관계자는 “미국 호주 프랑스 일본 한국 등의 다수 기업이 참여 의사를 밝혔다”며
214
+ “향후 세계 1200개 브랜드 제품을 판매할 것”이라고 설명했다. 앞서 알리바바의 B2C 전자상거래 사이트인 티몰은 작년 2월 해외직구 전문
215
+ 사이트 티몰글로벌(www.tmall.hk)을 열었다. 이곳에는 한국의 이마트 롯데마트 LG생활건강 등도 입점해 있다.중국 전자상거래연구센터에
216
+ 따르면 중국의 해외 직구 시장은 2013년 13조원이던 것이 작년에는 27조원으로 커졌으며, 2018년에는 418조원 규모로 급팽창할 것으로
217
+ 예상되고 있다.
218
+ - 달라스튜디오가 신규 웹예능 ‘배달그라운드’로 뜨거운 인기를 이어간다. 글로벌 미디어 기업 에이앤이 코리아(A+E Korea)의 유튜브 채널
219
+ ‘달라스튜디오’가 2020년 돌풍을 일으킨 ‘네고왕’과 ‘발명왕’의 인기를 이어갈 신작 웹예능 ‘배달그라운드’를 오늘(12일) 저녁 6시 30분에
220
+ 첫 공개한다. ‘배달그라운드’는 찾아가는 본격 전국 배달맛집 리뷰 웹예능으로, 언택트 시대에 걸맞는 먹방 리뷰 콘텐츠로 다시 한번 에이앤이
221
+ 디지털 스튜디오만의 ‘남다른’ 행보를 이어갈 예정. ‘배달그라운드’는 전국 방방곡곡 숨은 배달맛집들을 발굴하고, 직접 배달 가능 지역으로 찾아가
222
+ ‘어디서든’ 100% 솔직한 먹방 리뷰를 전한다. 특히 길바닥부터 모텔 바닥까지 배달 가능 지역에 어디서든 안전하게 먹을 수 있는 곳을 찾아
223
+ 무작정 펼치는 이색 먹방을 펼칠 예정. 언택트 시대로 각광받고 있는 ‘배달 맛집 투어’라는 신선한 컨셉과 SNL에서 싱크로율 100%를 자랑하는
224
+ 이광수 얼굴묘사로 ‘보급형 이광수’ 라는 타이틀을 얻은 배우 겸 개그맨 이명훈이라는 신선한 캐스팅으로 더욱 기대를 북돋고 있다. 12일(목)
225
+ 공개될 ‘배달그라운드’ 1화에서는 정제되지 않은 예능원석 이명훈이 거침없는 배달 맛집 투어의 첫 시작을 알린다. “얼굴은 이광수, 이름은 임영웅을
226
+ 닮았다”는 닮은 꼴 부자 이명훈의 자유분방한 동네투어부터 제작진과의 남다른 티격태격 케미 폭발로 첫 화부터 새로운 웃음 폭탄의 등장을 알릴
227
+ 예정. “‘동네왕’으로 이름 변경하면 안 돼요?”라며 왕이 되고 싶다는 야심을 드���낸 이명훈과 콘텐츠 재미를 위한 제작진들의 고군분투 케미가
228
+ ‘배달그라운드’ 유행을 예고한다. 에이앤이 코리아 디지털 스튜디오에서 선보인 유튜브 채널 ‘달라스튜디오’는 ‘네고왕’, ‘발명왕’ 등 메가
229
+ 히트 웹예능을 잇달아 선보이고 있다. 런칭 3개월만에 구독자 100만 명 돌파하는 등 독보적인 화제성과 파급력을 입증하고 있는 달라스튜디오는
230
+ '배달그라운드'를 공개해 흥행 돌풍을 이어갈 계획이다. 찾아가는 배달 맛집 전국 투어가 시작되는 '배달그라운드' 1화는 12일(목) 저녁 6시
231
+ 30분 달라스튜디오에서 공개된다. ‘배달그라운드’는 매주 목요일 저녁 6시 30분 유튜브 채널 달라스튜디오에서 공개될 예정이다.
232
+ - '다우(NYSE: DOW)가 지속가능한 패키징의 상용화에 앞장서고자 세계적인 플라스틱 필름 포장재 제조사인 통 구안(Thong Guan)과
233
+ 협력해 지속 가능 자원 기반의 폴리에틸렌 수지로 만든 식품용 랩 ‘나노 바이오(Nano Bio)’를 아시아태평양 지역에 출시한다고28일 밝혔다.
234
+ 통 구안이 출시한 ‘나노 바이오’는 다우의 저밀도 폴리에틸렌(LDPE) 수지인 ELITE™ 5230GC R Enhanced Polyethylene
235
+ Resin를 기반으로 제작된다. 이 수지는 종이 생산 과정에서 발생하는 톨유(Tall oil)를 활용한 친환경 포장재로, 석유화학 원료를 기반으로
236
+ 한 수지의 필름 생산 과정과 비교했을 때 탁월한 성능을 유지하면서도 현저히 낮은 양의 이산화탄소를 배출하는 것이 특징이다. 아울러 다우의 친환경
237
+ 수지는 다른 지속 가능 자원 기반 제품과 달리 생태계 먹이사슬에 영향을 끼치지 않는 것이 특징이다. 지속가능성을 고려해 종이 생산시의 부산물을
238
+ 사용하여 추가적인 토지 개발도 필요로 하지 않는다. 또한 통 구안의 랩 필름은 첨단 나노기술을 적용한 다운게이징(downgauging) 필름으로
239
+ 기존 랩과 동일한 강도, 유연성, 내구성을 갖추고 있어 우수한 성능과 지속가능성을 동시에 추구할 수 있게 해준다. 또한 다우는 매스 밸런스
240
+ 접근법(mass balance approach)을 적용해 기존의 석유 기반 원료를 이용한 생산시설에서 바이오 기반 원료를 사용할 수 있게 함으로써
241
+ 별도 생산시설 구축에 따른 환경 비용을 줄이고, 생산자들로 하여금 더 많은 바이오 기반 원료를 이용할 수 있도록 돕는다. 다우 아시아태평양
242
+ 지역 패키징 및 특수 플라스틱 사업부 총괄 부사장인 밤방 캔드라(Bambang Candra)는 “최근 새롭게 발표한 지속가능성 목표를 달성하기
243
+ 위해 다우는 더 적은 자원으로 제품을 생산할 수 있는 기술을 개발, 고객들로 하여금 탄소 배출량을 감소할 수 있도록 지원하고 있다” 며 “다우
244
+ 아태지역 최초의 바이오 기반 폴리에틸렌 출시를 시작으로 지속가능한 포장재 상용화와 플라스틱의 순환경제를 이뤄 나갈 수 있기를 기대한다”고 말했다.
245
+ 통 구안의 다토 앙 푼 추안(Dato'' Ang Poon Chuan) 매니징 디렉터는 “다우와의 협력은 지속가능한 환경과 자원 보존을 위한
246
+ 다양한 노력의 일환”이라며 “다우의 친환경 수지를 기반으로 제작된 통 구안의 ‘나노 바이오’는 플라스틱 사용량은 줄이면서 우수한 성능은 그대로
247
+ 유지해 고객사들의 만족도를 충족시켜줄 수 있는 뛰어난 제품”이라고 밝혔다. 한편, 종이 생산 과정에서 발생하는 톨유로부터 추출한 바이오 나프타(bio-naphtha)를
248
+ 이용해 생산되는 다우의 저밀도 폴리에틸렌 수지는 국제 친환경 바이오 연료 인증(ISCC, International Sustainability
249
+ & Carbon Certificate)을 획득한 바 있다. 이러한 생산 방식은 복잡한 제조 혹은 생산 시스템 내에서 지속가능한 원료의 공급을
250
+ 원활히 함으로써 업계의 지속가능성을 향상시키고, 모든 단계의 추적가능성 기준(traceability criteria)을 충족시킨다.'
251
+ pipeline_tag: sentence-similarity
252
+ library_name: sentence-transformers
253
+ metrics:
254
+ - pearson_cosine
255
+ - spearman_cosine
256
+ model-index:
257
+ - name: SentenceTransformer based on shangrilar/klue-roberta-base-klue-sts
258
+ results:
259
+ - task:
260
+ type: semantic-similarity
261
+ name: Semantic Similarity
262
+ dataset:
263
+ name: Unknown
264
+ type: unknown
265
+ metrics:
266
+ - type: pearson_cosine
267
+ value: 0.8053055366603666
268
+ name: Pearson Cosine
269
+ - type: spearman_cosine
270
+ value: 0.8150473226218842
271
+ name: Spearman Cosine
272
+ ---
273
+
274
+ # SentenceTransformer based on shangrilar/klue-roberta-base-klue-sts
275
+
276
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [shangrilar/klue-roberta-base-klue-sts](https://huggingface.co/shangrilar/klue-roberta-base-klue-sts). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
277
+
278
+ ## Model Details
279
+
280
+ ### Model Description
281
+ - **Model Type:** Sentence Transformer
282
+ - **Base model:** [shangrilar/klue-roberta-base-klue-sts](https://huggingface.co/shangrilar/klue-roberta-base-klue-sts) <!-- at revision 7198ee8bcb0a1028d0d8cb4e645fdccafdfa0d5c -->
283
+ - **Maximum Sequence Length:** 512 tokens
284
+ - **Output Dimensionality:** 768 dimensions
285
+ - **Similarity Function:** Cosine Similarity
286
+ <!-- - **Training Dataset:** Unknown -->
287
+ <!-- - **Language:** Unknown -->
288
+ <!-- - **License:** Unknown -->
289
+
290
+ ### Model Sources
291
+
292
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
293
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
294
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
295
+
296
+ ### Full Model Architecture
297
+
298
+ ```
299
+ SentenceTransformer(
300
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: RobertaModel
301
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
302
+ )
303
+ ```
304
+
305
+ ## Usage
306
+
307
+ ### Direct Usage (Sentence Transformers)
308
+
309
+ First install the Sentence Transformers library:
310
+
311
+ ```bash
312
+ pip install -U sentence-transformers
313
+ ```
314
+
315
+ Then you can load this model and run inference.
316
+ ```python
317
+ from sentence_transformers import SentenceTransformer
318
+
319
+ # Download from the 🤗 Hub
320
+ model = SentenceTransformer("sentence_transformers_model_id")
321
+ # Run inference
322
+ sentences = [
323
+ 'JD월드와이드보다 먼저 해외 직구 사이트를 만든 회사는?',
324
+ '중국의 1, 2위 전자상거래업체 알리바바와 JD닷컴이 급성장하는 해외 직접구매(직구) 시장을 놓고 맞붙었다.16일 사우스차이나모닝포스트(SCMP)에 따르면 JD닷컴은 지난 15일 해외 직구 전용 사이트 JD월드와이드(www.jd.hk)를 개설해 본격적인 영업에 들어갔다. 중국 소비자는 이 사이트에서 중국에 직접 진출하지 않은 기업의 제품도 온라인으로 구매할 수 있다. 현재 버버리 랄프로렌 리바이스 보스 에코 등 패션 브랜드와 시세이도 랑콤 등 화장품 브랜드가 제품을 판매하고 있다. JD닷컴 관계자는 “미국 호주 프랑스 일본 한국 등의 다수 기업이 참여 의사를 밝혔다”며 “향후 세계 1200개 브랜드 제품을 판매할 것”이라고 설명했다. 앞서 알리바바의 B2C 전자상거래 사이트인 티몰은 작년 2월 해외직구 전문 사이트 티몰글로벌(www.tmall.hk)을 열었다. 이곳에는 한국의 이마트 롯데마트 LG생활건강 등도 입점해 있다.중국 전자상거래연구센터에 따르면 중국의 해외 직구 시장은 2013년 13조원이던 것이 작년에는 27조원으로 커졌으며, 2018년에는 418조원 규모로 급팽창할 것으로 예상되고 있다.',
325
+ "달라스튜디오가 신규 웹예능 ‘배달그라운드’로 뜨거운 인기를 이어간다. 글로벌 미디어 기업 에이앤이 코리아(A+E Korea)의 유튜브 채널 ‘달라스튜디오’가 2020년 돌풍을 일으킨 ‘네고왕’과 ‘발명왕’의 인기를 이어갈 신작 웹예능 ‘배달그라운드’를 오늘(12일) 저녁 6시 30분에 첫 공개한다. ‘배달그라운드’는 찾아가는 본격 전국 배달맛집 리뷰 웹예능으로, 언택트 시대에 걸맞는 먹방 리뷰 콘텐츠로 다시 한번 에이앤이 디지털 스튜디오만의 ‘남다른’ 행보를 이어갈 예정. ‘배달그라운드’는 전국 방방곡곡 숨은 배달맛집들을 발굴하고, 직접 배달 가능 지역으로 찾아가 ‘어디서든’ 100% 솔직한 먹방 리뷰를 전한다. 특히 길바닥부터 모텔 바닥까지 배달 가능 지역에 어디서든 안전하게 먹을 수 있는 곳을 찾아 무작정 펼치는 이색 먹방을 펼칠 예정. 언택트 시대로 각광받고 있는 ‘배달 맛집 투어’라는 신선한 컨셉과 SNL에서 싱크로율 100%를 자랑하는 이광수 얼굴묘사로 ‘보급형 이광수’ 라는 타이틀을 얻은 배우 겸 개그맨 이명훈이라는 신선한 캐스팅으로 더욱 기대를 북돋고 있다. 12일(목) 공개될 ‘배달그라운드’ 1화에서는 정제되지 않은 예능원석 이명훈이 거침없는 배달 맛집 투어의 첫 시작을 알린다. “얼굴은 이광수, 이름은 임영웅을 닮았다”는 닮은 꼴 부자 이명훈의 자유분방한 동네투어부터 제작진과의 남다른 티격태격 케미 폭발로 첫 화부터 새로운 웃음 폭탄의 등장을 알릴 예정. “��동네왕’으로 이름 변경하면 안 돼요?”라며 왕이 되고 싶다는 야심을 드러낸 이명훈과 콘텐츠 재미를 위한 제작진들의 고군분투 케미가 ‘배달그라운드’ 유행을 예고한다. 에이앤이 코리아 디지털 스튜디오에서 선보인 유튜브 채널 ‘달라스튜디오’는 ‘네고왕’, ‘발명왕’ 등 메가 히트 웹예능을 잇달아 선보이고 있다. 런칭 3개월만에 구독자 100만 명 돌파하는 등 독보적인 화제성과 파급력을 입증하고 있는 달라스튜디오는 '배달그라운드'를 공개해 흥행 돌풍을 이어갈 계획이다. 찾아가는 배달 맛집 전국 투어가 시작되는 '배달그라운드' 1화는 12일(목) 저녁 6시 30분 달라스튜디오에서 공개된다. ‘배달그라운드’는 매주 목요일 저녁 6시 30분 유튜브 채널 달라스튜디오에서 공개될 예정이다.",
326
+ ]
327
+ embeddings = model.encode(sentences)
328
+ print(embeddings.shape)
329
+ # [3, 768]
330
+
331
+ # Get the similarity scores for the embeddings
332
+ similarities = model.similarity(embeddings, embeddings)
333
+ print(similarities.shape)
334
+ # [3, 3]
335
+ ```
336
+
337
+ <!--
338
+ ### Direct Usage (Transformers)
339
+
340
+ <details><summary>Click to see the direct usage in Transformers</summary>
341
+
342
+ </details>
343
+ -->
344
+
345
+ <!--
346
+ ### Downstream Usage (Sentence Transformers)
347
+
348
+ You can finetune this model on your own dataset.
349
+
350
+ <details><summary>Click to expand</summary>
351
+
352
+ </details>
353
+ -->
354
+
355
+ <!--
356
+ ### Out-of-Scope Use
357
+
358
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
359
+ -->
360
+
361
+ ## Evaluation
362
+
363
+ ### Metrics
364
+
365
+ #### Semantic Similarity
366
+
367
+ * Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
368
+
369
+ | Metric | Value |
370
+ |:--------------------|:----------|
371
+ | pearson_cosine | 0.8053 |
372
+ | **spearman_cosine** | **0.815** |
373
+
374
+ <!--
375
+ ## Bias, Risks and Limitations
376
+
377
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
378
+ -->
379
+
380
+ <!--
381
+ ### Recommendations
382
+
383
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
384
+ -->
385
+
386
+ ## Training Details
387
+
388
+ ### Training Dataset
389
+
390
+ #### Unnamed Dataset
391
+
392
+
393
+ * Size: 17,552 training samples
394
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
395
+ * Approximate statistics based on the first 1000 samples:
396
+ | | sentence_0 | sentence_1 |
397
+ |:--------|:----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
398
+ | type | string | string |
399
+ | details | <ul><li>min: 9 tokens</li><li>mean: 17.84 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 241 tokens</li><li>mean: 433.76 tokens</li><li>max: 512 tokens</li></ul> |
400
+ * Samples:
401
+ | sentence_0 | sentence_1 |
402
+ |:------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
403
+ | <code>보금자리주택 사업을 유지하겠다고 한 인물은?</code> | <code>대도시 주변 그린벨트(개발제한구역) 해제지역에 들어서는 대규모 주택단지 ‘보금자리’. 이 주택 브랜드가 도입된 건 2009년이다. 이명박 정부가 2018년까지 주택 150만가구를 공급하는 것을 목표로 시작한 장기 주택정책 사업이다. 지역별로는 수도권 100만가구, 지방 50만가구이며 유형별로는 분양 70만가구, 임대 80만가구 등이다.수도권에서는 서울 강남, 서울 서초, 고양 원흥, 하남 미사가 보금자리 시범지구(1차지구)로 선정된 데 이어 서울 세곡2, 서울 내곡, 남양주 진건, 시흥 인계, 구리 갈매, 부천 옥길 등이 2차 지구로 뽑혔다. 3차에서는 광명·시흥을 비롯해 서울 항동, 인천 구월 등이 지정되는 등 총 6차에 걸쳐 30여만가구가 들어서는 보금자리지구가 선정됐다. 2018년까지 150만가구를 공급하는 게 목표인 가운데 2009~2012년 4년 동안 사업 승인을 받은 물량은 36만가구로 당초 계획의 59.16%에 그쳤다. 수도권은 54.71%, 지방은 68.06%였다. 착공 및 준공 실적은 더 떨어진다. 같은 기간 착공 실적은 전국 8만1492가구로 당초 계획의 13.58%에 불과했다. 준공 실적도 1만가구(1.68%)에 머물렀다. 국회 국토교통위원회 소속 오병윤 통합진보당 의원(광주 서구을)이 지난해 국정감사 때 보금자리주택사업을 총괄 분석한 결과다. 보금자리주택은 이번 정부가 들어서면서 추진력을 더 잃었다는 평가가 나온다. 서승환 국토교통부 장관은 지난해 3월 취임 기자간담회에서 “앞으로 대규모 개발을 통한 주택 공급은 바람직하지 않다”고 말해 보금자리주택 사업의 일반 분양을 축소하거나 중단하겠다는 뜻을 밝혔다. 현 정부는 도심의 확장을 막는 그린벨트를 해제한 데다 2008년 글로벌 금융위기 이후 침체된 민간 주택시장을 교란시킨다는 지적을 받아온 보금자리의 이름을 ‘공공주택’으로 고치는 등 보금자리의 흔적 지우기에 나섰다.</code> |
404
+ | <code>바이마르 정부가 화폐를 수없이 찍어낸 이유는?</code> | <code>1919년부터 1933년까지 독일은 제 1차 세계대전 이후 세워진 바이마르 공화국이 통치했다. 바이마르 공화국은 이원집정부제와 민주주의에 기반한 공화국이었다. 하지만 바이마르 공화국은 성립 직후부터 수많은 위기에 직면하게 된다. 초인플레이션과 정치적 혼란, 정당들의 분열과 1차 세계대전의 승전국들과의 껄끄러운 관계 등이 끊임없이 바이마르 공화국의 목을 잡았던 것이다. 특히 1919년에 맺어진 베르사유 조약에서, 당시 패전국이었던 독일은 엄청난 양의 배상금을 물어주어야했는데, 바이마르 정부는 이 배상금을 주기 위하여 대규모로 돈을 찍어냈다. 정부가 지나치게 통화 유통량을 증가시키자 시중에서는 당연히 대규모 인플레이션이 일어났고, 이 때문에 모든 상품 가격들이 상승하고 독일은 경제적인 대혼란에 빠져들었다. 게다가 이러한 노력에도 불구하고 바이마르 공화국이 프랑스에게 배상금을 갚는 데에 실패하자, 프랑스 군대는 루르에 있는 독일의 공장 지대를 강제로 점령하였다. 이는 독일 대중들의 격분을 불러왔고, 바이마르 공화국은 갈수록 위태로워져만 갔다.<br><br>국가사회주의 독일 노동자당(나치당)은 1920년에 창당되었다. 1년 전에 창당되었던 독일 노동자당을 이어 만들어졌으며, 당시 독일에서 활하던 극우 정당 들 중 하나였다. 나치당 강령에는 바이마르 공화국의 해체, 베르사유 조약 파기, 급진적인 반유대주의, 반공주의 등이 들어있었다. 이들은 국민들에게 강력한 중앙 정부를 약속했으며, 주거 문제를 안정시키겠다고 공언했으며 인종에 기반한 정책을 펼칠 것이라고 말했다. 또한 막대한 부를 축적하고 있던 유대인들과 같은 인종들을 쓸어내어 세계의 '인종적 순수성'을 지켜낼 것이는 망언을 하는 등 과격하고 급진적인 정책들을 쏟아내었다. 나치당은 돌격대를 창설하여 자신들에게 반대하는 사람들에게 폭행을 가하거나 죽였고, 거리에서 유대인들을 폭행하거나 ���대 정당의 모임들에 쳐들어가며 공포 분위기를 조장하였다.<br><br>1929년 10월 24일, 미국의 주식 시장이 대폭락하자 이는 미국의 달러에 깊이 의존...</code> |
405
+ | <code>오바마의 방일 일정을 연장하는데 기여한 것으로 보이는 규칙은?</code> | <code>버락 오바마 미국 대통령이 오는 25일 한국을 방문해 박근혜 대통령과 정상회담을 한다. 3일 외교 소식통에 따르면 오바마 대통령은 23일 2박3일간 일본을 국빈 방문한 뒤 25일 1박2일 일정으로 방한한다. 일본과 한국 모두 1박2일을 계획했으나 일본 일정을 하루 늘렸다. 민경욱 청와대 대변인은 “오바마 대통령이 1박 일정으로 방한한다”며 “구체적인 날짜와 일정은 미국과 협의 중”이라고 확답을 피했다.미국은 일본의 끈질긴 요청으로 막판에 일정을 재조정한 것으로 알려졌다. 일본은 오바마 대통령의 방문이 1996년 빌 클린턴 전 대통령 이후 18년 만에 이뤄지는 미국 대통령의 국빈 방문이라는 점에서 큰 의미를 부여하고 있다. 한 외교 소식통은 “일본은 지난달 백악관이 아시아 순방 계획을 발표했을 때부터 방문 일정 연장을 집요하게 요구해왔다”며 “최근에는 정상회담 외에도 일왕 예방과 만찬 행사 등을 위해 최소 2박3일이 필요하다고 주장해 미국이 막판에 일정을 하루 앞당겼다”고 설명했다. 이 같은 배경에는 최근 일본의 대미 정책이 주효했다는 평가가 나온다. 일본은 최근 무기 관련 기술 수출을 금지하는 원칙을 47년 만에 폐지했다. 미국 정부는 이날 “일본의 정책 개정을 환영한다”며 “미국 및 다른 파트너 국가와의 방산 협력 기회를 넓혀주고 절차를 간소화해줄 것”이라는 입장을 발표했다. 일본이 환태평양경제동반자협정(TPP) 협상에서 미국의 요구 조건을 일부 수용하는 등 한발 물러설 것이란 전망도 나온다. 오바마 대통령은 방한기간 박 대통령과 정상회담을 하고 교육·문화 이벤트, 주한미군 관련 행사에 참석할 것으로 알려졌다. 2009년 취임 이후 네 번째 한국 방문이다. 북핵 문제와 군사안보 분야에서 한·미 동맹 등이 주요 의제로 논의될 것으로 예상된다.</code> |
406
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
407
+ ```json
408
+ {
409
+ "scale": 20.0,
410
+ "similarity_fct": "cos_sim"
411
+ }
412
+ ```
413
+
414
+ ### Training Hyperparameters
415
+ #### Non-Default Hyperparameters
416
+
417
+ - `per_device_train_batch_size`: 16
418
+ - `per_device_eval_batch_size`: 16
419
+ - `num_train_epochs`: 1
420
+ - `batch_sampler`: no_duplicates
421
+ - `multi_dataset_batch_sampler`: round_robin
422
+
423
+ #### All Hyperparameters
424
+ <details><summary>Click to expand</summary>
425
+
426
+ - `overwrite_output_dir`: False
427
+ - `do_predict`: False
428
+ - `eval_strategy`: no
429
+ - `prediction_loss_only`: True
430
+ - `per_device_train_batch_size`: 16
431
+ - `per_device_eval_batch_size`: 16
432
+ - `per_gpu_train_batch_size`: None
433
+ - `per_gpu_eval_batch_size`: None
434
+ - `gradient_accumulation_steps`: 1
435
+ - `eval_accumulation_steps`: None
436
+ - `torch_empty_cache_steps`: None
437
+ - `learning_rate`: 5e-05
438
+ - `weight_decay`: 0.0
439
+ - `adam_beta1`: 0.9
440
+ - `adam_beta2`: 0.999
441
+ - `adam_epsilon`: 1e-08
442
+ - `max_grad_norm`: 1
443
+ - `num_train_epochs`: 1
444
+ - `max_steps`: -1
445
+ - `lr_scheduler_type`: linear
446
+ - `lr_scheduler_kwargs`: {}
447
+ - `warmup_ratio`: 0.0
448
+ - `warmup_steps`: 0
449
+ - `log_level`: passive
450
+ - `log_level_replica`: warning
451
+ - `log_on_each_node`: True
452
+ - `logging_nan_inf_filter`: True
453
+ - `save_safetensors`: True
454
+ - `save_on_each_node`: False
455
+ - `save_only_model`: False
456
+ - `restore_callback_states_from_checkpoint`: False
457
+ - `no_cuda`: False
458
+ - `use_cpu`: False
459
+ - `use_mps_device`: False
460
+ - `seed`: 42
461
+ - `data_seed`: None
462
+ - `jit_mode_eval`: False
463
+ - `use_ipex`: False
464
+ - `bf16`: False
465
+ - `fp16`: False
466
+ - `fp16_opt_level`: O1
467
+ - `half_precision_backend`: auto
468
+ - `bf16_full_eval`: False
469
+ - `fp16_full_eval`: False
470
+ - `tf32`: None
471
+ - `local_rank`: 0
472
+ - `ddp_backend`: None
473
+ - `tpu_num_cores`: None
474
+ - `tpu_metrics_debug`: False
475
+ - `debug`: []
476
+ - `dataloader_drop_last`: False
477
+ - `dataloader_num_workers`: 0
478
+ - `dataloader_prefetch_factor`: None
479
+ - `past_index`: -1
480
+ - `disable_tqdm`: False
481
+ - `remove_unused_columns`: True
482
+ - `label_names`: None
483
+ - `load_best_model_at_end`: False
484
+ - `ignore_data_skip`: False
485
+ - `fsdp`: []
486
+ - `fsdp_min_num_params`: 0
487
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
488
+ - `fsdp_transformer_layer_cls_to_wrap`: None
489
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
490
+ - `deepspeed`: None
491
+ - `label_smoothing_factor`: 0.0
492
+ - `optim`: adamw_torch
493
+ - `optim_args`: None
494
+ - `adafactor`: False
495
+ - `group_by_length`: False
496
+ - `length_column_name`: length
497
+ - `ddp_find_unused_parameters`: None
498
+ - `ddp_bucket_cap_mb`: None
499
+ - `ddp_broadcast_buffers`: False
500
+ - `dataloader_pin_memory`: True
501
+ - `dataloader_persistent_workers`: False
502
+ - `skip_memory_metrics`: True
503
+ - `use_legacy_prediction_loop`: False
504
+ - `push_to_hub`: False
505
+ - `resume_from_checkpoint`: None
506
+ - `hub_model_id`: None
507
+ - `hub_strategy`: every_save
508
+ - `hub_private_repo`: None
509
+ - `hub_always_push`: False
510
+ - `gradient_checkpointing`: False
511
+ - `gradient_checkpointing_kwargs`: None
512
+ - `include_inputs_for_metrics`: False
513
+ - `include_for_metrics`: []
514
+ - `eval_do_concat_batches`: True
515
+ - `fp16_backend`: auto
516
+ - `push_to_hub_model_id`: None
517
+ - `push_to_hub_organization`: None
518
+ - `mp_parameters`:
519
+ - `auto_find_batch_size`: False
520
+ - `full_determinism`: False
521
+ - `torchdynamo`: None
522
+ - `ray_scope`: last
523
+ - `ddp_timeout`: 1800
524
+ - `torch_compile`: False
525
+ - `torch_compile_backend`: None
526
+ - `torch_compile_mode`: None
527
+ - `dispatch_batches`: None
528
+ - `split_batches`: None
529
+ - `include_tokens_per_second`: False
530
+ - `include_num_input_tokens_seen`: False
531
+ - `neftune_noise_alpha`: None
532
+ - `optim_target_modules`: None
533
+ - `batch_eval_metrics`: False
534
+ - `eval_on_start`: False
535
+ - `use_liger_kernel`: False
536
+ - `eval_use_gather_object`: False
537
+ - `average_tokens_across_devices`: False
538
+ - `prompts`: None
539
+ - `batch_sampler`: no_duplicates
540
+ - `multi_dataset_batch_sampler`: round_robin
541
+
542
+ </details>
543
+
544
+ ### Training Logs
545
+ | Epoch | Step | Training Loss | spearman_cosine |
546
+ |:------:|:----:|:-------------:|:---------------:|
547
+ | 0 | 0 | - | 0.8150 |
548
+ | 0.4558 | 500 | 0.1625 | - |
549
+ | 0.9116 | 1000 | 0.1118 | - |
550
+
551
+
552
+ ### Framework Versions
553
+ - Python: 3.12.3
554
+ - Sentence Transformers: 3.3.1
555
+ - Transformers: 4.47.1
556
+ - PyTorch: 2.5.1+cu124
557
+ - Accelerate: 1.2.1
558
+ - Datasets: 3.2.0
559
+ - Tokenizers: 0.21.0
560
+
561
+ ## Citation
562
+
563
+ ### BibTeX
564
+
565
+ #### Sentence Transformers
566
+ ```bibtex
567
+ @inproceedings{reimers-2019-sentence-bert,
568
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
569
+ author = "Reimers, Nils and Gurevych, Iryna",
570
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
571
+ month = "11",
572
+ year = "2019",
573
+ publisher = "Association for Computational Linguistics",
574
+ url = "https://arxiv.org/abs/1908.10084",
575
+ }
576
+ ```
577
+
578
+ #### MultipleNegativesRankingLoss
579
+ ```bibtex
580
+ @misc{henderson2017efficient,
581
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
582
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
583
+ year={2017},
584
+ eprint={1705.00652},
585
+ archivePrefix={arXiv},
586
+ primaryClass={cs.CL}
587
+ }
588
+ ```
589
+
590
+ <!--
591
+ ## Glossary
592
+
593
+ *Clearly define terms in order to be accessible across audiences.*
594
+ -->
595
+
596
+ <!--
597
+ ## Model Card Authors
598
+
599
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
600
+ -->
601
+
602
+ <!--
603
+ ## Model Card Contact
604
+
605
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
606
+ -->
config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "shangrilar/klue-roberta-base-klue-sts",
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 514,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "pad_token_id": 1,
22
+ "position_embedding_type": "absolute",
23
+ "tokenizer_class": "BertTokenizer",
24
+ "torch_dtype": "float32",
25
+ "transformers_version": "4.47.1",
26
+ "type_vocab_size": 1,
27
+ "use_cache": true,
28
+ "vocab_size": 32000
29
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "3.3.1",
4
+ "transformers": "4.47.1",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7c9330b420e045a533a94b566125db39e067d93b12c7c27d74242895ca818894
3
+ size 442494816
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "[CLS]",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "[SEP]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "[MASK]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "[PAD]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "[SEP]",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "[UNK]",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
@@ -0,0 +1,67 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[CLS]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[PAD]",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[SEP]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[UNK]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[MASK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "[CLS]",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "[CLS]",
47
+ "do_basic_tokenize": true,
48
+ "do_lower_case": false,
49
+ "eos_token": "[SEP]",
50
+ "extra_special_tokens": {},
51
+ "mask_token": "[MASK]",
52
+ "max_length": 512,
53
+ "model_max_length": 512,
54
+ "never_split": null,
55
+ "pad_to_multiple_of": null,
56
+ "pad_token": "[PAD]",
57
+ "pad_token_type_id": 0,
58
+ "padding_side": "right",
59
+ "sep_token": "[SEP]",
60
+ "stride": 0,
61
+ "strip_accents": null,
62
+ "tokenize_chinese_chars": true,
63
+ "tokenizer_class": "BertTokenizer",
64
+ "truncation_side": "right",
65
+ "truncation_strategy": "longest_first",
66
+ "unk_token": "[UNK]"
67
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff