관리자 패널에서 메뉴를 설정하세요

[마소캠퍼스 마켓트렌드] 언어 모델을 더 잘 사용하는 법 | 코넬대학교

숨 고를 틈 주기

언어 모델은 일련의 토큰을 연속적으로 생성하여 응답을 생성합니다. (K+1)번째 토큰은 레이어당 K개의 숨겨진 벡터를 조작한 결과이며, 이전 토큰당 하나의 벡터를 조작한 결과입니다. 대신 모델이 (K+1)번째 토큰을 출력하기 전에 K+10개의 숨겨진 벡터를 조작하도록 한다면 어떨까요?
이 아이디어는 (학습 가능한) 일시 정지 토큰을 입력 접두사에 추가하여 언어 모델에 대한 훈련과 추론을 수행함으로써 작동합니다. 그런 다음 마지막 일시 중지 토큰이 표시될 때까지 모델의 출력 추출을 지연시켜 모델이 응답을 하기 전에 추가 계산을 처리할 수 있도록 합니다. C4에서 인과적 사전 학습을 통해 1B 및 1억 3천만 개의 매개변수로 구성된 디코더 전용 모델과 추론, 질문 답변, 일반적인 이해 및 사실 회상을 포함하는 다운스트림 작업에서 일시 중지 학습을 경험적으로 평가했습니다.
주요 결과는 모델을 사전 학습하고 지연을 통해 미세 조정할 때 추론 시간 지연이 개선된다는 것입니다. 1B 모델의 경우, 9개 과제 중 8개 과제에서 개선이 있었으며, 가장 눈에 띄는 것은 SQuAD의 QA 과제에서 EM 점수가 18%, CommonSenseQA에서 8%, GSM8k의 추론 과제에서 1%의 정확도가 향상되었다는 점입니다. 이번 연구는 지연된 다음 토큰 예측을 광범위하게 적용할 수 있는 새로운 패러다임으로 만들기 위한 다양한 개념적, 실용적 미래 연구 질문을 제기합니다.

 

인공지능에게 제대로 명령하기!

마소캠퍼스 강의에서 확인하기

Chat GPT 실전활용법 강의 바로가기>>

논문 같이 보기

 


원문 URL : https://arxiv.org/abs/2310.02226
원문 제목 : Think before you speak: Training Language Models With Pause Tokens

2023/10/13

머니매그넷(주) Since 2013
마소캠퍼스 ICT 원격평생교육원
- 온라인|원격평생교육시설 등록번호
: 제 원-119호

마소캠퍼스 DT평생교육원
- 오프라인|지식·인력개발사업 평생교육시설 등록번호
: 제 지-137호

강남캠퍼스: 서울시 서초구 강남대로 53길 8, 10-31호(서초동, 스타크 강남빌딩) 10-31, Gangnamdae-ro 53Gil 8, Seocho-gu, Seoul (06621)
송도교육연구원: 인천광역시 연수구 송도과학로 32 송도테크노파크IT센터 S동 2003호, 20F, Technopark IT center, Songdogwahak-ro 32, Yeonsu-gu, Incheon (21984)

전화 02-6080-2022, 팩스 02-6455-2021, 이메일 문의 cs@masocampus.com

사업자정보 264-81-13054
통신판매업번호 2023-서울서초-1812, 대표(개인정보책임자): 김진, 서비스 이용약관, 개인정보 처리방침, 사업자정보확인

마소캠퍼스 웹사이트는 크롬 브라우저에 최적화 되어 있습니다.

©MasoCampus. All rights reserved.