img

이번에는 Gemma를 “databricks-dolly-15k.jsonl”과 “databricks-dolly-15k-ko.jsonl” 데이터셋을 이용해서 영한번역 LoRA 파인튜닝을 해보도록 하겠습니다.

함께보기

databricks-dolly-15k 데이터셋

databricks-dolly-15k는 2023년 3월과 4월에 Databricks의 5,000명 이상의 직원이 작성한 15,000개의 고품질 인간 생성 프롬프트/응답 쌍을 포함하는 데이터셋입니다. 이 데이터셋은 큰 언어 모델의 지시 튜닝을 위해 특별히 설계되었으며, 훈련 레코드는 자연스럽고 표현력이 풍부하여 브레인스토밍 및 콘텐츠 생성부터 정보 추출 및 요약에 이르기까지 다양한 행동을 대표하도록 설계되었습니다

databricks-dolly-15k-ko 데이터셋

databricks-dolly-15k-ko 데이터셋은 허깅페이스에서 다운로드 받을 수 있으며, NLP & AI - Korea University에서 databricks-dolly-15k를 DeepL API를 이용해서 한국어 번역을 수행한 파일입니다.

학습시간

LoRA 랭크 4로 1 에포크 시에 23.4분이 소요되었습니다. 사양은 구글코랩 T4입니다.

img

수행결과 1

img

Instruction:
To quickly acquire skills, it is advisable to learn through rapid execution, in-depth analysis, and practical application in that order.

Response:
기술을 빨리 습득하기 위해서는 빠른 실행, 깊은 분석, 실제 적용 순으로 학습을 권한다.

수행결과 2

img

Instruction:
What should I do on a trip to Europe?

Response:
유럽 여행에서 무엇을 할 수 있나요?

수행결과 3

img

Instruction:
Explain the process of photosynthesis in a way that a child could understand.

Response:
어린이가 이해할 수 있는 방식으로 광합성 과정을 설명합니다.

더보기

LoRA 파인튜닝 공식 예제는 다음과 같습니다.

추가문의

  • 작성자 : 김태영
  • 이메일 : tykim@aifactory.page

함께보기