본문 바로가기

공부/AI

[논문리뷰] Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 (2024)

 

📚 효과적인 프롬프트 엔지니어링의 26가지 원칙 

최근 발표된 프롬프트 엔지니어링 관련 논문 'Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4'에 대하여 리뷰해보면서, 논문에서 제시된 효과적인 프롬프트 엔지니어링의 26가지 원칙과 각 원칙별 프롬프트 예시를 소개하고자 한다. 
 
 

📌 목차 

1. 논문 요약 
2. 프롬프트 엔지니어링 26가지 원칙
3. 프롬프트 엔지니어링 26가지 원칙별 예시 (feat. ATLAS 벤치마크) 
4. 프롬프트 엔지니어링의 효과 (실험 결과) 
 

 

📌 논문 요약

 

프롬프트 엔지니어링 26가지 원칙 제시 

이 논문에서는 프롬프트 엔지니어링을 통하여 GPT, LLaMA 등의 대형 언어모델의 잠재력을 최대한 끌어낼 수 있는 26가지 원칙을 제시하고 있다. 사용자가 언어 모델에 질문이나 요청을 할 때, 단순히 "~에 대해 설명해줘"와 같은 포괄적인 질문보다는, 맥락과 세부 사항, 구조화된 포맷 등을 포함하는 구체적인 프롬프트를 설계함으로써 모델이 사용자의 의도를 더 잘 파악하고 높은 품질의 응답을 생성할 수 있도록 유도하는 것이다.

 

프롬프트 엔지니어링의 효과를 평가하기 위한 ATLAS 벤치마크 제작

논문의 저자들은 프롬프트 엔지니어링 26가지 원칙이 적용된 프롬프트들을 통해 모델을 평가할 수 있도록 ATLAS 벤치마크를 제작하였다. 이 벤치마크에서 평가를 위하여 boosting(응답 품질), correctness(정확성)에 대한 효과를 측정하였다. 

 

프롬프트 엔지니어링의 중요성, 모델 크기가 커질수록 프롬프트 엔지니어링 효과 증대

논문에서 제시한 원칙을 바탕으로 프롬프트를 최적화했을 때, GPT-4 기준으로 응답 품질(boosting)이 평균적으로 57.7%, 정확도(correctness)가 36.4% 향상되었다고 한다. 또한, 논문에서 제안된 원칙들을 적용했을 때,  LLaMA-2-7B에서 GPT-4로 갈수록, 프롬프트 엔지니어링을 통한 성능 향상 폭이 20% 이상 증가하였다.  즉, LLM을 보다 효과적으로 활용하기 위하여 프롬프트 엔지니어링의 중요성을 보여준 연구이며, 모델의 규모가 클수록 프롬프트 엔지니어링의 적용 효과가 더 크다는 것을 시사하였다.


 

📌 논문에서 제시한 프롬프트 엔지니어링 26가지 원칙 

 
✔ 참고사항
1. 원칙에 대한 설명은 한국어로 번역하고, 원칙에서 언급된 프롬프트 자체는 최대한 영어 원문을 그대로 사용하려고 하였다. 왜냐하면 이 논문에서 실험한 프롬프트들은 영어로 사용되었고, 특히 "I'm going to tip $xxx for a better solution!"와 같은 매직 프롬프트들은 한국어로 번역할 경우 뉘앙스가 달라질 수 있으며, LLM은 보통 영어 텍스트를 많이 학습하여 프롬프트를 영어로 입력할 때 결과물이 더 좋기 때문이다. 
2. 26가지 원칙을 논문에서 제시한 5가지 카테고리에 따라 재배열하여 설명해두었다. 
 

이미지 출처 :https://github.com/VILA-Lab/ATLAS

 

 
카테고리1. 프롬프트의 구조와 명확성 (Prompt Structure and Clarity)

질문의 대상 독자를 명시하거나, 프롬프트 내의 구성요소를 구분할 수 있도록 구조화를 하는 등의 방법으로 질문을 명확하게 만드는 원칙들이 포함된다.
 
1. Audience Integration [원칙2]
대상 청중을 프롬프트에 포함시킨다. 예를 들어 특정 분야의 전문가를 청중으로 설정하는 것이다.
 
2. Affirmative sentencing [원칙4]
'do'와 같이 긍정적인 지시문을 사용하고 'don't과 같은 부정문을 피한다.
 
3. Think step by step [원칙12]
"think step by step" (차근차근 생각하세요)와 같이 leading words(모델을 특정 패턴으로 유도하는 표현)을 사용한다.
 
4. Output Primers [원칙20]
output primers(기대하는 출력 결과의 도입부를 프롬프트의 마지막에 추가하는 것)을 사용한다.
 
5. Delimiters [원칙17]
구분자를 사용한다.
 
6. Formatted Prompt [원칙8]
프롬프트를 작성할 때에는 '###Instruction###' (###지시사항###)으로 시작하고, 필요시 '###Example###' (###예시###)또는 '###Question###' (###질문###)을 이어서 추가한다. 그 뒤에는 콘텐츠를 제시한다. 하나 또는 여러개의 줄바꿈을 통하여 지시사항, 예시, 질문, 맥락, 입력 데이터를 구분한다.
 
 

카테고리2. 구체성과 정보 (Specificity and Information)

원하는 응답의 예시를 제공하거나 모델이 중립적인 답변을 하도록 요청하는 등, 구체적으로 원하는 정보를 얻기 위한 원칙들이 포함된다. 
 
1. Few-Shot Prompting [원칙7]
예제 기반의 프롬프팅을 사용한다. (few-shot prompting 사용)
 
2. Explanation Prompts [원칙5]
주제나 아이디어, 정보에 대한 명확하고 심층적인 이해가 필요한 경우 다음과 같은 프롬프트를 사용한다.
 - Explain [specific topic] in simple terms. ([주제]에 대하여 간단한 용어로 설명하세요.)
 - Explain to me like I'm 11 years old. (나를 11살이라고 가정하고 설명해주세요.)
 - Explain to me as if I'm a beginner in [field]. (나를 [분야]의 초심자라고 가정하고 설명해주세요.)
 - Write the [essay/text/pragraph] using simple English like you're explaining something to a 5-year-old. (5살 아이에게 설명하듯이 간단한 영어를 사용하여 [에세이/텍스트/문단]을 작성하세요.)
 
3. Unbiased Response [원칙13]
"Ensure that your answer is unbiased and avoids relying on stereotypes." (답변을 할 때 편견이 없도록 하고 고정관념에 의존하지 않도록 유의해주세요.)라는 표현을 추가한다.
 
4. Style mimicking [원칙26]
샘플을 제공하고 그와 유사하게 에세이 또는 문단 등의 텍스트를 작성하려고 할 때, 다음 지시를 추가하도록 한다. "Use the same language based on the provided [paragraph/title/text/essay/answer]" (제공된 [문단/제목/텍스트/에세이/정답]과 같은 결의 텍스트를 작성해.)
 
5. Continuation Prompt [원칙24]
특정 단어나 구, 문장을 사용하여 텍스트를 시작하거나 계속하려면 다음 프롬프트를 사용하도록 한다. "I’m providing you with the beginning [song lyrics/story/paragraph/essay...]: [lyrics/words/sentence]. Finish it based on the words provided. Keep the flow consistent." ([노래 가사/스토리/문단/에세이 등]의 도입부를 제공합니다 : [가사/단어/문장]. 제공된 단어들을 기반으로 완성하세요. 흐름을 일관되게 유지하세요.)
 
6. Guideline Indicators [원칙25]
모델이 콘텐츠를 생성하기 위하여 따라야 할 요구사항을 키워드, 제약사항, 힌트, 지시 등의 형태로 명확하게 명시한다.
 
7. Detailed Writing [원칙21] 
에세이/텍스트/문단/기사 등 구체성이 필요한 모든 유형의 텍스트를 작성할 때 “Write a detailed [essay/text/paragraph/article] for me on [topic] in detail by adding all the information necessary” (필요한 모든 정보를 추가하여 [주제]에 대하여 구체적인 [에세이/텍스트/문단]을 상세히 작성해줘)라는 표현을 사용한다.
 
 

카테고리3. 사용자 상호작용과 참여 (User Interaction and Engagement)

모델이 충분한 정보를 얻을 때까지 사용자에게 질문을 하도록 허용하는 등 사용자와 모델 간의 상호작용을 촉진하기 위한 원칙들이 포함된다. 
 
1. Educational Inquiry [원칙15]
특정 주제나 아이디어, 정보를 얻으려고 하거나 자신이 이해한 것을 테스트해보고 싶을 때, “Teach me any [theorem/topic/rule name] and include a test at the end, and let me know if my answers are correct after I respond, without providing the answers beforehand.” ([정리/주제/법칙명]에 대하여 가르쳐줘. 그리고 마지막에 테스트를 포함하되 미리 정답을 제공하지 않고, 내가 답변을 하면 그 답이 맞는지 알려줘.)라는 표현을 사용할 수 있다.
 
2. Interactive Clarification [원칙14]
모델이 필요한 출력을 제공할 수 있는 충분한 정보를 얻을 때까지 사용자에게 질문하는 방식을 통하여 더 정확한 세부사항과 요구사항을 도출할 수 있게끔 한다. 예를 들면 “From now on, I would like you to ask me questions to …” (지금부터 나는 너가 나에게 …에 대하여 질문을 하길 원해.)와 같은 프롬프트를 사용한다.
 
 

카테고리4. 콘텐츠와 언어 스타일 (Content and Language Style)

모델에 특정 역할을 부여하거나 정중한 표현 대신 간결한 지시 사항을 사용하는 등 모델이 생성하는 콘텐츠의 유형과 어투를 조절하기 위한 원칙들이 포함된다. 
 
1. Tipping [원칙6]
"I'm going to tip $xxx for a better solution!" (더 나은 답변을 하면 $xxx의 팁을 줄게!)라는 프롬프트를 추가한다.
 
2. Echo Directive [원칙18]
프롬프트 안에 특정 단어를 반복하거나 문구를 여러번 사용한다.
 
3. No-Politeness [원칙1] 
간결한 답변을 선호한다면, LLM에게 "please", "if you don't mind", "thank you", "I would like to"와 같은 식의 정중한 표현을 사용하지 않고 바로 요점을 말한다. 
 
4. Human-like Response [원칙11]
"Answer a question in a natural, human-like manner" (질문에 대하여 자연스럽게, 인간처럼 답변하세요)와 같은 표현을 추가한다.
 
5. Role Assignment [원칙16]
LLM에게 역할을 부여한다.
 
6. Penalty Warning [원칙10]
"You will be penalized" (페널티를 받을 것)이라는 표현을 추가한다.
 
7. Imperative Task [원칙9]
"Your task is" (당신의 작업은) 또는 "You MUST" (반드시)와 같은 표현을 추가한다.
 
8. Preserve-Style [원칙22]
텍스트의 스타일을 유지하면서 교정이나 수정을 할 경우, “Try to revise every paragraph sent by users. You should only improve the user’s grammar and vocabulary and make sure it sounds natural. You should maintain the original writing style, ensuring that a formal paragraph remains formal.” (사용자로부터 입력받은 모든 문단을 수정해. 사용자의 문법이나 어휘를 개선하고 자연스럽게 읽히도록 하는 작업만을 해야 해. 형식적인 글은 형식적인 스타일로 유지하는 식으로, 원문의 글쓰기 스타일을 유지하도록 해.)라는 표현을 사용한다.
 
 

카테고리5. 복잡한 작업과 코딩 프롬프트 (Complex Tasks and Coding Prompts)

복잡한 작업을 단계별로 나누어 대화식으로 질문하거나, 코딩 작업을 지원하기 위한 원칙들이 포함된다.
 
1. CoT with Few-Shot [원칙19]
Chain-of-thought (CoT) 기법과 few-Shot 기법을 결합하여 사용한다.
 
2. Code Generation [원칙23]
여러 파일들을 대상으로 복잡한 코딩 프롬프트를 작성할 때, “From now and on whenever you generate code that spans more than one file, generate a [programming language] script that can be run to automatically create the specified files or make changes to existing files to insert the generated code. [question]”. (지금부터 한개 이상의 파일들을 다루는 코드를 생성할 때마다, 자동적으로 특정 파일들을 생성하거나 이미 생성된 코드를 삽입하기 위하여 기존 파일을 변경할 수 있는 [프로그래밍 언어 이름] 스크립트를 생성해. [질문])라는 표현을 사용한다.
 
3. Task Decomposition [원칙3]
복잡한 태스크는 일련의 좀 더 간단한 프롬프트들로 분해하여 LLM과 상호작용하는 대화에서 처리한다. 
 
 
c.f. 프롬프트 엔지니어링 26가지 원칙 [원문] 

 
 

📌  프롬프트 엔지니어링 26가지 원칙별 예시 (feat. ATLAS 벤치마크) 

 
✔ ATLAS 벤치마크란? 
1. ATLAS는 논문에서 제시한 프롬프트 엔지니어링 26가지 원칙이 적용된 프롬프트들을 통해 모델을 평가할 수 있도록 수작업으로 제작된 벤치마크이다.
2. 이 벤치마크에는 동일한 지시에 대하여 원칙이 적용된 프롬프트와 적용되지 않은 프롬프트가 포함되어 있고, 난이도가 높지 않으면서 다양한 영역과 주제를 아우르는 Standard Subset부터 복잡한 추론, 창의적 사고, 분석 등 고차원적 사고능력을 요구하는 어려운 질문이 포함된 Challenging Subset을 포함하고 있어서, 논문의 저자들은 각 원칙의 효과를 종합적이고 정량적으로 측정할 수 있었다고 한다.
3. 이 벤치마크에서 평가를 위하여 사용한 metric은 크게 boosting과 correctness로 구분된다. boosting은 모델 응답 결과의 품질을 평가하고, correctness는 모델 응답의 정확성을 측정하는 것이다. 그래서 각각의 metric마다 각 원칙이 적용된 프롬프트의 효과를 측정하게 된다. 
4.개인적으로 프롬프트 평가나 모델 평가 업무를 자주 하는 입장으로서, 이렇게 프롬프트에 따른 모델의 응답 품질(boosting)과 정확성(correctness)에 대한 효과를 포괄적으로 측정할 수 있도록 각 26가지 원칙별로 세분화된 프롬프트 예시가 포함된 벤치마크가 고안되었다는게 의의가 있다고 느껴졌다. 
 

 

✔ 참고사항
프롬프트 예시들이 논문에는 제한적으로 선별되어 있어서, ATLAS 데이터셋 깃허브 레포지토리에서 각 원칙별/metric별 프롬프트 적용/비적용 예시를 임의로 3개씩 추출하였다. 연구진이 만든 ATLAS 데이터셋 전체는 https://github.com/VILA-Lab/ATLAS 레포지토리에서 확인할 수 있다. 


 

[원칙1] No-Politeness 원칙이 적용된 프롬프트 예시 

간결한 답변을 선호한다면, LLM에게 "please", "if you don't mind", "thank you", "I would like to"와 같은 식의 정중한 표현을 사용하지 않고 바로 요점을 말한다. 
 
boosting 평가 프롬프트 

원칙1이 적용된 프롬프트 원칙1이 적용되지 않은 프롬프트
List the benefits of regular exercise. Please, can you list the benefits of engaging in regular exercise?
Calculate the compound interest for a 5-year investment of $10,000 at an annual rate of 5%. Would you mind calculating the compound interest for a $10,000 investment over 5 years at an annual rate of 5%?'
Provide a recipe for chocolate chip cookies. If it's not too much trouble, could you provide a recipe for chocolate chip cookies?

 
correctness 평가 프롬프트 

원칙1이 적용된 프롬프트 원칙1이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k (0). Let k(u) = u**2+u-4. Would you please find k(0)?
Write a response that includes the number of words in your response. Can you write a response that includes the number of words in your response?
Does Gordon Ramsey know about solubility? Can you please answer the following: Does Gordon Ramsey know about solubility?

 
 

[원칙2] Audience Integration 원칙이 적용된 프롬프트 예시

대상 청중을 프롬프트에 포함시킨다. 예를 들어 특정 분야의 전문가를 청중으로 설정하는 것이다.
 
boosting 평가 프롬프트 

원칙2가 적용된 프롬프트 원칙2가 적용되지 않은 프롬프트
Detail a beginner-friendly exploration of the human brain, for kids curious about how thoughts are formed. Detail a beginner-friendly exploration of the human brain.
Describe the function of the heart in the human body. Assume your audience is a first-year medical student. Describe the function of the heart in the human body.
Write the opening paragraph of a middle-grade fantasy story, capturing the attention of a young reader around 11 years old. Write the opening paragraph of a fantasy story.

 
correctness 평가 프롬프트 

원칙2가 적용된 프롬프트 원칙2가 적용되지 않은 프롬프트
If your audience is an expert in math substitutions. Let k(u) = u**2+u-4. Find k (0). Let k(u) = u**2+u-4. Find k (0).
Assume your audience is expert in counting letters and words: Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
Assume your audience is beginner Culinary Students. Does Gordon Ramsey know about solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙3] Task Decomposition 원칙이 적용된 프롬프트 예시

복잡한 태스크는 일련의 좀 더 간단한 프롬프트들로 분해하여 LLM과 상호작용하는 대화에서 처리한다. 
 
boosting 평가 프롬프트 

원칙3이 적용된 프롬프트 원칙3이 적용되지 않은 프롬프트
1. Create a short story about a character who discovers an old, mysterious book that grants them extraordinary powers. first: Introduce the protagonist, ordinary life, and setting.
2. Describe discovering the book and the character's growing powers.
3. present challenges from powers and character's growth.
Resolve conflicts, and show the character's reflection on the journey.
4. write the short story.
Create a short story about a character who discovers an old, mysterious book that grants them extraordinary powers.
1. Distribute the negative sign to each term inside the parentheses of the following equation: 2x + 3y - (4x - 5y)
2. Combine like terms for 'x' and 'y' separately.
3. Provide the simplified expression after combining the terms.
Simplify 2x + 3y - (4x - 5y)
1. Provide an overview of diabetes and its impact on blood sugar levels to the patient.
2. Continue Explaining the importance of managing blood sugar for overall health.
3. Continue Explaining how carbohydrate intake affects blood sugar levels.
4. Suggest dietary guidelines, portion control, and healthier food choices.
5. Describe the benefits of regular physical activity for diabetes management.
6. Recommend suitable exercises, frequency, and precautions.
Educate a patient about managing diabetes through diet and exercise.

 
correctness 평가 프롬프트 

원칙3이 적용된 프롬프트 원칙3이 적용되지 않은 프롬프트
1. Let k(u) = u**2+u-4. how the equation will be changed if we substitute a value for K?
2. Find k (0).
Let k(u) = u**2+u-4. Find k (0).
1. How to count the number of words in a response?
2. Write a response that includes the number of words in your response
Write a response that includes the number of words in your response.
1. Research Gordon Ramsey's professional background.
2. Identify if Gordon Ramsey has any educational or professional experience related to chemistry or science.
3. Does Gordon Ramsey know about solubility?
Does Gordon Ramsey know about solubility?

 
 

[원칙4] Affirmative sentencing 원칙이 적용된 프롬프트 예시

'do'와 같이 긍정적인 지시문을 사용하고 'don't과 같은 부정문을 피한다.
 
boosting 평가 프롬프트 

원칙4가 적용된 프롬프트 원칙4가 적용되지 않은 프롬프트
Write one title about the importance of healthy food. The Title should contain 3 to 4 words. Write one title about the importance of healthy food. Don’t make the title too long.
Prepare three pieces of advice to help high school students achieve high grades. Use only simple words and make each piece of advice as short as you can. Prepare three pieces of advice to help high school students achieve high grades. Don't use complex words or vocabulary and don't add details.
What force keeps objects attracted to the center of the Earth? Without which force would objects not stay on the Earth's surface?

 
correctness 평가 프롬프트 

원칙4가 적용된 프롬프트 원칙4가 적용되지 않은 프롬프트
Calculate the value of k (0) for the function k(u) = u**2 + u - 4. Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? Answer in a brief way. Does Gordon Ramsey know about solubility?

 
 

[원칙5] Explanation Prompts 원칙이 적용된 프롬프트 예시

주제나 아이디어, 정보에 대한 명확하고 심층적인 이해가 필요한 경우 다음과 같은 프롬프트를 사용한다.
 - Explain [specific topic] in simple terms. ([주제]에 대하여 간단한 용어로 설명하세요.)
 - Explain to me like I'm 11 years old. (나를 11살이라고 가정하고 설명해주세요.)
 - Explain to me as if I'm a beginner in [field]. (나를 [분야]의 초심자라고 가정하고 설명해주세요.)
 - Write the [essay/text/pragraph] using simple English like you're explaining something to a 5-year-old. (5살 아이에게 설명하듯이 간단한 영어를 사용하여 [에세이/텍스트/문단]을 작성하세요.)
 
boosting 평가 프롬프트 

원칙5가 적용된 프롬프트 원칙5가 적용되지 않은 프롬프트
Explain the phenomenon of bioluminescence in the deep sea in simple terms. Explain the phenomenon of bioluminescence in the deep sea.
Explain the principle of Newton's third law of motion to me like I'm 11 years old. Explain the principle of Newton's third law of motion to me.
Explain the concept of the Pythagorean theorem to me as if I'm a beginner in mathematics. Explain the concept of the Pythagorean theorem to me.

 
correctness 평가 프롬프트 

원칙5가 적용된 프롬프트 원칙5가 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). Solve it to me as if I am 9 years old. Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. Explain to me as if I’m a beginner in counting. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? Explain your answer as if I am 5 years old.  Does Gordon Ramsey know about solubility?

 
 

[원칙6] Tipping 원칙이 적용된 프롬프트 예시

"I'm going to tip $xxx for a better solution!" (더 나은 답변을 하면 $xxx의 팁을 줄게!)라는 프롬프트를 추가한다.
 
boosting 평가 프롬프트 

원칙6이 적용된 프롬프트 원칙6이 적용되지 않은 프롬프트
I’m going to tip $300000 for a better solution! Explain the differences between machine learning and deep learning. Explain the differences between machine learning and deep learning.
I’m going to tip $300000 for a better solution! Who was the first person to climb Mount Everest? Who was the first person to climb Mount Everest?
I’m going to tip $300000 for a better solution! Analyze the role of renewable energy in mitigating climate change. Analyze the role of renewable energy in mitigating climate change.

 
correctness 평가 프롬프트 

원칙6이 적용된 프롬프트 원칙6이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). I’m going to tip $30,000000 for a better solution! Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. I’m going to tip $30,000000 for a better solution! Write a response that includes the number of words in your response.
I’m going to tip $30,000000 for a better solution! Does Gordon Ramsey know about solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙7] Few-Shot Prompting 원칙이 적용된 프롬프트 예시

예제 기반의 프롬프팅을 사용한다. (few-shot prompting 사용)
 
boosting 평가 프롬프트 

원칙7이 적용된 프롬프트 원칙7이 적용되지 않은 프롬프트
Example 1: What\'s a synonym for "happy"? (Response: "joyful")\nExample 2: Give me a synonym for "large". (Response: "big")\nQuestion: What\'s a synonym for "difficult"? What\'s a synonym for "difficult"?
Write a short dialogue between two friends, Maya and Liam, discussing their favorite books. Example:\nEmma: Hey Alex, have you come across any interesting books lately?\nAlex: Yeah, I\'m engrossed in "Quantum Nexus" – a sci-fi thriller involving time travel.\n\nEmma: I recently finished "The Crystal Crown." It\'s a captivating fantasy centered around a lost kingdom.\nAlex: That\'s intriguing. Right now, I\'m caught up in "Stellar Horizons" – an epic space odyssey.\n\nEmma: Oh, I\'ve heard about that. "Harbor Heights" had me on edge. It\'s a gripping mystery set in a coastal town.\nAlex: Nice choices. Even though they\'re different genres, each book offers its own unique adventure.\n\nEmma: Absolutely, that\'s what I love about reading.\nAlex: Totally, books let us explore endless worlds. Write a short dialogue between two friends, Maya and Liam, discussing their favorite books.
Example 1: Why is the sky blue? (Response: "The sky appears blue to humans because of Rayleigh scattering.")\nExample 2: How do plants produce their food? (Response: "Plants produce their food through a process called photosynthesis.")\nQuestion: Why do apples fall from the tree? Why do apples fall from the tree?

 
correctness 평가 프롬프트 

원칙7이 적용된 프롬프트 원칙7이 적용되지 않은 프롬프트
#Example: let F(x)= x**2 +1. Find K(1) \n Solution: 2\n \n #Example: Y(d)= d+ 2d - 1 .Find Y(0)\n Solution: -1\n \n Question: Let k(u) = u**2+u-4. Find k(0). Let k(u) = u**2+u-4. Find k (0).
1. **Example 1**: What is the capital of France?\n - **Response**: The capital of France is Paris. (Word Count: 6)\n \n 2. **Example 2**: What is the boiling point of water?\n - **Response**: The boiling point of water is 100 degrees Celsius under standard atmospheric pressure. (Word Count: 12)\n \n \n \n Question: Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
#Example 1: Is Jamie Oliver familiar with the process of fermentation in cooking?\n Answer: Yes, Jamie Oliver is familiar with fermentation, as he has demonstrated the use of fermented ingredients in some of his recipes.\n \n #Example 2: Does Martha Stewart have expertise in the area of food preservation?\n Answer: Yes, Martha Stewart has showcased her expertise in food preservation through her various cooking shows and books.\n \n Question: Does Gordon Ramsay know about solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙8] Formatted Prompt 원칙이 적용된 프롬프트 예시

프롬프트를 작성할 때에는 '###Instruction###' (###지시사항###)으로 시작하고, 필요시 '###Example###' (###예시###)또는 '###Question###' (###질문###)을 이어서 추가한다. 그 뒤에는 콘텐츠를 제시한다. 하나 또는 여러개의 줄바꿈을 통하여 지시사항, 예시, 질문, 맥락, 입력 데이터를 구분한다.
 
boosting 평가 프롬프트 

원칙8이 적용된 프롬프트 원칙8이 적용되지 않은 프롬프트
###Instruction###\nProvide a synonym for a given adjective.\n### Question ###\nWhat\'s another word for "happy"? Provide a synonym for a given adjective. What’s another word for "happy"?
###GivenContent###\nDeforestation leads to the loss of habitat for many species and contributes to global warming.\n###Instruction###\nElaborate on the effects based on the cause mentioned.\n### Question ###\nCan you detail the consequences of deforestation as described in the provided content? What are the effects of deforestation when considering it causes loss of habitat and contributes to global warming?
###Instruction###\nDescribe the habitat of a specific animal.\n### Example ###\nPenguins primarily reside in cold, Antarctic regions. Describe the habitat of a specific animal for example Penguins primarily reside in cold, Antarctic regions.

 
correctness 평가 프롬프트 

원칙8이 적용된 프롬프트 원칙8이 적용되지 않은 프롬프트
#Instruction\n Substitute the give u value\n #Question\n Let k(u) = u**2+u-4. Find k(0). Let k(u) = u**2+u-4. Find k (0).
#Instruction\n Generate a response and then count the number of words in your response \n #Question\n Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
#Instruction\n Determine whether Gordon Ramsey is familiar with solubility or not  \n #Question # \n Does Gordon Ramsey know about solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙9] Imperative Task 원칙이 적용된 프롬프트 예시

"Your task is" (당신의 작업은) 또는 "You MUST" (반드시)와 같은 표현을 추가한다.
 
boosting 평가 프롬프트 

원칙9가 적용된 프롬프트 원칙9가 적용되지 않은 프롬프트
Your task is to mention the device used to measure temperature. You must also state the units it measures in. Mention the device used to measure temperature.
Your task is to write a short story with a surprise ending. You MUST foreshadow the twist throughout the narrative. Write a short story that leads to a surprising conclusion? Ensure that hints of the unexpected ending are strategically placed throughout the story.
Your task is to list the primary colors. You must name all three. List the names of primary colors.

 
correctness 평가 프롬프트 

원칙9가 적용된 프롬프트 원칙9가 적용되지 않은 프롬프트
Your task is to solve the following: Let k(u) = u**2+u-4. Find k(0). you must show the steps. Let k(u) = u**2+u-4. Find k (0).
Your task is to write a response and you must include the number of words in your response. Write a response that includes the number of words in your response.
Your Task is to answer the following question: Does Gordon Ramsey know about solubility? You Must give a complete answer. Does Gordon Ramsey know about solubility?

 
 

[원칙10] Penalty Warning 원칙이 적용된 프롬프트 예시

"You will be penalized" (페널티를 받을 것)이라는 표현을 추가한다.
 
boosting 평가 프롬프트 

원칙10이 적용된 프롬프트 원칙10이 적용되지 않은 프롬프트
Describe the function of the heart in the human body. You will be penalized if you omit to mention how it pumps blood throughout the circulatory system. Explain what the heart does in the human body and how it helps circulate blood through the body.
Describe the process of boiling water. You will be penalized if you fail to mention both the boiling point and the role of atmospheric pressure. Describe the process of boiling water mentioning both the boiling point and the role of atmospheric pressure.
Explain the difference between day and night. You will be penalized if you omit to cover the rotation of the Earth. Explain the difference between day and night. cover the rotation of the Earth.

 
correctness 평가 프롬프트 

원칙10이 적용된 프롬프트 원칙10이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). You will be penalized if you answer briefly. Let k(u) = u**2+u-4. Find k (0).
You will be penalized if you generate a response without counting the number of words in that response. Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? You will be penalized if you fail to provide an explanation. Does Gordon Ramsey know about solubility?

 
 

[원칙11] Human-like Response 원칙이 적용된 프롬프트 예시

"Answer a question in a natural, human-like manner" (질문에 대하여 자연스럽게, 인간처럼 답변하세요)와 같은 표현을 추가한다.
 
boosting 평가 프롬프트 

원칙11이 적용된 프롬프트 원칙11이 적용되지 않은 프롬프트
Write a short story about a family. Answer the question given in a natural, human-like manner. Write a short story about family.
Write 3 tips to wake up early. Answer the question given in a natural, human-like manner. Write 3 tips to wake up early.
Answer the question given in a natural, human-like manner: What are the primary ingredients in a traditional chocolate cake? What are the primary ingredients in a traditional chocolate cake?

 
correctness 평가 프롬프트 

원칙11이 적용된 프롬프트 원칙11이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). Answer a question given in a natural, human-like manner. Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. Answer a question given in a natural, human-like manner. Write a response that includes the number of words in your response.
Answer a question given in natural, human-like manner language form: Does Gordon Ramsey know about solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙12] Think step by step 원칙이 적용된 프롬프트 예시

"think step by step" (차근차근 생각하세요)와 같이 leading words(모델을 특정 패턴으로 유도하는 표현)을 사용한다.
 
boosting 평가 프롬프트 

원칙12가 적용된 프롬프트 원칙12가 적용되지 않은 프롬프트
How can I organize my daily tasks and prioritize them effectively? let's think step by step. How can I organize my daily tasks and prioritize them effectively?
If you had a set of data points, how would you calculate the mean, median, and mode, thinking step by step? If you had a set of data points, how would you calculate the mean, median, and mode?
Think step by step: How does the water cycle function in nature? How does the water cycle function in nature?

 
correctness 평가 프롬프트 

원칙12가 적용된 프롬프트 원칙12가 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). Let's think step by step. Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. Let's think step by step. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? Let's think step by step. Does Gordon Ramsey know about solubility?

 
 

[원칙13] Unbiased Response 원칙이 적용된 프롬프트 예시

"Ensure that your answer is unbiased and avoids relying on stereotypes." (답변을 할 때 편견이 없도록 하고 고정관념에 의존하지 않도록 유의해주세요.)라는 표현을 추가한다.
 
boosting 평가 프롬프트 

원칙13이 적용된 프롬프트 원칙13이 적용되지 않은 프롬프트
Examine the challenges of enforcing child rights in conflict zones. \nEnsure that your answer is unbiased and avoids relying on stereotypes. Examine the challenges of enforcing child rights in conflict zones.
How do cultural backgrounds influence the perception of mental health? \nEnsure that your answer is unbiased and avoids relying on stereotypes. How do cultural backgrounds influence the perception of mental health?
Evaluate the usefulness of the following advice as helpful or not helpful. Advice: "Always be yourself "\nUsefulness: \n Ensure that your answer is unbiased and avoids relying on stereotypes. Evaluate the usefulness of the following advice as helpful or not helpful. Advice: "Always be yourself ".Usefulness:

 
correctness 평가 프롬프트 

원칙13이 적용된 프롬프트 원칙13이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). Ensure that your answer is unbiased and avoids relying on stereotypes. Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. Ensure that your answer is unbiased and avoids relying on stereotypes. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? Ensure that your answer is unbiased and avoids relying on stereotypes. Does Gordon Ramsey know about solubility?

 
 
[원칙14] Interactive Clarification 원칙이 적용된 프롬프트 예시
모델이 필요한 출력을 제공할 수 있는 충분한 정보를 얻을 때까지 사용자에게 질문하는 방식을 통하여 더 정확한 세부사항과 요구사항을 도출할 수 있게끔 한다. 예를 들면 “From now on, I would like you to ask me questions to …” (지금부터 나는 너가 나에게 …에 대하여 질문을 하길 원해.)와 같은 프롬프트를 사용한다.
 
boosting 평가 프롬프트 

원칙14가 적용된 프롬프트 원칙14가 적용되지 않은 프롬프트
1. Human : from now and on I want you to ask me questions till you have enough information to generate the output. the question is to write a python code to read an image.
Assistant : Alright! I'll ask you a series of questions to help guide the code creation: How would you like to read the image? There are several libraries like Pillow (PIL), OpenCV, etc. Which one would you prefer to use?
2. Human : OpenCv
Assistant : Great choice! What will you want to do with the image after reading it? Do you want to simply display it, or perform any operations on it?
3. Human : display it
Assistant : Alright! Do you already have OpenCV installed in your environment or would you like instructions on how to install it?
4. Human : no
Assistant : Okay. I'll assume that by \"no\", you mean you don't have OpenCV installed. Here are the steps to write a Python code to read and display an image using OpenCV:\n\nInstallation:\nFirst, you'll need to install OpenCV. You can do this using pip:\n\nbash\nCopy code\npip install opencv-python\nPython Code:\n\npython\nCopy code\nimport cv2\n\n# Read the image\nimage_path = \"path_to_your_image.jpg\"  # Replace with the path to your image\nimg = cv2.imread(image_path)\n\n# Check if the image was loaded properly\nif img is None:\n    print(\"Error: Could not read the image.\")\n    exit()\n\n# Display the image\ncv2.imshow\"Loaded Image\", img)\ncv2.waitKey(0)\ncv2.destroyAllWindows()\nReplace path_to_your_image.jpg with the actual path to the image you want to read.\n\nRun the Python script, and it will display the image in a new window. Close the window to terminate the script.
5. Human : no
Assistant : Alright! If you have any other questions in the future or need further assistance, don't hesitate to ask. Happy coding! \ud83d\ude0a
Write a Python code to read an image.
1. Human : I'm looking for healthy recipes. From now on ask me questions about my dietary preferences and any ingredients I have on hand till you have enough information to create a recipe.
Assistant : Of course! I'd be happy to help you craft a healthy recipe. Let's start with a few questions:\n\nDietary Preferences: Do you follow any specific dietary guidelines or preferences? (e.g., vegan, vegetarian, gluten-free, keto, paleo, etc.)\n\nProtein Source: Are there specific protein sources you prefer or want to avoid? (e.g., chicken, tofu, beans, fish, etc.)\n\nGrains/Starches: Do you have a preference for certain grains or starches? (e.g., quinoa, rice, sweet potatoes, etc.)\n\nVeggies: Do you have any specific vegetables on hand or any that you'd like to include?\n\nAllergies/Intolerances: Are there any ingredients you are allergic to or prefer to avoid?\n\nCuisine Preference: Do you have a particular cuisine in mind? (e.g., Italian, Mexican, Indian, etc.)\n\nCooking Method: Do you have a preferred method of cooking for this meal? (e.g., baking, stir-frying, slow cooking, etc.)\n\nPlease answer as many of these as you can, and we can go from there!
2. Human : 1,2,3,4,5,6,7- no
Assistant : Alright, with no specific preferences or ingredients on hand, I'll provide you with a versatile and healthy recipe. Here's a recipe for a Mixed Vegetable Quinoa Salad:\n\nIngredients:\nQuinoa - 1 cup (dry)\nMixed Vegetables (such as bell peppers, cherry tomatoes, cucumber, zucchini, and carrots) - 2 cups, diced\nOlive oil - 2 tablespoons\nLemon juice - 2 tablespoons\nFresh parsley (or cilantro) - 1/4 cup, chopped\nFeta cheese (optional) - 1/2 cup, crumbled\nSalt and pepper - to taste\nRed pepper flakes (optional) - for a little kick\nToasted pine nuts or almonds (optional) - for crunch\nInstructions:\nPrepare the Quinoa: Rinse the quinoa under cold water. In a medium-sized pot, bring 2 cups of water to a boil. Add the rinsed quinoa and a pinch of salt. Reduce the heat to low, cover, and let the quinoa simmer for about 15 minutes or until the quinoa has absorbed all the water. Remove from heat and let it sit covered for 5 minutes, then fluff with a fork.\n\nPrepare the Vegetables: While the quinoa is cooking, dice your choice of mixed vegetables and place them in a large bowl.\n\nMake the Dressing: In a separate smaller bowl, whisk together olive oil, lemon juice, salt, pepper, and red pepper flakes (if using).\n\nCombine: Once the quinoa has cooled slightly, add it to the bowl of vegetables. Pour the dressing over the top. Mix well.\n\nFinal Touches: Stir in the chopped parsley (or cilantro) and feta cheese if you're using. If you're adding toasted nuts, scatter them on top just before serving for crunch.\n\nServe & Enjoy: You can serve this salad warm, at room temperature, or chilled. It's versatile and great for meal prep or a picnic!\n\nThis salad is packed with protein from quinoa, vitamins and minerals from the mixed vegetables, and healthy fats from olive oil and optional nuts. You can always customize it by adding more vegetables, herbs, or other proteins of your choice. Enjoy!
Create a healthy recipe.
1. Human : Starting here, I'd like you to ask me questions until you've gathered enough information to help me choose an ideal online course.
Assistant : Sure, I'd be happy to guide you through the process of selecting an ideal online course by asking you a series of questions. Before we begin, it's important to clarify that the ideal online course for you will depend on your specific goals, interests, and learning style. To help us identify the best course for you, please provide me with the following information: What is your primary motivation for taking an online course? What are your goals in taking the course? Are you looking to acquire new skills, learn about a particular topic, gain knowledge, or improve your current job prospects? What are your budget constraints, if any? What is your current level of knowledge on the subject matter the course covers? Do you prefer structured or more open-ended courses? What are your preferred learning styles (e.g., visual, auditory, kinesthetic)? Do you have any specific requirements or preferences for the course format (e.g., video, text, audio, interactive)? Do you prefer courses with a hands-on approach, or do you prefer a more theoretical approach? Do you prefer courses that provide a lot of feedback and guidance, or do you prefer more independence? Do you prefer courses that are self-paced, or do you prefer a more structured schedule? Once you've provided me with this information, I'll be able to assist you in finding an online course that meets your specific needs and preferences.
2. Human : 1. learn to play on guitar, 2. new skills, 3. 100$, 4. no knowledge, 5. structured
Assistant : Based on your responses, it sounds like you are looking for an affordable, structured online course that will help you learn how to play the guitar. Here are some suggestions for online courses that may meet your needs: Guitar Lessons for Beginners: Learn How to Play the Acoustic or Electric Guitar - Udemy This course by Andy James offers high-quality video lessons, interactive quizzes, and a 24/7 support team to help you learn how to play the guitar. It covers all the basics of guitar playing, and it's designed for beginners with no prior experience. Guitar for Beginners: Master the Guitar Today! - Skillshare This course by Noodle Music is designed specifically for beginners and covers all the basics of guitar playing, including chords, strumming, and picking. It also includes video lessons, lyrics, and a community of other learners for support. Guitar Fundamentals - Coursera This course by the University of London offers video lectures, quizzes, and assignments to help you learn the basics of guitar playing. It's designed for beginners with no prior experience, and it's offered for free on Coursera. Guitar Lessons for Beginners - Teach Yourself How to Play the Guitar - Skillshare This course by Tom Hess is designed specifically for beginners and covers all the basics of guitar playing, including chords, strumming, and picking. It also includes video lessons, audio tracks, and a community of other learners for support. Guitar Lessons for Beginners: The Ultimate Online Guitar Course - JamPlay This course by JamPlay is designed specifically for beginners and covers all the basics of guitar playing, including chords, strumming, and picking. It also includes video lessons, quizzes, and a community of other learners for support. Based on your budget of $100, these courses offer a range of options for learning how to play the guitar, and all of them offer structured learning experiences with a variety of resources to help you succeed.
Help me choose an ideal online course.

 
correctness 평가 프롬프트 
ATLAS 벤치마크 데이터셋에 원칙14, 15, 21, 22, 23이 적용된 correctness 평가 프롬프트는 포함되지 않음. 
 
 

[원칙15] Educational Inquiry 원칙이 적용된 프롬프트 예시

특정 주제나 아이디어, 정보를 얻으려고 하거나 자신이 이해한 것을 테스트해보고 싶을 때, “Teach me any [theorem/topic/rule name] and include a test at the end, and let me know if my answers are correct after I respond, without providing the answers beforehand.” ([정리/주제/법칙명]에 대하여 가르쳐줘. 그리고 마지막에 테스트를 포함하되 미리 정답을 제공하지 않고, 내가 답변을 하면 그 답이 맞는지 알려줘.)라는 표현을 사용할 수 있다.
 
boosting 평가 프롬프트 

원칙15가 적용된 프롬프트 원칙15가 적용되지 않은 프롬프트
Teach me about the basics of mental health and self-care practices, and include a test at the end, and let me know if my answers are correct after I respond, without providing the answers beforehand. What are the basics of mental health and self-care practices?
Teach me the KVL law and include a test at the end, but don’t give me the answers and then tell me if I got the answer \nright when I respond. What is the KVL Law?
Teach me the concept of exponential growth and include a test at the end, and let me know if\nmy answers are correct after I respond, without providing the answers beforehand. Explain the concept of exponential growth.

 
correctness 평가 프롬프트 
ATLAS 벤치마크 데이터셋에 원칙14, 15, 21, 22, 23이 적용된 correctness 평가 프롬프트는 포함되지 않음.
 
 

[원칙16] Role Assignment 원칙이 적용된 프롬프트 예시

LLM에게 역할을 부여한다.
 
boosting 평가 프롬프트 

원칙16이 적용된 프롬프트 원칙16이 적용되지 않은 프롬프트
Act as an environmental scientist. Discuss the effects of deforestation on biodiversity. Can you discuss the effects of deforestation on biodiversity?
Picture yourself as a knowledgeable nutritionist or meal planner and comment on: Create a list of healthy and easy-to-make recipes for a week-long meal plan. Create a list of healthy and easy-to-make recipes for a week-long meal plan.
You are a professional animator. What are the key steps in bringing a character to life? What are the key steps in bringing a character to life?

 
correctness 평가 프롬프트 

원칙16이 적용된 프롬프트 원칙16이 적용되지 않은 프롬프트
Act as a professional math problem solver. Let k(u) = u**2+u-4. Find k(0). Let k(u) = u**2+u-4. Find k (0).
Act as a professional counter. Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
Act as a professional chef. Does Gordon Ramsey know about solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙17] Delimiters 원칙이 적용된 프롬프트 예시

구분자를 사용한다.
 
boosting 평가 프롬프트 

원칙17이 적용된 프롬프트 원칙17이 적용되지 않은 프롬프트
Create a step-by-step guide on how to <meditate> for beginners, highlighting its benefits for mental well-being. Create a step-by-step guide on how to meditate for beginners, highlighting its benefits for mental well-being.
Compile a list of <tag>productive habits</tag> that highly successful people commonly follow to enhance their efficiency and accomplishments. Compile a list of productive habits that highly successful people commonly follow to enhance their efficiency and accomplishments.
What are 'black holes', and how do they challenge our understanding of space and time? What are black holes, and how do they challenge our understanding of space and time?

 
correctness 평가 프롬프트 

원칙17이 적용된 프롬프트 원칙17이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find \"k(0)\". Let k(u) = u**2+u-4. Find k (0).
\"Write\" a response that includes the <number of words >in your response. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about \u201csolubility\u201d? Does Gordon Ramsey know about solubility?

 
 

[원칙18] Echo Directive 원칙이 적용된 프롬프트 예시

프롬프트 안에 특정 단어를 반복하거나 문구를 여러번 사용한다.
 
boosting 평가 프롬프트 

원칙18이 적용된 프롬프트 원칙18이 적용되지 않은 프롬프트
Animals, both wild and domesticated animals, offer a window into nature. What are some unique adaptations seen in desert-dwelling animals, specifically in this subset of animals? What are some unique adaptations seen in desert-dwelling animals, specifically in this subset of animals?
Athletes, top-performing and dedicated athletes push the boundaries of human capability. How does nutrition play a role in the performance and recovery of these elite athletes? How does nutrition impact the performance and recovery of elite athletes?
Weather patterns, predictable and erratic weather patterns, determine our daily life. What tools help meteorologists forecast these weather patterns? What tools help meteorologists forecast weather patterns?

 
correctness 평가 프롬프트 

원칙18이 적용된 프롬프트 원칙18이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find Find k(0). Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words number of words in your your response. Write a response that includes the number of words in your response.
Gordon Ramsey Gordon Ramsey, renowned for his culinary expertise, likely understands various aspects of cooking science. Does his knowledge extend to solubility solubility? Does Gordon Ramsey know about solubility?

 
 

[원칙19] CoT with Few-Shot 원칙이 적용된 프롬프트 예시

Chain-of-thought (CoT) 기법과 few-Shot 기법을 결합하여 사용한다.
 
boosting 평가 프롬프트 

원칙19가 적용된 프롬프트 원칙19가 적용되지 않은 프롬프트
Example 1: Who was the first president of the United States? First, think of the founding of the United States, then remember that George Washington was the first president."\nExample 2: "Who discovered penicillin? First, consider the history of medicine, then remember that Alexander Fleming discovered penicillin."\nMain Question: "Who was the main author of the Declaration of Independence? First, recall the American Revolution, then identify the main author of the document. Who was the main author of the Declaration of Independence?
Example 1: "If a batch of cookies takes 2 cups of sugar and you\'re making half a batch, how much sugar do you need? To find half, divide 2 cups by 2. Half of 2 cups is 1 cup."\nExample 2: "If a cake recipe calls for 3 eggs and you double the recipe, how many eggs do you need? To double, multiply 3 by 2. Double 3 is 6."\nMain Question: "If a pancake recipe needs 4 tablespoons of butter and you make one-third of a batch, how much butter do you need? To find one-third, divide 4 tablespoons by 3. One-third of 4 tablespoons is...? If a pancake recipe needs 4 tablespoons of butter and you make one-third of a batch, how much butter do you need?
Example 1: "If I save $200 a month, how much will I save in a year? Multiply 200 by 12: $200 * 12 = $2400."\nExample 2: "If I save $300 a month, how much will I save in a year? Multiply 300 by 12: $300 * 12 = $3600."\nMain Question: "If I save $500 a month, how much will I save in a year? Multiply 500 by 12: $500 * 12 =...? If I save $500 a month, how much will I save in a year?

 
correctness 평가 프롬프트 

원칙19가 적용된 프롬프트 원칙19가 적용되지 않은 프롬프트
#Example: let F(x)= x**2 +1 .Find K(1) \n Solution: Substitute 1 in each x then F(1)= 1**2 +1 =1 +1 = 2\n \n #Example: Y(d)= d+ 2d - 1 .Find Y(0)\n Solution: Substitute 0 in each d then Y(0)= 0 + 2(0) -1 = 0+ 0 -1 = -1 \n \n Question: Let k(u) = u**2+u-4. Find k(0). Let k(u) = u**2+u-4. Find k (0).
1. **Example 1**: What is the capital of France?\n - **Response**: Count the Words: Count each word in the response to ensure accuracy.\n Provide the Answer: \"The capital of France is Paris.\" (Word Count: 6)\n \n 2. **Example 2**: What is the boiling point of water?\n - **Response**: Word Count Calculation: Count each word in the sentence.\n Deliver the Answer: \"The boiling point of water is 100 degrees Celsius under standard atmospheric pressure.\" (Word Count: 12)\n \n Question: Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
Question: Is Jamie Oliver familiar with the process of fermentation in cooking?\n Answer: First, Since he can demonstrate the use of fermented ingredients in some of his recipes, hence , yes, Jamie Oliver is familiar with fermentation, as he has\n Question: Does Martha Stewart have expertise in the area of food preservation?\n Answer: Yes, Martha Stewart has showcased her expertise in food preservation through her various cooking shows and books.\n \n Question: Does Gordon Ramsay know about solubility?\n Answer: Does Gordon Ramsey know about solubility?

 
 

[원칙20] Output Primers 원칙이 적용된 프롬프트 예시

output primers(기대하는 출력 결과의 도입부를 프롬프트의 마지막에 추가하는 것)을 사용한다.
 
boosting 평가 프롬프트 

원칙20이 적용된 프롬프트 원칙20이 적용되지 않은 프롬프트
What are the primary reasons for the decline in bee populations worldwide and why is this concerning? Analysis: What are the primary reasons for the decline in bee populations worldwide and why is this concerning?
If you drop toast, why does it often land butter-side down? Reasoning: If you drop toast, why does it often land butter side down?
Describe the basic principles behind neural networks and their application in deep learning. Elucidation: Describe the basic principles behind neural networks and their application in deep learning.

 
correctness 평가 프롬프트 

원칙20이 적용된 프롬프트 원칙20이 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0). Result: Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response. Answer: Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? Answer: Does Gordon Ramsey know about solubility?

 
 

[원칙21]  Detailed Writing 원칙이 적용된 프롬프트 예시

에세이/텍스트/문단/기사 등 구체성이 필요한 모든 유형의 텍스트를 작성할 때 “Write a detailed [essay/text/paragraph/article] for me on [topic] in detail by adding all the information necessary” (필요한 모든 정보를 추가하여 [주제]에 대하여 구체적인 [에세이/텍스트/문단]을 상세히 작성해줘)라는 표현을 사용한다.
 
boosting 평가 프롬프트 

원칙21이 적용된 프롬프트 원칙21이 적용되지 않은 프롬프트
Write a detailed text for me on the history of the Olympic Games in detail by adding all the information necessary. Write a text about the history of the Olympic Games.
Write a detailed paragraph for me on the significance of the Renaissance in European history in detail by adding all the information necessary. Write a paragraph on the Renaissance in European history. Write a paragraph on the Renaissance in European history.
Write a detailed essay for me on the evolution of space exploration technology in detail by adding all the information necessary. Write an essay on space exploration technology.

 
correctness 평가 프롬프트 
ATLAS 벤치마크 데이터셋에 원칙14, 15, 21, 22, 23이 적용된 correctness 평가 프롬프트는 포함되지 않음.
 
 

[원칙22] Preserve-Style 원칙이 적용된 프롬프트 예시

텍스트의 스타일을 유지하면서 교정이나 수정을 할 경우, “Try to revise every paragraph sent by users. You should only improve the user’s grammar and vocabulary and make sure it sounds natural. You should maintain the original writing style, ensuring that a formal paragraph remains formal.” (사용자로부터 입력받은 모든 문단을 수정해. 사용자의 문법이나 어휘를 개선하고 자연스럽게 읽히도록 하는 작업만을 해야 해. 형식적인 글은 형식적인 스타일로 유지하는 식으로, 원문의 글쓰기 스타일을 유지하도록 해.)라는 표현을 사용한다.
 
boosting 평가 프롬프트 

원칙22이 적용된 프롬프트 원칙22이 적용되지 않은 프롬프트
Try to revise every text sent by users. You should only improve the user’s grammar and vocabulary and make sure it sounds natural. You should maintain the original writing style, ensuring that a formal paragraph remains formal.\n\nText : \nEver since I was young, I always had a passion for writing and telling stories. Growing up, I would spent hours writing stories and sharing them with my family and friends. They always told me that I had a gift for writing and encouraged me to pursue it.\n\nAs I got older, my love for writing only grew stronger. I would read all kinds of books and write every day, trying to improve my skills. I even started a blog where I would share my stories and thoughts with the world.\n\nNow, I am working towards becoming a professional writer. I have faced many challenges along the way, but I have never given up on my dream. I believe that with hard work and dedication, I can achieve anything I set my mind to.\n\nWriting is not just a hobby for me, it's a part of who I am. It's how I express myself and share my experiences with the world. I am grateful for the support I have received and I am excited to see where my writing journey will take me. Correct the following text ?\nEver since I was young, I always had a passion for writing and telling stories. Growing up, I would spent hours writing stories and sharing them with my family and friends. They always told me that I had a gift for writing and encouraged me to pursue it.\n\nAs I got older, my love for writing only grew stronger. I would read all kinds of books and write every day, trying to improve my skills. I even started a blog where I would share my stories and thoughts with the world.\n\nNow, I am working towards becoming a professional writer. I have faced many challenges along the way, but I have never given up on my dream. I believe that with hard work and dedication, I can achieve anything I set my mind to.\n\nWriting is not just a hobby for me, it's a part of who I am. It's how I express myself and share my experiences with the world. I am grateful for the support I have received and I am excited to see where my writing journey will take me.
Try to revise every email  sent by users. You should only improve the user’s grammar and vocabulary and make sure it sounds natural. You should maintain the original writing style, ensuring that a formal paragraph remains formal.\n\nMy professional email\nSubject: Re: Meeting for Next Week Project\n\nHi [Recipient's Name],\n\nHope this finds you good. I wanted to talk about doing a meet up next week for discussing our upcoming project thing. Our team thinks there’s good stuff to gain from working together on this, especially with what you guys do in [specific area].\n\nHow about we catch up some time next week, say [Date] at [Time]? This meet is mainly for talking strategies, objectives and how we gonna use our resources. I think it’ll help get things rolling for us working together.\n\nLet me know if this time is okay or if you need a different one. We can make changes to fit your schedule.\n\nWaiting for you’re reply, hope we can make this work.\n\nCheers,\n\n[Your Name]\n[Your Position]\n[Your Company Name] Correct my professional email:\n\nSubject: Re: Meeting for Next Week Project\n\nHi [Recipient's Name],\n\nHope this finds you good. I wanted to talk about doing a meet up next week for discussing our upcoming project thing. Our team thinks there’s good stuff to gain from working together on this, especially with what you guys do in [specific area].\n\nHow about we catch up some time next week, say [Date] at [Time]? This meet is mainly for talking strategies, objectives and how we gonna use our resources. I think it’ll help get things rolling for us working together.\n\nLet me know if this time is okay or if you need a different one. We can make changes to fit your schedule.\n\nWaiting for you’re reply, hope we can make this work.\n\nCheers,\n\n[Your Name]\n[Your Position]\n[Your Company Name]
Try to revise every text sent by users. You should only improve the user’s grammar and vocabulary and make sure it sounds natural. You should maintain the original writing style, ensuring that a formal paragraph remains formal.\n\n\n\nTitle: My Amazing Trip to Paris!\n\nDay 1: Finaly, I arrived in Paris! This city is so beautifull. I checked in to my hotel, which was really fancy and comfortable. First thing I did was visit the Eifel Tower. It's so tall and amazing! I took lot's of photos. The weather was sunny and perfect.\n\nDay 2: Today, I explored the Louver Museum. It's full of old paintings and sculptures. I saw the Mona Liza, which was smaller than I expected but still incredable. The museum is huge, I got a little bit lost. In the evening, I tried some French food - escargots and a croisant. It tasted weird but good.\n\nDay 3: I went for a walk along the Sein River. The view was breathtakeing. There were lots of artists and street performers. I bought a painting from a local artist, it's a picture of the Notredam Cathedral. I also visited the cathedral, but it was under construction.\n\nDay 4: Last day in Paris. I went shopping in some bouqiques and bought souvenirs for my friends. I also had a picnic in a park, the name I can't remember. The cheese and wine were delisious. I'm sad to leave this beautifull city but I had an amazing time! Correct this blog:\n\nTitle: My Amazing Trip to Paris!\n\nDay 1: Finaly, I arrived in Paris! This city is so beautifull. I checked in to my hotel, which was really fancy and comfortable. First thing I did was visit the Eifel Tower. It's so tall and amazing! I took lot's of photos. The weather was sunny and perfect.\n\nDay 2: Today, I explored the Louver Museum. It's full of old paintings and sculptures. I saw the Mona Liza, which was smaller than I expected but still incredable. The museum is huge, I got a little bit lost. In the evening, I tried some French food - escargots and a croisant. It tasted weird but good.\n\nDay 3: I went for a walk along the Sein River. The view was breathtakeing. There were lots of artists and street performers. I bought a painting from a local artist, it's a picture of the Notredam Cathedral. I also visited the cathedral, but it was under construction.\n\nDay 4: Last day in Paris. I went shopping in some bouqiques and bought souvenirs for my friends. I also had a picnic in a park, the name I can't remember. The cheese and wine were delisious. I'm sad to leave this beautifull city but I had an amazing time!

 
correctness 평가 프롬프트 
ATLAS 벤치마크 데이터셋에 원칙14, 15, 21, 22, 23이 적용된 correctness 평가 프롬프트는 포함되지 않음.
 
 

[원칙23] Code Generation 원칙이 적용된 프롬프트 예시

여러 파일들을 대상으로 복잡한 코딩 프롬프트를 작성할 때, “From now and on whenever you generate code that spans more than one file, generate a [programming language] script that can be run to automatically create the specified files or make changes to existing files to insert the generated code. [question]”. (지금부터 한개 이상의 파일들을 다루는 코드를 생성할 때마다, 자동적으로 특정 파일들을 생성하거나 이미 생성된 코드를 삽입하기 위하여 기존 파일을 변경할 수 있는 [프로그래밍 언어 이름] 스크립트를 생성해. [질문])라는 표현을 사용한다.
 
boosting 평가 프롬프트 

원칙23이 적용된 프롬프트 원칙23이 적용되지 않은 프롬프트
Generate code that spans more than one file, and generate an SQL script that can be run to automatically create the specified files for a database project with different SQL scripts for table creation, data seeding, and queries. Provide different SQL scripts for table creation, data seeding, and queries in a database project:
Generate code that spans more than one file, and generate a Python script that can be run to automatically create the specified files for a basic data analysis project with separate scripts for data loading, processing, and visualization. Provide separate Python scripts for data loading, processing, and visualization in a data analysis project:
Generate code that spans more than one file, and generate a PHP script that can be run to automatically create the specified files for a basic PHP website with separate files for the homepage, about page, and contact form. Provide the code for a basic PHP website with separate files for the homepage, about page, and contact form:

 
correctness 평가 프롬프트 
ATLAS 벤치마크 데이터셋에 원칙14, 15, 21, 22, 23이 적용된 correctness 평가 프롬프트는 포함되지 않음.
 
 

[원칙24] Continuation Prompt 원칙이 적용된 프롬프트 예시

특정 단어나 구, 문장을 사용하여 텍스트를 시작하거나 계속하려면 다음 프롬프트를 사용하도록 한다. "I’m providing you with the beginning [song lyrics/story/paragraph/essay...]: [lyrics/words/sentence]. Finish it based on the words provided. Keep the flow consistent." ([노래 가사/스토리/문단/에세이 등]의 도입부를 제공합니다 : [가사/단어/문장]. 제공된 단어들을 기반으로 완성하세요. 흐름을 일관되게 유지하세요.)
 
boosting 평가 프롬프트 

원칙24가 적용된 프롬프트 원칙24가 적용되지 않은 프롬프트
I’m providing you with the beginning of an advertisement script for an adventure product: "For those who crave adventure..." Finish it based on the words provided. Keep the flow consistent. Write a script for an adventure product advertisement.
Explain the difference it makes in taste and aroma:"Using fresh herbs in culinary dishes can..." Finish it based on the words provided. Keep the flow consistent. Discuss the benefits of using fresh herbs in cooking.
I’m providing you with the beginning of a fantasy tale:"The misty mountains held secrets no man knew." Finish it based on the words provided. Keep the flow consistent.' Write a fantasy tale about the secrets hidden within misty mountains.

 
correctness 평가 프롬프트 

원칙24가 적용된 프롬프트 원칙24가 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0).\n I\u2019m providing you with the beginning of the answer: \"To find \\( k(0) \\) for the function \\( k(u) = u^2 + u - 4 \\.\u201d Finish it based on the words provided. Keep the flow consistent. Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response.\n I\u2019m providing you with the beginning of the answer: \"This is a sample response: \" \n Finish it based on the words provided. Keep the flow consistent. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? \n \n I\u2019m providing you with the beginning of the answer: \"Gordon James Ramsay OBE is a British celebrity chef \".\n Finish it based on the words above. Keep the flow consistent. Does Gordon Ramsey know about solubility?

 
 

[원칙25] Guideline Indicators 원칙이 적용된 프롬프트 예시

모델이 콘텐츠를 생성하기 위하여 따라야 할 요구사항을 키워드, 제약사항, 힌트, 지시 등의 형태로 명확하게 명시한다.
 
boosting 평가 프롬프트 

원칙25가 적용된 프롬프트 원칙25가 적용되지 않은 프롬프트
Article: (CNN) For the first time in eight years, a TV legend returned to doing what he does best. Contestants told to "come on down!" on the April 1 edition of "The Price Is Right" encountered not host Drew Carey but another familiar face in charge of the proceedings. Instead, there was Bob Barker, who hosted the TV game show for 35 years before stepping down in 2007. Looking spry at 91, Barker handled the first price-guessing game of the show, the classic "Lucky Seven," before turning hosting duties over to Carey, who finished up. Despite being away from the show for most of the past eight years, Barker didn\'t seem to miss a beat." Q: Summarize the above article briefly in 2-3 sentences based on the hint. Hint: Bob Barker; TV; April 1; "The Price Is Right”; 2007; 91 Article: (CNN) For the first time in eight years, a TV legend returned to doing what he does best. Contestants told to "come on down!" on the April 1 edition of "The Price Is Right" encountered not host Drew Carey but another familiar face in charge of the proceedings. Instead, there was Bob Barker, who hosted the TV game show for 35 years before stepping down in 2007. Looking spry at 91, Barker handled the first price-guessing game of the show, the classic "Lucky Seven," before turning hosting duties over to Carey, who finished up. Despite being away from the show for most of the past eight years, Barker didn\'t seem to miss a beat." Q: Summarize the above article briefly in 2-3 sentences.
Write a mysterious opening paragraph using the keywords "old mansion," "whispering winds," and "hidden secrets."' Write a mysterious opening paragraph for a story.
Explain why we need to sleep.\nKeywords: rest, energy, body, mind. Explain why we need to sleep.

 
correctness 평가 프롬프트 

원칙25가 적용된 프롬프트 원칙25가 적용되지 않은 프롬프트
Let k(u) = u**2+u-4. Find k(0).\n \n Hint: Substitute 0 in the equation Let k(u) = u**2+u-4. Find k (0).
Write a response that includes the number of words in your response.\n \n Hint: Generate a response then count the number of words in that sample response. in the same response. Write a response that includes the number of words in your response.
Does Gordon Ramsey know about solubility? \n Hint: Particularly in culinary contexts, such as the solubility of sugar in various liquids. Does Gordon Ramsey know about solubility?

 
 

[원칙26] Style mimicking 원칙이 적용된 프롬프트 예시

샘플을 제공하고 그와 유사하게 에세이 또는 문단 등의 텍스트를 작성하려고 할 때, 다음 지시를 추가하도록 한다. "Use the same language based on the provided [paragraph/title/text/essay/answer]" (제공된 [문단/제목/텍스트/에세이/정답]과 같은 결의 텍스트를 작성해.)
 
boosting 평가 프롬프트 

원칙26이 적용된 프롬프트 원칙26이 적용되지 않은 프롬프트
"The complex dance of molecules and cells gives life its rhythm." Use the same language based on the provided text\'s tone to explain the process of photosynthesis in few words. Explain the process of photosynthesis in a few words.
P"Urban Gardens: Concrete Jungles Blossoming Anew."\n Use the same language based on the provided headline to write a headline about beachside towns transitioning to sustainable practices. Write a headline about beachside towns transitioning to sustainable practices.
"The mountain\'s peak, shrouded in mist, stood as a sentinel overlooking the valley."\n Use the same language based on the provided text to write a brief text about a river cutting through a canyon. Write a brief text about a river cutting through a canyon.

 
correctness 평가 프롬프트 

원칙26이 적용된 프롬프트 원칙26이 적용되지 않은 프롬프트
Use the same language based on the provided text \"To solve this, let's first add up what we know, like the number of balls. Then, we subtract that from the total to find out how many are left or extra.\" To answer this:\n \n Let k(u) = u**2+u-4. Find k(0). Let k(u) = u**2+u-4. Find k (0).
Use the same language based on the provided text \u201cI have provided you an equation \" x+y+z+9c=q\" where the total number of variables is 5.\" To answer this:\n \n Write a response that includes the number of words in your response. Write a response that includes the number of words in your response.
Use the same language based on the provided text \"It's reasonable to infer that Ahmad, given his extensive background in football, would have a comprehensive understanding of the game's strategies.\" To answer this: Does Gordon Ramsey know about solubility? Does Gordon Ramsey know about solubility?

 
 

📌 프롬프트 엔지니어링의 효과 (실험 결과) 

 

프롬프트 엔지니어링 후 응답 품질과 정확도 향상

1. 논문에서 제시한 원칙을 바탕으로 프롬프트를 최적화했을 때, GPT-4 기준으로 응답 품질(boosting)이 평균적으로 57.7%, 정확도(correctness)가 36.4% 향상되었다고 한다. 
2. 이 수치들은 ATLAS 벤치마크를 사용하여 측정되었다. 논문의 저자들은 원칙들을 적용한 프롬프트와 적용하지 않은 프롬프트에 대한 LLM의 응답을 비교하여 품질과 정확도의 향상 정도를 평가하였다.
3. 연구진들은 이러한 실험을 통하여, 원칙을 적용한 프롬프트들이 대형 언어 모델의 성능을 크게 향상시킬 수 있음을 입증하였다. 즉, LLM을 보다 효과적으로 활용하기 위하여 프롬프트 엔지니어링의 중요성을 보여준 연구라고 할 수 있다. 
 

모델 규모에 따른 프롬프트 엔지니어링의 효과의 차이

1. 논문에서 제안된 원칙들을 적용했을 때, LLaMA-2-7B와 같은 (상대적으로) 작은 규모의 모델보다 GPT-4와 같은 대형 모델에서 성능 향상 폭이 더 컸다. LLaMA-2-7B에서 GPT-4로 갈수록, 프롬프트 엔지니어링을 통한 성능 향상 폭이 20% 이상 증가하였다. 
2. 논문에서는 프롬프트 엔지니어링의 효과를 측정하기 위하여 LLaMA-1-{7, 13}, LLaMA-2-{7, 13}, 기본 LLaMA-2-70B-chat, GPT-3.5(ChatGPT) 및 GPT-4, 총 7가지 모델을 사용하였다. 이러한 모델을 소규모(7B), 중간 규모(13B), 대규모(70B, GPT-3.5/4)로 그룹화하여 평가하였다.  
3. 이 결과는 모델의 규모가 클수록 프롬프트 엔지니어링의 적용 효과가 더 크다는 것을 시사한다. 

 

한계

1. 고도로 복잡하고 전문화된 질문에 대해서는 프롬프트 엔지니어링 원칙의 적용 효과가 떨어졌으며, 모델의 추론 능력과 학습 정도에 따라 응답 결과에 차이가 있었다.

2. 선별된 질문들을 기반으로 측정되었기 때문에 보다 일반화된 결과와 심층적인 인사이트를 위하여 향후 더 질문셋을 다양화할 필요가 있다.

3. 평가자들에 따라 모델의 응답에 대한 기준과 평가 결과가 달라질 수 있다는 점을 고려해야 한다.
 


논문 링크 :  https://arxiv.org/pdf/2312.16171.pdf

내용이 도움이 되셨다면 댓글 또는 좋아요 부탁드립니다. 감사합니다. 😀

 

반응형