오픈AI는 챗GPT를 (먼저 나온 모델인) 인스트럭트GPT와 아주 흡사한 방법으로 훈련시켰다. '인간의 피드백을 이용한 강화학습(RLHF)'이라는 이 방법이 챗GPT의 비결이었다. 말하자면, 원하는 대로 내뱉는 경향이 있는 대규모 언어모델(LLM, GPT-3.5도 여기에 속한다)이 내놓은 대답들을 살펴보면서 인간 사용자가 실제로 원하는 답이 뭔지를 골라 알려주는 식으로 가르치는 식이다.

얀 레이키: 우리는 많은 사람을 동원해서 챗GPT에게 주는 질문과 대답을 읽게 했고, 그렇게 해서 나온 답변들 중에서 더 나은 것을 고르게 했다. 그리고 이 모든 데이터는 다시 AI를 훈련시키는 데 사용했다. 대부분은 우리가 인스트럭트GPT를 훈련시킬 때 사용했던 것이다.

우리는 AI 챗봇이 사용자에게 도움이 되기를 바라고, 사실을 말하기를 원하며, 해롭지 않은 답을 산출했으면 한다. 그런데 대화를 만들어내거나 보조 역할을 하기 위해 필요한 것들이 있다. 가령, 사용자의 질문이 분명하지 않으면 후속 질문을 해야 한다. 그리고 사용자가 혹시 다른 AI 시스템은 아닌지 확인해야 한다. 스스로 가지지 않은 정체성을 가진 것처럼 행동해서도 안되고, 가지지 않은 능력을 가진 것처럼 주장해서도 안되며, 수행하면 안 되는 요구가 들어오면 거부하는 메시지를 써야 한다. 이런 훈련 중에 등장한 표현 중 하나가 "저는 오픈AI의 훈련을 거친 언어 모델로서..."라는 말이었다. 우리가 직접 써넣은 것은 아니었는데 AI의 대답을 평가하던 사람들이 높은 점수를 준 것이다.