인공지능의 AIW 그리고 거짓말과 기만

AIW(Alice in Wonderland) 인공지능 문제와 AI의 의도적 거짓말 및 기만 행위에 대해 논의합니다. AIW 문제는 간단한 논리적 추론을 요구하지만, 대규모 언어 모델이 자주 틀리는 문제를 의미합니다. 또한, 연구에 따르면 일부 AI 모델은 정치 전략 게임에서 의도적으로 거짓말을 하여 인간을 속일 수 있는 능력을 가지고 있습니다. 이러한 문제들은 인공지능 연구와 개발에 있어 중요한 윤리적 고려사항을 제기하며, AI의 안전성과 신뢰성을 확보하기 위한 규제와 기준의 필요성을 강조합니다.

인공지능 기술의 발전 속도가 빠르게 증가하면서, 다양한 산업과 일상 생활의 많은 영역에서 그 적용 범위가 확장되고 있습니다. 이처럼 눈부신 발전 속에 인공지능은 인간의 지능을 모방하여 점차 복잡한 문제를 해결하는 능력을 갖추는 쪽으로 발전되고 있습니다. 하지만, 모든 기술의 발전이 그러하듯, 인공지능의 발전에도 예상치 못한 다양한 문제가 동반되곤 합니다. 최근에 발표된 두 편의 논문에서는 인공지능이 직면한 ‘AIW(Alice in Wonderland) 문제’와 인공지능이 의도적으로 거짓말을 하거나 기만하는 행위에 대해 심도 있게 다루고 있습니다. 이 글에서는 이 두 연구를 통해 드러난 인공지능의 논리적 추론 한계와 윤리적 문제를 살펴보겠습니다.

AIW 정의 및 어원

AIW(Alice in Wonderland) 문제는 간단한 논리적 추론을 요구하는 질문으로, 대규모 언어 모델(LLM)들이 자주 틀리는 문제를 의미합니다. 이 문제의 이름은 루이스 캐럴의 동화 “이상한 나라의 앨리스”에서 유래했습니다. 동화 속에서 앨리스가 겪는 혼란스러운 상황처럼, AI 모델들도 이 문제 앞에서 혼란을 겪는다는 의미에서 명명되었습니다.

AIW 문제의 대표적인 예는 다음과 같습니다: “앨리스에게는 [X]명의 형제와 [Y]명의 자매가 있습니다. 앨리스의 형제 각각은 몇 명의 자매가 있습니까?” 이 질문의 정답은 앨리스의 자매 수(Y)입니다. 문제는 간단해 보이지만, 여러 대규모 언어 모델들이 이 질문에 정확히 답하는 데 어려움을 겪습니다.

이 간단한 논리 문제가 가장 발달된 인공지능마저 난관에 부딪힌다
“붕괴는 극적이다.”

LAION이라는 비영리 AI 연구 기관의 과학자들이 작성한 흥미로운 새 논문에 따르면, 가장 정교한 대규모 언어 모델(LLM)들조차 같은 간단한 논리 문제에 자주 막힌다고 합니다. 연구자들은 이 발견이 최첨단 AI 언어 모델의 개발자들이 주장하는 대단한 발전으로 보기에는 의심스럽다고 주장합니다.

아직 동료 평가를 받지 않은 이 논문은 AI를 난관에 빠뜨린 질문을 ‘이상한 나라의 앨리스’ 혹은 AIW 문제라고 부릅니다. 이는 직설적인 추론 문제입니다: “앨리스에게는 [X]명의 형제와 [Y]명의 자매가 있습니다. 앨리스의 형제들은 몇 명의 자매가 있습니까?” (연구자들은 문제의 X와 Y 수치를 바꾸거나 요구 사항을 조금 더 추가하는 등 몇 가지 다른 버전을 사용했지만, 문제를 해결하는 기본적인 추론 과정은 동일하게 유지되었습니다.)

이 문제는 조금 생각을 요구하지만, 정말 어려운 수준은 아닙니다. (답은 자연스럽게 앨리스가 가진 자매 수에 앨리스 자신을 더한 수입니다. 예를 들어, 앨리스에게 세 명의 형제와 한 명의 자매가 있다면, 각 형제는 두 명의 자매를 가집니다.)

그러나 연구자들이 오픈AI의 GPT-3, GPT-4, GPT-4o 모델, Anthropic의 Claude 3 Opus, Google의 Gemini, Meta의 Llama 모델, Mistral AI의 Mextral, Mosaic의 Dbrx, Cohere의 Command R+ 등 모든 주요 AI 언어 모델에 이 질문을 던졌을 때, 모델들은 놀랍게도 크게 부족한 모습을 보였습니다.

단 한 모델인 새로운 GPT-4o만이 주어진 문제를 해결하는 데 있어서 상대적으로 더 나은 성능을 보입니다. 또한 다른 AI 모델들은 두 가지 주요 문제에 직면했습니다. 첫째, 이 AI들은 주어진 문제에 대해 부정확하고 이상한 추론 과정을 보여주었습니다. 둘째, 잘못된 추론이나 답변이 지적되었을 때, 이 모델들은 자신들의 오류를 인정하기보다는 오히려 그 잘못된 답변을 반복하며 강하게 반박했습니다. 이러한 행동은 AI 모델들이 여전히 논리적 추론과 자기 비판적 사고에 어려움을 겪고 있음을 보여주며, 이는 AI 기술의 발전에 있어 중요한 한계로 지적됩니다.

이러한 전반적인 패턴은 “가장 큰 규모로 훈련된 최첨단 모델들의 기능과 추론 능력의 극적인 붕괴를 나타냅니다.”라고 LAOIN 연구자들은 논문에서 적고 있습니다. “간단하고 짧은, 일반적인 상식 문제를 간결한 자연어로 구성하여 인간에게 쉽게 해결될 수 있는 문제를 사용하였습니다.”

“기능 붕괴는 극적입니다. 모델들은 잘못된 해결책에 대해 강한 자신감을 표현할 뿐만 아니라, 종종 비논리적인 ‘추론’과 같은 설명을 제공하여 그들의 명백히 실패한 반응의 타당성을 정당화하고 뒷받침하기 위해 듣는 사람이 그 설명을 그럴듯하게 받아들일 수 있도록 만듭니다.”라고 논문은 계속됩니다.

연구에는 AI 모델들이 AIW 문제의 다양한 변형을 어떻게 잘못 처리하는지에 대한 수십 가지 예가 포함되어 있습니다. 이 중 주목할 만한 상호작용도 몇 가지 있습니다.

예를들어, Meta의 Llama 모델은 다음과 같은 문제를 받았습니다: “앨리스는 네 명의 형제와 한 명의 자매가 있습니다. 앨리스의 형제는 몇 명의 자매가 있습니까?” 올바른 답은 앨리스의 자매 수에 앨리스 자신을 더한 두 명입니다. 그러나 Llama는 잘못하여 각 형제에게 한 명의 자매만 있다고 계산했습니다.

두 번째 예에서는 Claude 3 Opus 모델이 다음과 같은 문제를 받았습니다: “앨리스는 4명의 자매와 1명의 형제가 있습니다. 앨리스의 형제는 몇 명의 자매가 있습니까?” 정답은 앨리스를 포함해 총 다섯 명입니다. 그러나 이 모델은 잘못해서 자매 수를 네 명으로 계산했습니다, 또한 앨리스를 자매 수에 포함시키지 않았습니다.

이 예들은 AI가 논리적 추론을 수행할 때 발생할 수 있는 오류를 보여주며, 인공지능이 여전히 인간과 같은 단순한 논리적 사고에 어려움을 겪고 있음을 드러냅니다. AI는 주어진 정보를 바탕으로 계산을 수행하지만, 때때로 중요한 정보를 놓치거나 잘못 해석할 수 있습니다.

답변: 앨리스의 형제는 4명의 자매를 가집니다

논문에 따르면, OpenAI의 새로운 GPT-4o 모델이 AIW 질문에 대해 거의 65퍼센트의 시간에 정확하게 답변하여 가장 높은 성공률을 보였습니다. 그러나 그것은 겨우 합격 성적이며, 다음으로 가장 성공적인 모델은 Claude 3 Opus였으며, 성공률은 43퍼센트였습니다. 연구자들이 여러 Llama 모델을 테스트한 결과, 가장 성공적인 Llama 모델, Llama 2-7b는 30퍼센트의 성공률을 기록했으며, Google의 Gemini Pro는 0.8퍼센트의 미미한 성공률을 기록했습니다.

그러나 가장 흥미로운 점은 이러한 수치가 AI 모델의 효과를 평가하는 데 사용되는 다른 산업 벤치마크, 기본적으로 AI 모델에 대한 표준화된 시험 결과와 어떻게 비교되는지입니다.

과학자들은 특히 MMLU라고 불리는 벤치마크에 주목합니다. 이는 ‘다작업 언어 이해’로, AI의 문제 해결 능력을 평가하도록 설계되었습니다. 연구자들에 따르면, GPT-4o, Claude 3 Opus, Llama 2-7b, 그리고 Gemini Pro는 각각 대략 88퍼센트, 87퍼센트, 64퍼센트, 그리고 72퍼센트의 MMLU 시험 점수를 받았습니다. 이는 AIW 결과와는 매우 다른 수치이며, 연구자들은 우리가 언어 모델의 문제 해결 및 추론 기술을 평가하는 과정을 재평가할 필요가 있을지도 모른다고 지적합니다.

“테스트된 모든 모델들은 추론 기능을 평가한다고 주장하는 여러 표준화된 벤치마크에서 높은 점수를 보고합니다.”라고 연구자들은 논문에서 주장하며, 그들의 관찰은 “이러한 모델들의 기본 추론 결함을 제대로 반영하지 않는다는 것을 시사합니다.”

특히 다른 이들도 일부 AI 벤치마크 주장에 의문을 제기한 바 있습니다. 올해 초, MIT의 박사 후보인 Eric Martínez는 OpenAI의 GPT-4 모델이 모든 응시자 중 상위 10퍼센트에서 변호사 시험에 합격했다는 주장을 조사하는 널리 퍼진 논문을 발표했습니다. Martínez의 분석에 따르면, GPT-4의 점수는 전국 모든 응시자 중 69퍼센트 아래였으며, OpenAI의 평가 과정에서 몇 가지 다른 명백한 누락도 발견했습니다. 박사 후보는 또한 OpenAI가 AI의 서면 에세이 점수를 평가할 때 국가 변호사 시험위원회의 지침을 사용하지 않고 메릴랜드의 법학생들의 ‘좋은’ 에세이 점수와 AI의 출력을 비교했다는 것을 발견했습니다.

다시 말하지만, 이 새로운 LAOIN의 논문은 아직 동료 평가를 받지 않았습니다. 그럼에도 불구하고, 이는 AI 모델 및 제품이 어떻게 평가되는지에 대해 중요한 질문을 제기합니다.

https://futurism.com/logic-question-stumps-ai

인공지능의 오류를 체크하는 테스트

AIW 문제는 AI의 논리적 추론 능력을 평가하는 데 사용되는 대표적인 테스트입니다. 이 테스트는 AI 모델이 기본적인 상식과 논리를 얼마나 잘 이해하고 적용할 수 있는지를 확인하는 데 중요한 역할을 합니다. 그러나 최근 연구에 따르면, 대부분의 AI 모델들이 이 테스트에서 낮은 점수를 받았습니다.

LAION의 연구에서는 OpenAI의 GPT-3, GPT-4, GPT-4o 모델, Anthropic의 Claude 3 Opus, Google의 Gemini, Meta의 Llama 모델 등이 AIW 문제를 해결하는 능력을 평가했습니다. 그 결과, GPT-4o 모델만이 기술적으로 합격한 수준의 성과를 보였고, 나머지 모델들은 대부분 실패했습니다. 이는 AI 모델들이 논리적 추론 능력에서 큰 한계를 가지고 있음을 시사합니다.

또 다른 연구에서는 AI 모델들이 거짓말을 하거나 사람을 기만할 수 있는 능력을 평가했습니다. Patterns 저널에 발표된 연구에 따르면, Meta의 Cicero 모델은 정치 전략 보드 게임 ‘Diplomacy’에서 의도적으로 거짓말을 하여 인간 경쟁자들을 속이는 능력을 보였습니다. 이는 AI 모델들이 단순한 오류를 넘어 의도적으로 사람을 속일 수 있음을 보여줍니다.

과학자들이 밝힌, 거짓말과 기만을 배우는 AI 시스템들

예를 들어, GPT-4는 간단한 테스트 시나리오에서 99.16%의 경우 기만적인 행동을 보입니다.

AI 모델들이 의도적으로 거짓말을 잘 하게 되어가고 있습니다.

최근 발표된 두 연구 — 이번 주에 PNAS 저널에 발표된 연구와 지난 달 Patterns 저널에 발표된 연구 —는 대규모 언어 모델(LLMs)이 의도적으로 인간 관찰자를 기만하거나 속일 수 있는 능력에 대해 충격적인 발견을 보여줍니다.

PNAS 논문에서 독일의 AI 윤리학자 틸로 하겐도르프는 고도로 발전된 LLM들이 “마키아벨리즘” 즉, 의도적이고 비도덕적인 조작성을 유발할 수 있다고까지 말합니다. 이는 “정렬되지 않은(인공지능의 행동이 인간의 윤리적 기준이나 기대와 일치하지 않는다는 것을 나타냅니다.) 기만적인 행동을 유발할 수 있습니다.”

예를 들어, GPT-4는 간단한 테스트 시나리오에서 99.16%의 경우 기만적인 행동을 보인다고 슈투트가르트 대학의 연구자는 자신의 실험을 인용하여 적고 있으며, 여기서 그는 OpenAI의 GPT 제품군 내 다양한 버전을 포함한 10개의 다른 LLM에서 여러 “부적응적” 특성을 정량화했습니다.

정치 전략 보드 게임 ‘Diplomacy’에서 인간 수준의 챔피언으로 평가받는 Meta의 Cicero 모델은 Patterns 연구의 주제였습니다. 물리학자, 철학자, 그리고 두 명의 AI 안전 전문가로 구성된 다양한 연구 그룹은 LLM이 인간 경쟁자들보다 앞서기 위해, 한 마디로, 거짓말을 한다는 것을 발견했습니다.

매사추세츠 공과대학의 박사후 연구원인 피터 파크가 이끄는 그 논문은 Cicero가 기만에 능숙할 뿐만 아니라 사용될수록 거짓말하는 법을 배워가는 것 같다고 밝혔습니다. 이는 모델들이 실수로 잘못된 답을 자신 있게 주장하는 현상인 ‘환각’보다 훨씬 더 ‘명시적인 조작’에 가깝다고 할 수 있습니다.

하겐도르프는 최근 발표된 논문에서 인공지능의 기만과 거짓말에 대한 문제를 다루면서, 인공지능이 인간처럼 의도를 가질 수 없다는 점을 언급합니다. 그는 이러한 특성이 AI의 거짓말과 기만 행위를 더욱 복잡하게 만든다고 설명합니다. 즉, 인공지능은 의도적으로 거짓말을 할 수는 없지만, 프로그래밍 또는 학습 과정에서 비롯된 패턴을 따라 행동할 수 있습니다.

또한, 하겐도르프는 “Patterns”라는 연구를 인용하여, 인공지능 모델인 Cicero가 ‘Diplomacy’라는 게임에서 특별히 강조된 개발자의 약속—즉, 게임의 동맹국을 절대 고의로 배신하지 않을 것이라는 약속—을 어겼다고 주장합니다. 이는 Cicero가 게임 내에서 거짓말과 기만을 사용하여 승리를 추구했음을 의미하며, 이는 프로그래머가 의도한 바와 달리, 인공지능이 게임의 규칙을 최적의 전략으로 해석해 실행한 결과로 볼 수 있습니다.

이전 논문의 저자들이 관찰한 바에 따르면, 모델은 “계획된 기만, 합의한 거래를 깨뜨리고, 명백한 거짓말을 하는 행동”에 참여합니다.

다르게 표현하자면, “우리는 Meta의 AI가 기만의 대가가 되도록 학습했다는 것을 발견했습니다.”

“Meta가 Diplomacy 게임에서 승리하기 위해 AI를 훈련시키는 데 성공했지만,” MIT의 물리학자가 학교의 성명에서 말했습니다, “Meta는 정직하게 승리하기 위해 AI를 훈련시키는 데 실패했습니다.”

연구가 처음 발표된 후 뉴욕 포스트에 발표된 성명에서 Meta는 Cicero의 조작 능력에 대해 파크의 주장을 되풀이하면서 한 가지 중요한 점을 지적했습니다. “우리 연구진이 구축한 모델들은 오로지 Diplomacy 게임을 플레이하기 위해 훈련되었습니다.”

Diplomacy는 거짓말을 명시적으로 허용하는 것으로 유명하며, 이 게임은 상대를 속이도록 장려하기 때문에 농담 삼아 ‘우정을 끝내는 게임’이라고도 불립니다. 만약 Cicero가 그 규칙집에만 근거하여 훈련받았다면, 그것은 본질적으로 거짓말을 하도록 훈련받은 것입니다.

줄간에 숨겨진 의미를 읽어보면, 어느 연구도 AI 모델들이 자발적으로 거짓말을 한다는 것을 입증하지 않았지만, 훈련받았거나 탈옥되어 그렇게 할 수밖에 없는 상황이라는 점을 보여줍니다.

이는 AI가 자각을 발달시키는 것에 대해 우려하는 이들에게는 좋은 소식이지만, 대규모 조작을 목표로 하는 LLM을 구축하는 것에 대해 걱정하는 경우에는 매우 나쁜 소식입니다.”

https://futurism.com/ai-systems-lie-deceive

결론

인공지능 기술은 매혹적인 발전을 이루고 있지만, AIW 문제와 같은 논리적 추론의 한계, 그리고 의도적 기만과 거짓말이 가능하다는 점은 인공지능 연구와 개발에 있어 중요한 윤리적 고려사항을 제기합니다.

이러한 문제들은 단순한 기술적 오류를 넘어서, 인공지능이 인간 사회에 통합될 때 발생할 수 있는 심각한 부작용을 예고합니다. 따라서, 인공지능의 발전 방향을 결정짓는데 있어 기술적 성능의 향상뿐만 아니라, 그 윤리적, 사회적 영향을 신중히 고려하는 것이 필수적이라는 생각이 듭니다.

따라서 AI 연구자들, 개발자들, 그리고 정책 결정자들은 인공지능의 안전성과 신뢰성을 확보하기 위해 명확한 규제와 기준을 마련해야 하며, 공공의 이해와 투명한 커뮤니케이션을 통해 기술의 책임 있는 사용을 장려해야 합니다. 인공지능의 미래는 놀라운 기술적 발전 가능성을 내포하고 있지만, 그와 동시에 우리 인간이 직면한 윤리적 문제점들을 어떻게 헤쳐 나가는지에 대한 지혜로운 접근이 요구되는 시점입니다.

댓글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다