제2회: 50년의 벽을 깬 패턴

제2회: 50년의 벽을 깬 패턴


지난 1회에서 로또 1,214회 데이터를 분석해 ‘패턴이 없는 곳에서는 AI도 무력하다’는 사실을 확인했습니다. 그렇다면 반대편의 질문이 자연스럽게 떠오릅니다. 패턴이 존재하는 곳에서 AI는 얼마나 대단한 것을 찾아냈을까요?

답부터 말씀드리겠습니다. 인간이 수십 년, 수백 년 동안 풀지 못한 문제를 AI가 풀었고, 그 성과로 노벨상까지 받았습니다. 인간의 귀로는 듣지 못한 소리의 구조를 해독했고, 인간의 눈으로는 보지 못한 2,000년 전 그림을 찾아냈습니다. 이번 회에서는 AI가 ‘진짜 패턴’을 발견한 네 가지 사례를 소개합니다.

사례 1. 50년간 풀리지 않던 단백질의 비밀

단백질은 생명의 기본 도구입니다. 아미노산이라는 작은 분자들이 긴 사슬로 연결된 후, 복잡하게 접혀서 3차원 구조를 만듭니다. 이 접힌 모양이 단백질의 기능을 결정합니다. 신약 개발, 질병 이해, 항생제 내성 연구 등 생명과학의 거의 모든 분야가 이 구조를 아는 것에서 시작됩니다.

문제는 이 구조를 알아내는 것이 극도로 어려웠다는 것입니다. 1970년대부터 과학자들이 도전했지만, 실험적으로 하나의 단백질 구조를 밝히는 데 수년의 시간과 수억 원의 비용이 들었습니다. 학계에서는 이를 ‘단백질 접힘 문제’라 부르며 생화학 최대의 난제로 꼽았습니다. 컴퓨터를 이용한 예측 정확도는 최대 40%에 머물렀습니다.

2020년, 구글 딥마인드의 AI 모델 ‘알파폴드2(AlphaFold2)’가 이 문제를 풀었습니다. 정확도 90% 이상. 국제 단백질 구조 예측 대회(CASP)의 주최자는 이 문제가 사실상 해결되었다고 평가했습니다. 이후 알파폴드는 현재까지 알려진 거의 모든 단백질, 약 2억 개의 구조를 예측했습니다. 실험적으로는 수억 년이 걸릴 작업이었습니다.

2024년, 알파폴드를 개발한 데미스 하사비스와 존 점퍼는 노벨 화학상을 수상했습니다. AI로 단백질 구조를 예측한 연구가 인류 최고의 과학상으로 인정받은 것입니다. 현재 190개국 300만 명 이상의 연구자가 이 도구를 사용하고 있으며, 관련 논문의 30% 이상이 질병 연구에 집중되어 있습니다. 인간이 패턴이 있다는 것은 알았지만 너무 복잡해서 풀 수 없었던 문제를, AI가 풀어낸 가장 완벽한 사례입니다.



사례 2. 100년간 보이지 않던 2,000년 전의 그림

페루 남부의 나스카 사막에는 거대한 지상화가 있습니다. 2,000년 전 나스카 문명이 사막의 표면을 긁어 만든 그림으로, 벌새, 원숭이, 거미 같은 형상이 수백 미터에 걸쳐 펼쳐져 있습니다. 하늘에서만 온전히 볼 수 있는 이 유적은 유네스코 세계유산으로 지정되어 있으며, 1927년 발견 이후 약 100년간 고고학자들이 약 430개의 지상화를 찾아냈습니다.

2022년, 일본 야마가타대학의 사카이 마사토 교수팀이 IBM과 협력해 AI 딥러닝 모델을 투입했습니다. 위성과 드론으로 촬영한 항공사진을 AI에 학습시켜 지상화의 시각적 특징을 인식하게 한 것입니다. 결과는 놀라웠습니다. 단 6개월 만에 303개의 새로운 지상화를 추가로 발견했습니다. 인간이 100년간 찾은 것의 70%에 해당하는 수를, AI가 반년 만에 찾아낸 것입니다.

AI의 분석 속도는 인간보다 약 21배 빨랐습니다. 그러나 더 중요한 발견은 따로 있었습니다. AI는 지상화가 두 가지 양식으로 나뉘며, 각 양식이 사막의 서로 다른 경로를 따라 배치되어 있다는 공간적 패턴을 밝혀냈습니다. 큰 그림은 공식 순례 경로를, 작은 그림은 비공식 도보 경로를 따라 배치되어 있었던 것입니다. 나스카인들이 사막 위에 새긴 것은 단순한 그림이 아니라, 의례적 순례의 지도였을 가능성이 열렸습니다.

사례 3. 인간이 듣지 못한 고래의 문법

향유고래는 ‘코다(coda)’라 불리는 짧은 클릭음의 연속으로 소통합니다. 과학자들은 수십 년간 이 소리를 녹음하고 분석해왔지만, 몇 가지 기본적인 코다 유형을 분류하는 수준에 머물러 있었습니다.

2024년, MIT 컴퓨터과학·인공지능연구소(CSAIL)와 프로젝트 CETI 팀이 머신러닝을 적용해 이 한계를 돌파했습니다. AI는 인간이 인식하지 못했던 세밀한 패턴을 감지했습니다. 클릭 사이의 간격에서 18가지 리듬 유형을, 코다 전체의 길이에서 5가지 템포 유형을 찾아냈습니다. 여기에 3가지 루바토(미세한 속도 변화)와 2가지 장식음(코다 끝에 추가되는 짧은 클릭)까지 감지했습니다.

이 요소들이 서로 조합되어 ‘거대한 레퍼토리’를 형성한다는 것이 핵심 발견이었습니다. 연구진은 이를 인간 언어의 음성학에 비유했습니다. 아직 이 ‘단어들’이 무엇을 의미하는지는 알 수 없지만, 향유고래의 소통이 과학자들이 생각했던 것보다 훨씬 복잡한 구조를 가지고 있다는 사실 자체가 혁명적인 발견입니다. 인간의 귀에는 비슷하게 들렸던 클릭음 속에, AI는 문법의 흔적을 찾아낸 것입니다.



사례 4. 수천 년의 정석 바깥에서 찾은 한 수

2016년 3월, 알파고 대 이세돌 9단의 2국. 알파고가 37수째에 둔 수를 보고, 해설진은 당혹했습니다. 프로 기사들의 상식으로는 1만 분의 1 확률 수준의, 누구도 두지 않는 위치였습니다. 실수 아니냐는 반응이 나왔습니다. 그러나 바둑판이 진행될수록 그 수가 결정적인 포석이었다는 것이 드러났고, 결국 알파고는 승리했습니다.

이 한 수가 보여준 것은 단순한 계산 능력이 아닙니다. 인간이 수천 년간 축적한 바둑 정석이라는 패턴의 ‘바깥’에 또 다른 패턴이 있었다는 사실입니다. 인간은 과거의 대국에서 배운 경험 패턴 안에서 사고했지만, AI는 순수한 데이터로 더 넓은 패턴 공간을 탐색한 것입니다. 알파고 이후 전 세계 프로 기사들의 기풍이 변했다는 사실이 이를 증명합니다.

네 가지 사례가 말해주는 것

단백질, 지상화, 고래의 소리, 바둑. 이 네 영역에는 공통점이 있습니다. 모두 인과 구조가 존재하는 시스템이라는 것입니다. 단백질은 물리화학적 법칙에 따라 접히고, 나스카의 그림은 인간의 의도에 의해 배치되었고, 고래의 클릭음은 소통이라는 목적하에 구조화되었고, 바둑은 규칙 기반의 전략 게임입니다.

1회에서 살펴본 로또와의 차이가 여기서 극명해집니다. 로또에서 AI가 무력했던 이유는 인과 구조가 없었기 때문이고, 이 네 영역에서 AI가 경이로운 성과를 낸 이유는 인과 구조가 있었기 때문입니다. AI는 마법이 아닙니다. 데이터 안에 숨겨진 규칙이 있을 때, 인간의 인지 한계를 넘어 그 규칙을 찾아내는 도구입니다.

그렇다면 다음 질문은 이것입니다. 이런 AI의 패턴 발견 능력을 우리의 일상에 가까운 영역에도 적용할 수 있을까? 예를 들어, ‘패션이 돌고 돈다’는 오래된 통념을 데이터로 직접 증명할 수 있을까?

다음 회에서는 직접 22년치 패션 검색 데이터 49개 키워드를 분석하여, 패션 트렌드에 실제로 순환 주기가 존재하는지를 검증한 결과에 대해 이야기 해보겠습니다.