
1000억 개 인자를 지닌 양적 인공지능이 눈에 띄지만, 그림·음성을 통합시키는 질적 인공지능의 출현은 감동을 준다. 머리가 큰 네안데르탈인이 크로마뇽인에게 멸종당했듯이 질적 특성은 양적 특성을 뛰어넘는다. 한국형 인공지능도 인간처럼 오감을 수용하는 멀티모달로 나아가야 한다. 멀티모달 인공지능은 그래프가 들어간 수능 문제를 풀 수 있고 삽화가 들어간 설명자료를 만들 수 있다.
우리 인간은 노력 없이도 멀티모달 능력을 지니니 이 능력을 우습게 볼 수 있지만 오감을 통합적으로 처리하는 기술은 어렵다. 이 기술을 파고들면 문장과 그림을 균일하게 해석할 수 있는 인식공간에 다다르게 된다. 이 공간을 최초로 제시한 선구자는 데카르트다. 침대에서 뒹굴던 데카르트는 천장에 기어다니는 파리의 이동을 기술하려 직교좌표를 발명했다. 이 좌표는 그의 이름을 따 카테시안(Cartesian) 좌표로 불린다. 100년 후에 칸트는 인식을 더 탐구하여 공간에 시간을 추가했다. 발생 시각은 사건의 인과관계 규명에 필수적이다.
근대 데카르트와 칸트가 인간의 인식을 위해 시공간을 도입했다면, 현대 연구자들은 인공지능의 인식을 위해 인식 공간을 개척하고 있다. 문장 단독일 경우 인식 공간은 어느 정도 규명되어 있다. 사전에 수록된 수만 개 어휘를 가로와 세로에 배치하여 표를 만들고, 두 어휘가 만나는 칸에는 관계를 표시하는 방식이다. 관계는 유사어, 반대어, 품사, 성별, 시제 등에서 나온다. 언어학자는 문법적으로 두 어휘의 관계를 찾지만, 인공지능은 수많은 학습 자료를 통해 숨은 관계를 포착하여 낸다. 최신 인공지능이 찾아낸 관계의 종류는 500여 개다.
다음은 그림의 인식 공간이다. 그런데 문장은 어휘라는 최소 단위가 있지만 그림의 최소 단위는 명확하지 않다. 초기 인공지능 연구자들은 그림 속 개개 사물들을 인식의 최소 단위로 두고 사물 사이의 관계표를 도입했다. 줄기에서 꽃이 맺히는 그림을 보고 줄기와 꽃 사이의 관계는 깊고, 뿌리에서 꽃이 열리는 그림은 없으니 뿌리와 꽃 사이의 관계는 낮다.
마지막으로 문장과 그림을 통합적으로 인식하려 문장 관계표와 그림 관계표를 이어 붙여 통합된 관계표를 만들었다. 그런데 물리적으로 이어진 통합표는 아쉽게도 이질감이 있다. 어휘는 오른쪽에서 왼쪽으로 표기되어 문장이 되지만 그림 속의 사물은 상하좌우로 그려져 작품이 된다. 인공지능이 오감을 제대로 처리하려면 합쳐진 표가 균질해야 한다.
칸트가 합친 공간과 시간은 훌륭했지만 완벽하지는 않았다. 200년 후에 아인슈타인은 상대성이론으로 시공간의 이질성을 제거했다. 해외의 멀티모달 인공지능은 다양한 인식공간을 제안하고 있다. 혹시 탈락하게 되더라도 인식공간의 균질화를 달성했다면 한국형 파운데이션 인공지능은 성공이다.



