말을 해도 소리가 나지 않는 목 발성 근육 마비 환자가 말할 때 뇌파를 분석해 실시간으로 그 문장을 컴퓨터 화면에 띄워주는 기술이 미국 캘리포니아주립 샌프란시스코 대학교(UCSF) 연구팀에 의해 개발됐다.
이 ‘마음을 읽는’ 기계는 사람이 완전한 문장을 만들기 위해 음성적으로 단어 철자를 말하려 할 때 뇌 활동을 해독한다. 이 시스템을 통한 의사소통 성과는 환자 뇌 표면 임플란트 시술, 인공지능(AI)을 이용한 환자 근육 분석 등을 통해 이뤄졌다. 이는 신체 마비 때문에 발성하거나 타이핑할 수 없는 사람들에게 생각내용을 바로 컴퓨터 화면에 띄움으로써 의사소통 기능을 회복시켜 준 세계 최초의 사례로 꼽힌다. 앞서 호주에서 생각만으로 타이핑을 할 수 있도록 한 뇌 컴퓨터인터페이스(BCI)기술에 이은 개가다. 이 기계는 신경계 손상으로 인해 상실된 기능을 보조하거나 회복시키는 이른바 신경보철(neuroprosthesis) 장치다. 전문가들은 그들의 신경보철 언어 장치가 목 후두 근육 마비로 인해 말하거나 타이핑할 수 없는 사람들에게 의사소통을 회복시킬 수 있는 잠재력을 가지고 있다고 말한다. 지금까지 유사 연구에서 최대 50단어까지 해독할 수 있음을 보여준 경우가 있지만 단어를 큰 소리로 말하려고 시도해야 했고, 이는 그들의 신체적 마비상태를 감안할 때 상당한 노력을 요하는 단점이 있었다. 지난달 말 발표된 UCSF 연구팀의 새로운 시험 결과 발성 마비 환자는 분당 29.4자의 속도로 1152개 영어단어를 사용해 만든 문장을 컴퓨터 화면에 보여주거나 컴퓨터에서 변환된 발성을 할 수 있게 됐다. 이 세계 최초의 진보된 성과를 살펴봤다.
뇌이식 통해 발성능력 잃은 환자 말하는 것 그대로 살려내
컴퓨터 화면에 “물 좀 드릴까요?”라는 질문이 표시된다. 그리고 그 아래, 세 개의 점들이 깜박이고, 한 번에 하나씩, “아니, 나는 목마르지 않아요”라는 단어가 나타난다.
UCSF 과학자들이 뇌졸중으로 뇌와 신체의 나머지 부분 간 연결이 손상돼 거의 마비상태로 15년 이상 말을 하지 않은 사람의 뇌활동에서 생각하는 단어 그대로 컴퓨터 화면에 뜨게 한 순간이다.
그동안 이 환자는 의사소통을 위해 다른 많은 기술들을 사용했다. 최근에 그는 터치스크린에서 단어를 탭하기 위해 그의 야구모자에 부착된 포인터를 사용했지만 이는 효과적이긴 했지만 제대로 의사 소통을 하기엔 너무 느렸다.
그래서 그는 더 빠른 의사소통을 위해 UCSF의 에드워드 창 신경외과 교수팀의 임상 실험에 자원했다.
에드워드 창 교수는 “우리는 시범 연구에서 자원봉사자의 뇌 표면에 얇고 유연한 전극 어레이를 덮었다. 전극들은 신경 신호를 기록해서 음성 디코더(해독기)로 보냈고, 음성 해독기는 그 신호를 남자가 말하고자 하는 단어로 번역했다. 말을 해도 말소리를 낼 수 없어 대화가 불가능했던 신체 마비환자가 뇌에서 문자뿐만 아니라 단어 전체를 컴퓨터로 보내기 위해 신경 기술을 사용한 것은 이번이 처음이었다”고 말했다.
UCSF의 개가···분당 29.4자의 속도로 1152단어 사용해 문장 표현
개발을 주도한 에드워드 창 UCSF 교수와 동료들은 뇌 활동을 하나의 문자로 변환해 전체 문장을 실시간으로 읽어낼 수 있는 신경 공정을 설계했고, 이를 사용해 심각한 발성 및 사지 마비로 인해 의사 소통을 할 수 없었던 사람들의 말문을 간접적 방식으로나마 트이게 했다.
이들은 음성 알파벳과 관련된 뇌 활동을 해독하는 시스템을 설계함으로써 이전의 접근 방식때보다 더 넓은 범위의 어휘를 사용할 수 있도록 하는 데 성공했다.
창 교수팀은 “마비가 온 우리의 자원 환자들은 우리가 그들의 뇌 패턴을 지켜보는 동안 말을 할 수 없기 때문에 ‘배고프다’, ‘목마르다’, ‘부탁한다’, ‘도움’. 그리고 ‘컴퓨터’와 같이 일상생활에 유용한 50개의 단어들의 목록으로 시작했다”고 설명했다.
연구진은 지난 몇 달 동안 48번의 세션 동안, 때때로 자원자들에게 목록에 있는 단어 하나하나를 말하는 것을 상상해 보라고 요청했고, 때로는 공개적으로 말하도록 요청했다. 이들은 자원 환자들의 말하려는 시도할 때 더 명확한 뇌 신호를 생성하며, 이들이 해석(디코딩) 알고리듬을 훈련시키기에 충분하다는 것을 발견했다.
마침내 지원자들은 (발성근육이 마비돼) 문자를 소리 없이 말함으로써 분당 29.4자의 속도로 1,152단어 어휘를 사용해 문장을 만들고, 평균 문자 오류율 6.13%를 기록했다. 연구진은 추가 실험에서 이 접근 방식을 통해 9,000개 이상의 단어를 포함시켰을 때에도 평균 8.23%의 오류율을 보임으로써 실험성과를 일반화할 수 있었다고 밝혔다.
성공적으로 해독된 문장 중에는 “굿모닝”, “농담하는 게 틀림없어”, “무슨 뜻이야”, “이 정도면 괜찮은 것 같아”, “확인할게” 등이 있었다. 일부 문장에는 “Good to see you”가 “I do I leave you”로 해석되는 등 몇 가지 사소한 오류도 발생했다.
이 장치가 뇌파를 해독하는 데 얼마나 효과적인지는 아래 문장에서 볼 수 있다. 왼쪽은 전달하고 싶은 목표 문장(Target sentence)이고 오른쪽은 실제로 해독한 문장(Decoded sentence)이었다.
자원 환자에게 시험된 문장은 ▲굿모닝(Good morning)→굿모닝(Good morning) ▲농담이겠지(You have got to be kidding)→농담이겠지(You have got to be kidding a) ▲무슨 뜻이예요?(What do you mean)→무슨 뜻이예요?(What do you mean) ▲만나서 반가워(Good to see you)→난 널 떠난다(I do I leave you) ▲이거 괜찮은 것 같아(I think this is pretty good)→이거 괜찮은 것 같아(I think this is pretty good) ▲확인하겠습니다(I will check) →확인하겠습니다.(I will check) ▲감사합니다(Thank you)→감사합니다(Thank you) ▲앉으세요(Please sit down)→앉으세요(Please sit down) 등이다.
연구진은 이 결과가 음성 코드 단어를 사용하는 철자 기반 접근 방식을 통해 문장을 생성하는 조용하게 제어된 발화(speech) 신경 보철의 잠재력을 보여준다고 평가했다.
신경보철의 작동 위해 수십개의 발성 근육 움직이는 ‘성대’ 제어 연구
그렇다면 이들은 어떻게 말못하는 사람들을 말문을 컴퓨터 화면을 통해서나마 트이게 할 수 있었을까.
지난 20년 동안 신경보철(Neuroprosthetics) 기술은 크게 발전했다. 청력용 인공 임플란트, 시력을 위한 망막과 뇌 삽입물에 대한 상당한 연구뿐만 아니라 의수를 가진 사람들에게 촉각을 부여하려는 노력도 있다. 이 모든 감각 보철물들은 외부로부터 정보를 얻어서 뇌의 처리 센터로 공급되는 전기 신호로 변환한다.
UCSF 연구팀의 신경보철은 그와 반대되는 종류의 것이다. 즉, 뇌의 전기적 활동을 기록한 후 이를 외부 세계의 무언가를 제어하는 신호로 변환시키는 방식이다. 그 대상에는 로봇 팔, 비디오 게임 컨트롤러 또는 컴퓨터 화면의 커서와 같은 것이 있다.
에드워드 창 교수는 이번 연구 내용을 설명하면서 이 성과가 지난해 자신의 연구팀원들이 앞서 적용한 방식에서 힌트를 얻었음을 밝혔다. 그는 “팀원들이 자원자에게 펜을 들고 종이에 편지를 쓰고 있다고 상상하게 한 결과 운동 피질에서 텍스트로 변환되는 신호를 만들어 냈다. 이 접근 방식은 지원자가 분당 약 18개의 단어를 쓸 수 있게 하면서 쓰는 속도의 신기록을 세웠다”고 소개했다.
하지만 창 교수는 자신의 연구실에서 더 야심찬 접근법을 취했다고 밝혔다. 그는 새로운 시도에 대해 “커서나 펜을 움직이려는 사용자의 의도를 디코딩(해석)하는 대신, 우리는 후두(보통 음성 상자라고 부른다), 혀 및 입술을 지배하는 수십 개의 근육으로 구성된 성대를 제어하려는 의도를 디코딩했다”고 설명했다.
그는 10여 년 전부터 샌프란시스코에서 신경과의사로 일했는데 종종 말을 할 수 없게 될 정도로 심각한 부상을 입은 환자들을 보곤했다. 그래서 그는 언어의 근본적인 신경생물학을 연구하고, 가능하다면 발성을 잃어버린 사람들의 의사소통을 회복하기 위한 뇌-기계 인터페이스(BMI)를 개발하기로 결심했다고 밝혔다.
말할 때 피질 운동 패턴 파악···대뇌피질에 뇌파측정기기(ECoG) 설치
말은 인간을 차별화하는 행동 중 하나이다. 많은 다른 종들이 목소리를 내지만, 오직 인간만이 그들 주변의 세상을 나타내기 위해 무수히 다른 방식으로 일련의 소리를 결합한다. 그것은 또한 매우 복잡한 운동 행위다.
일부 전문가들은 이것이 사람들이 행하는 가장 복잡한 운동 행위라고 믿는다. 말하는 것은 성도(聲道)를 통과하는 조절된 공기의 흐름의 산물이다. 매번 말할 때마다 우리는 우리의 후두(喉頭)성대에 청각적인 진동을 만들고 입술, 턱, 그리고 혀의 모양을 바꿈으로써 호흡을 형성한다. 성대의 많은 근육들은 팔과 다리의 근육과 같은 관절에 기반을 둔 규정된 몇 가지 방법으로만 움직일 수 있는 근육과 상당히 다르다. 예를 들어 입술을 제어하는 근육은 괄약근인 반면 혀를 구성하는 근육은 수력학에 의해 더 많이 제어된다. 그러한 근육의 움직임을 지배하는 물리학은 이두근이나 햄스트링의 그것과는 완전히 다르다. 관련된 근육이 너무 많고 각각 자유도가 너무 많기 때문에 기본적으로 무한하게 설정될 수 있다. 그러나 사람들이 말할 때, 그들은 상대적으로 적은 수의 핵심 동작들을 사용하는 것으로 밝혀졌다. (이것은 언어마다 약간씩 다르다.)
에드워드 창 교수는 자신들의 팀은 “얼굴, 목, 입, 혀의 근육에 움직임 명령을 보내는 뇌의 운동 피질 부분에 초점을 맞췄다. 이러한 뇌 영역은 멀티태스킹을 한다. 그들은 말을 만들어 내는 근육의 움직임과 삼키기, 미소 짓기, 키스를 위한 같은 근육의 움직임도 관리한다”고 말했다.
그는 “우리가 이 연구를 시작했을 때, 우리는 뇌의 활동 패턴이 음소와 음절이라는 가장 간단한 음성 구성 요소와 어떻게 연관되어 있는지에 대한 데이터를 거의 발견하지 못했다. 하지만 UCSF 뇌전증 센터에서 수술을 준비하는 자원 환자들이 감사하게도 대개 며칠 동안 뇌 표면 위에 전극을 배치해 발작이 있을 때 관련된 영역을 매핑할 수 있도록 도움을 줬다”고 밝혔다.
UCSF 연구팀은 자원 환자들에게 그들이 임플란트, 즉 대뇌피질에 직접 전극을 접촉시켜서 하는 뇌파 측정 기기(ElectroCcortiCography·ECoG)를 심고 말을 하는 동안 신경 활동의 패턴을 연구했다. 이 팀의 임플란트 시술은 통상적인 방식으로 이뤄진다. 먼저 외과의사는 두개골의 작은 부분을 제거하고, 다음으로 유연한 ECoG 어레이를 뇌 피질 표면을 가로질러 부드럽게 배치한다. 그리고 나서 작은 포트가 두개골에 고정되고 두피의 다른 구멍을 통해 빠져나간다.
ECoG 임플란트 시스템의 전극은 뇌를 관통하지 않고 뇌 표면에 있다. 이 임플란트 어레이는 수백 개의 전극 센서를 포함할 수 있으며, 각각의 센서는 수천 개의 뉴런의 데이터를 기록한다. 연구진은 지금까지 256개의 채널이 있는 어레이를 사용했다.
연구진의 초기 연구 목표는 사람들이 간단한 음절을 말할 때 피질 활동의 패턴을 발견하는 것이었다. 이들은 자원 환자들에게 그들의 신경 패턴을 기록하고 그들의 혀와 입의 움직임을 추적하는 동안 특정한 소리와 단어를 말해 달라고 요청했다. 연구원들은 때때로 색칠된 얼굴 페인트를 입히고 운동학적 제스처를 추출하기 위해 컴퓨터 비전 시스템을 사용했고, 때로는 환자의 턱 아래 위치한 초음파 기계를 사용해 환자의 움직이는 혀도 촬영했다. 이들은 이 시스템들을 사용해 신경 패턴을 성도의 움직임과 일치시켰다.
신경이 어떻게 활동하는지에 대한 여러 가지 의문과 가정이 있었다. 그중 하나는 신경 활동이 은 이 특정 근육에 대한 방향을 인코딩하고, 뇌는 본질적으로 이 근육을 키보드의 키를 누르는 것처럼 켜고 끄는 것이었다. 다른 아이디어는 코드가 근육 수축의 속도를 결정한다는 것이었다. 또 다른 아이디어는 신경 활동이 특정한 소리를 내기 위해 사용되는 조정된 근육 수축 패턴과 일치한다는 것이다.
연구진은 서로 다른 뇌 영역이 함께 조화롭게 결합돼 유창한 말을 만들어 낸다는 사실을 밝혀냈다.
인공지능(AI)의 힘을 빌다
UCSF 팀의 이번 성과를 내는 데 있어 지난 10년 동안의 인공지능(AI)의 발전이 큰 도움을 주었다.
UCSF팀은 신경 활동과 발화의 운동학에 대해 수집한 데이터를 AI 신경망에 입력했다. 그리고 기계 학습 알고리즘이 두 데이터 세트 사이의 연관성에서 패턴을 찾도록 했다.
이를 통해 뇌신경 활동과 생성된 발성을 연결시킬 수 있었고, 이 모델을 사용해 컴퓨터에서 생성되는 텍스트, 또는 발성음으로 만들어 낼 수 있었다.
연구진은 신경이 마비된 사람들을 위한 알고리즘을 훈련시키기 위해 신경 패턴에 상응하는 근육 움직임에 대한 데이터도 확보했다.
AI 디코더는 뇌로부터의 신호를 성도(聲道) 근육의 의도된 움직임으로 변환한 다음, 의도된 움직임을 합성된 발화(speech)나 텍스트로 변환했다.
연구진은 성대근육이 마비되지 않은 사람들로부터 파생된 빅데이터 세트에서 디코더를 훈련시킬 수 있었다.
UCSF팀의 해결과제···“실용화엔 수 개월~수 년”
UCSF 팀의 다음 도전은 이 기술을 실제로 이익을 얻을 수 있는 사람들에게 가져다주는 것이다.
연구진은 발성근육 기능이 마비된 사람들이 분당 100단어의 속도로 의사소통을 할 수 있도록 한다는 목표를 세웠다. (영어 화자는 통상 1분에 150단어를 쉽게 말할 수 있다.)
창 교수는 그러나 해결할 과제에 대해서도 언급했다.
그는 “우리는 현재 전극에서 데이터를 전송하기 위해 외부 전선에 부착되는 포트가 필요하지만, 미래에는 시스템을 무선으로 만들 수 있기를 희망한다”고 말했다. 그는 “뇌에 침투하는 미세 전극들을 사용해 더 작은 신경 집단으로부터 기록할 수 있고 따라서 신경 활동에 대한 더 자세한 정보를 제공할 수 있도록 하는 것을 검토했다”며 “하지만 현재의 하드웨어는 특히 수년간 임상에 활용하는 데 있어서 ECoG만큼 견고하고 안전하지 않다”고 밝혔다.
창 교수는 “또 다른 고려 사항은 신경 신호를 명확한 명령으로 전환하기 위해서는 통상적으로 매일 관통 전극을 재보정해 줘야 한다는 것이며, 신경 장치에 대한 연구는 설정 속도와 성능 신뢰성이 이 기술의 실제 활용의 핵심이라는 것을 보여주었다”고 말했다.
이에따라 연구진은 장기간 사용할 수 있는 ‘플러그 앤 플레이’ 시스템을 만드는 데 있어서 안정성을 우선시하고 있다.
연구진은 이번 성과에 대해 “이 결과는 철자 기반 접근 방식을 통해 거대한 어휘들을 이용해 문장을 생성하는 ‘조용히(발성없이) 제어된 음성 신경보철의 임상적 실행 가능성을 보여주며, 이전의 직접적인 전체 단어 해석(디코딩) 시연을 보완한다”고 썼다.
이들은 “우리는 이제 이 시스템을 더 넓은 어휘로 확장해 작동되도록 하기 위해 노력하고 있다. 그것이 작동토록 하기 위해 현재의 알고리즘과 인터페이스를 계속 개선해야 하지만 그러한 개선이 앞으로 몇 달에서 몇 년 사이에 일어날 것이라고 확신한다. 이제 연구진은 이 시스템의 원칙을 증명함에 따라 신뢰성 있게 최적화하기 위해 노력하고 있다”고 밝혔다.
연구팀은 신경외과 전공인 창 교수 외에 언어학, 전기 공학, 컴퓨터 공학, 생명 공학, 의학 전문가들에 참여했다. 현재 진행 중인 임상 실험은 하드웨어와 소프트웨어를 모두 테스트해 BMI(Brain Machin Interface)의 한계를 탐색하고 사람들에게 어떤 종류의 언어를 복원시켜 줄 수 있는지 결정하기 위한 것이다.
에드워드 창 교수는 지난달 29일자 IEEE 기고문에서 “이 실험은 지난 10여년 동안 연구를 통해 언어를 지배하는 뇌 메커니즘에 대한 정점이었고, 연구진은 지금까지 이를 매우 자랑스럽게 생각하지만 이게 시작일 뿐이다”라고 말했다.
UCSF는 지난해 시작된 이 시범시험에 미국립보건원(NIH)의 연구비 지원을 받았다. 이 새로운 장치에 대한 연구 논문은 네이처 커뮤니케이션즈 저널 11월 8일자에 게재됐다.
소셜댓글