본문 바로가기
카테고리 없음

ChatGPT보다 더 인상적인 AI가 여기 있습니다. Action Transformer (ACT-1)는 인공지능의 다음 도약입니다.

by jake82 2023. 2. 8.

ChatGPT보다 인공지능에 대한 더 큰 사용 사례가 있다고 말하면 어떤가요? 우리가 사용하는 스마트폰, 태블릿 또는 컴퓨터와 상호 작용하는 방식을 완전히 바꾸어 불가능하다고 생각되는 방식을 사용할 수 있는 사용 사례를 보셨나요? 사실 우리 일상생활에서나 또는 일하는 직장에서 크게 변하는 것은 그리 많지 않습니다. 하지만 이 글의 끝부분에 다다르면 엄청나고 큰 변화가 일어날 수 있다는 것에 동의할 것입니다.

 

하지만 이 글을 읽은 후 당신이 얼마나 흥분되거나, 혹은 두려운(?) 감정이 들지는 전적으로 여러분에게 달려 있습니다. 이것이 바로 Action Transformers(ACT-1)가 여러분의 미래에 파괴적이고 변혁적인 역할을 할 수 있는 정도입니다.

 

사진자료: Unsplash @deepmind
사진자료: Unsplash @deepmind

 

주류 인공지능

인공지능은 이미 어디에나 있지만 지금까지 인공지능 모델은 예측 변수로 사용되었습니다. 매우 맞춤화되고 구체적인 사용 사례에 대한 의사 결정자였습니다.

 

이상하게도 경제적으로 가장 성공적인 인공지능 분야는 온라인 광고였으며 구글이나 메타와 같은 회사는 단순한 확실성 개념에서 문자 그대로 제국을 건설할 수 있었습니다.

 

즉, 인간에게 특정 행동의 결과가 종종 수익성이 있을 것이라는 경험적 데이터 기반 보증을 제공하는 것입니다.

 

인공지능 덕분에 구글과 메타는 마케팅 캠페인이 원하는 고객 페르소나에 도달하도록 보장함으로써 광고주의 결과를 보장하고, 마케팅 산업을 과거의 '뺑소니'에서 훨씬 더 간소화된 무언가로 변화시켰습니다.

 

그러나 이 놀라운 성공에는 중요한 투자가 필요했고, 인공지능은 대다수에게 금지된 기술이 되었습니다.

 

따라서 인공지능이 처음으로 주류가 되고 우리의 일상에서 접근할 수 있는 생성형 인공지능으로 이 모든 것이 변하고 있습니다.

 

그리고 많은 다른 인공지능 모델이 우리 바로 눈앞에 다가오는 것을 분명히 보게 되겠지만, 그것들은 모두 하나의 간단한 개념으로 요약될 수 있습니다. 집중하는 것이 매일 더 큰 도전이 되는 세상에서, 아이러니하게도 우리 주변의 세상을 바꿀 것입니다. 하나의 단순한 것, 바로 어텐션(Attention)에 기반합니다.

 

어텐션 메커니즘, 필요로 하는 것은 오로지 'Attention'

바다나우 어텐션(Bahdanau Attention)은 의심할 여지없이 인공지능 역사상 가장 영향력 있는 논문 중 하나입니다. 요컨대, 기계가 인간과 '유사한' 방식으로 문구의 맥락을 이해하도록 가르치는 방법을 인간이 처음으로 발견한 것입니다.

 

다음 예를 통해 이를 확인할 수 있습니다.

 

문구를 다른 언어로 번역하고 싶다고 가정해 보겠습니다.

당신이 아주 이상하지 않은 한, 당신은 아마도 그 문구를 작은 덩어리로 번역할 것입니다. 처음에는 처음 몇 단어, 그다음에는 문맥을 유지하기 위해 문장의 첫 부분을 기억하면서 계속...

그러나 어텐션 메커니즘 이전에는 신경망이 무차별 대입으로 콘텍스트를 이해하여 전체 구문에서 콘텍스트를 추출했습니다. 즉, 기계가 이해하기를 원하는 구문의 길이가 길어질수록 계산 및 메모리 요구 사항이 급증했습니다.

 

어텐션 메커니즘으로 이 모든 것이 바뀌었습니다.

 

가중 메커니즘 덕분에 우리는 한 번에 한 단어씩 해당 단어와 관련된 문장의 나머지 단어를 '점수'로 매기도록 기계를 가르칠 수 있었습니다.

 

이것은 매우 단순화된 용어로 기계가 수신한 문장의 각 단어에 대해 당신과 내가 무의식적으로 하는 것처럼 그 문장에서 어떤 다른 단어가 더 중요하고 어떤 단어가 덜 중요한지 이해할 수 있다는 것을 의미합니다.

 

이를 통해 ChatGPT, DALL-E, Stable Diffusion 또는 오늘날 우리의 주인공인 ACT-1의 모델이 탄생했습니다.

 

트랜스포머

어텐션 메커니즘은 2017년에 연구자 그룹이 시퀀스 모델을 훈련하기 위해 당시 표준인 반복 및 컨볼루션을 포기하기로 결정하고 어텐션 메커니즘에만 의존하는 새로운 인코더-디코더(두 개의 신경망이 시퀀스로 연결됨)를 만들었습니다.

 

그러나 지금까지 이러한 모델의 주요 응용 분야는 텍스트 또는 이미지 출력을 생성하는 것이었습니다. ChatGPT에서 볼 수 있듯이, 이것은 매우 성공적이었고 이미 창의적인 근로자, 작가 또는 마케팅 담당자와 같은 여러 산업에 영향을 미치고 있습니다.

 

그러나 디지털 장치 사용 방식을 완전히 바꿀 것이라는 사실을 아는 사람은 거의 없습니다.

 

액션 트랜스포머 또는 공통 인텔리전스

Adept.ai는 평범한 스타트업이 아닙니다.

 

인공지능 분야에서 가장 명석한 사람들이 설립했습니다(그들 중 일부는 앞서 논의한 트랜스포머 모델의 개념을 만들었고 한때 OpenAI의 엔지니어링 책임자였던 데이비드 루안(David Luan)이 공동 설립함).

 

이제, 그들은 '일반 지능'을 지능적인 방식으로 컴퓨터에서 다양한 작업을 수행할 수 있는 모델의 능력으로 프레임 화하여 팀이 최초로 일반적으로 지능적인 AI 모델이라고 주장하는 대규모 언어 모델인 액션 트랜스포머를 만들어냄으로써 그들의 재능을 한 단계 더 발전시키기로 결정했습니다.

 

이 시점에서 여러분은 '그래서 그게 뭐 하는 건데?'라고 질문할 것입니다. 간단히 말해서, 그것은 범용 지능형 자동화(General-purpose Automation)입니다.

 

우리가 컴퓨터와 상호 작용하는 방식을 영원히 바꿀 것

회사의 재무 정보가 포함된 엑셀 스프레드시트로 작업한다고 상상해 보십시오. 갑자기 테이블의 정보에 대한 추가 정보를 제공하는 피벗 테이블을 만들고 싶다는 생각이 듭니다.

 

하지만 한 지 오래되었고 다시 배워야 한다는 생각만으로도 기분이 나빠집니다.

 

그런 다음 크롬 확장 프로그램을 열고 '긍정적인 결과만 필터링하면서 매년 수익과 마진을 명확하게 식별할 수 있는 방식으로 내 재무 정보를 표시하는 피벗 테이블 만들기'를 입력합니다.

 

'입력'을 누르면 됩니다. 그럼, 여기서 '마법'이 일어납니다.

 

갑자기 귀하가 입력한 요청이 엑셀 스프레드시트에서 자동으로 실행되는 동안 그저 지켜보기만 하면 됩니다.

 

이것은 거의 공상 과학 소설처럼 보이지만, 몇 년 안에, 아니면 몇 달 안에 우리 삶에서 '통상적인 비즈니스'가 될 수 있습니다.

 

범용 자동화로 가는 길

디지털 자동화는 현재 상당히 초보적인 단계입니다. 파워풀하지만 초보적입니다.

 

사람들은 자동화 소프트웨어를 일련의 반복적인 동작을 수행하기 위해 컴퓨터 화면의 어느 위치에서 동작해야 하는지를 말 그대로 보여줌으로써, 로봇이 단순히 복종하도록 '가르쳐야' 합니다. 하지만 이 과정에는 지능적이 부분이 없습니다. 이러한 로봇은 정의된 프로세스만 복제할 수 있으며 변경될 경우 자동으로 실패합니다.

 

액션 트랜스포머의 경우, 이것은 과거의 일입니다. 이러한 변환기는 대규모 언어 모델의 강력한 개념을 활용하여 거의 모든 그래픽 사용자 인터페이스, API 또는 웹사이트와 원활하게 상호 작용할 수 있습니다. 하지만 그것이 가장 놀라운 것은 아닙니다. 그들은 앞에서 보여드린 예와 같은 자연스러운 언어 요청을 통해 필요에 따라 이러한 행동을 수행할 수 있기 때문에 모든 인간의 동료가 될 수 있습니다.

 

그리고 더욱 인상적인 것은 Adept.ai가 플래시 어텐션(flash-attention)이라는 개념의 새로운 혁신적인 어텐션 메커니즘을 사용하여 트랜스포머 모델을 개발하고 있다는 것입니다.

 

더 길고 더 빠르게

앞에서 언급했듯이 이러한 모델에서 가장 큰 병목 현상은 런타임 및 메모리 제약 조건입니다.

 

어텐션 메커니즘이 메모리 요구 사항을 줄이면서 구문에서 콘텍스트를 추출하는 훨씬 더 '인간적인' 방법을 허용했지만 여전히 개선될 수 있습니다.

 

정상적인 어텐션 메커니즘을 사용하면 런타임과 메모리는 입력 시퀀스 길이에 대한 2차 요구 사항을 갖습니다. 즉, 입력 시퀀스가 ​​길수록 메모리 및 런타임 요구 사항이 기하급수적으로 높아집니다.

 

오늘날 최첨단 모델은 입력당 2,000 단어 미만인 약 2,000개의 토큰을 처리할 수 있습니다(최근 OpenAI에서 8,192개의 토큰 임베딩 시스템이 출시되었습니다).

 

이는 콘텍스트를 이해하고 출력을 생성하기 위해 모델에 제공할 수 있는 입력의 양을 제한합니다. 논리적으로 이것은 충분하지 않습니다. 책을 읽은 사람이라면 누구나 문맥이 훨씬 더 큰 텍스트에서 파생될 수 있다는 것을 알고 있기 때문입니다.

 

Adept.ai의 ACT-1 모델은 입력 시퀀스 길이와 관련하여 메모리 및 런타임 요구 사항을 선형으로 줄여준다고 주장하는 새로운 메커니즘인 플래시 어텐션(flash-attention)을 활용합니다.

 

메모리와 런타임은 시퀀스 길이에 따라 기하급수적으로 증가하지 않고 선형적으로 증가합니다.

 

이것의 잠재적인 영향은 다음과 같습니다.

 

결국, 우리는 몇 달 동안 당신과 함께하는 AI 팀원의 확산을 볼 수 있었고, 당신의 작업 방식과 리듬에서 배우고, 맞춤화된 헌신적인 접근 방식으로 당신의 행동을 향상하는 분리할 수 없는 작업 동반자가 될 수 있었습니다.

 

마무리하며,

이와 같은 진보해 가는 인공지능 관련 뉴스에 압도당하거나 두렵지 않기란 사실상 어렵습니다. 그러나 필자는 이것이 실제로 나쁜 것이라고 생각하지 않습니다.

 

인간 노동자는 아무 데도 가지 않습니다. 실제로 이러한 로봇은 우리 삶에서 진정으로 삶을 변화시키는 요소가 될 수 있으며 잠재적으로 미래에 우리가 컴퓨터와 상호 작용하는 방식을 완전히 바꿀 수 있습니다.

 

우리에게 덜질 질문은 '미래에 소프트웨어 인터페이스가 필요할 것인가?' 하는 것입니다. 아니면 소프트웨어 제품이 단순히 액션 트랜스포머가 상호작용하는 백엔드가 될까요?

댓글