하루에 한 번, 유사도를 이용해 오늘의 단어를 맞히는 게임. 뉴스젤리가 제작한 꼬맨틀! 플레이 해 보셨나요? 작년 4월 꼬맨틀을 공개한 이후 저희는 유저들의 반응을 항상 지켜보고 있는데요. 꼬맨틀을 재미있게 즐기고 계신 분들이 있는 반면, 정답을 찾지 못해 답답함을 호소하시는 분들도 종종 있었습니다.
마찬가지로 저희 역시 매일 꼬맨틀을 즐기면서도, 가끔은 보이지 않는 정답에 지쳐 포기하기 버튼을 누를까 말까 고민하기도 하는데요.
혹시 여러분도 꼬맨틀 정답을 찾느라 지쳐 본 경험이 있지는 않으신가요? 고전하는 여러분들을 위해 꼬맨틀에 진심인 에디터 홍젤리가 꼬맨틀을 더 쉽고 재미있게 즐길 수 있는 몇 가지 간단한 팁을 드리려고 합니다. 잠시 머리도 식힐 겸 가볍게 읽어 주세요!
유저분들이 꼬맨틀에 대한 피드백으로 제일 많이 의견을 주신 개념은 ‘유사도’입니다. 저도 처음 꼬맨틀을 할 때 쉽게 이해되지 않는 개념이기도 했는데요. 유사도를 꼬맨틀의 핵심으로 볼 수 있기 때문에, 정답을 잘 맞히려면 유사도에 대해 이해할 필요가 있어요.
꼬맨틀의 유사도를 의미상의 유사도로 오해하시는 분들이 많았는데요. 여기에서의 유사도는 단어의 의미를 기반으로 추정되는 값이 아니라 같은 문맥에서 많이 사용된다는 것을 의미합니다. 같은 문맥에서 많이 사용되는 것은 어떤 의미인지 자세히 알아보겠습니다.
현재 꼬맨틀은 Wikipedia나 웹 사이트들에서 수집한 문장을 바탕으로 훈련된 ‘FastText’라는 모델을 사용하고 있습니다. (‘FastText’ 모델에 대해서 더 알고 싶다면 이 블로그 글을 참고해 보세요!) FastText로 벡터화한 두 단어의 코사인 유사도 (cosine similarity)를 -100부터 100 사이의 값으로 변환한 값이 바로 꼬맨틀의 ‘유사도’인데요.
쉽게 말해서, 각종 웹 사이트의 문장들을 컴퓨터가 읽을 수 있도록 숫자 벡터값으로 변환한 뒤 단어 간 유사도를 구한다는 뜻입니다. 그렇기 때문에 유사도가 100에 가까울수록 상대 단어와 유사하고, -100에 가까울수록 상대 단어와 거리가 멀어서 상대 단어와 유사하지 않다고 이해해 볼 수 있어요.
예를 들어서, ‘사랑’과 ‘증오’의 유사도는 39.08로 비교적 높은 유사도를 보였는데요. 그 이유는 ‘사랑’과 ‘증오’가 의미적으로 정반대이지만, 동일한 문장이나 맥락에서 자주 등장하기 때문일 겁니다. 저 같은 경우, ‘나는 너를 사랑하지만, 때때로 증오하기도 해’라는 문장을 어디에선가 들어 본 경험이 떠오르네요.
조금 더 이해를 더하기 위해, 유사도가 헷갈릴 때 떠올리면 도움이 될 만한 두 가지 경우 -1. 동일한 맥락에서 많이 쓰이는 경우, 2. 동일한 문장에서 많이 쓰이는 경우-를 설명해 드리고자 합니다. 이 두 가지 경우에 정답 단어와 추측 단어 간의 유사도가 높기 때문에, 알아 두면 꼬맨틀을 하는 데 도움이 되실 거예요!
‘시끄럽다’와 ‘조용하다’는 의미적으로는 아무 관계가 없습니다. 하지만 ‘말하는 소리가 시끄럽다.’와 같은 문장에서 ‘시끄럽다’는 ‘조용하다’로 대체할 수 있는 단어입니다. 이렇게 같은 문맥에서 많이 쓰이는 단어들끼리 높은 유사도를 보일 확률이 높습니다.
‘음식물’과 ‘쓰레기통’은 의미적으로 아무 관계가 없습니다. 하지만 같은 문장에서 많이 쓰이는 단어인데요. ‘남은 음식은 음식물 쓰레기통에 버리세요.’와 같은 문장에서 ‘음식물’과 ‘쓰레기통’은 자주 함께 쓰이는 단어입니다. 이렇게 같은 문장에서 많이 쓰이는 단어들들끼리 높은 유사도를 보일 확률이 높습니다.유사도에 대한 의심이 뜨거웠던 2022년 12월 29일의 정답 단어 ‘깨소금’의 유사 단어 리스트를 통해, 앞서 설명한 2가지 경우를 찾아보도록 하겠습니다.
유사도 순위 1, 2위인 ‘후춧가루’와 ‘생강즙’은 요리를 할 때 사람들이 뿌리는 재료들이라는 공통점을 갖고 있는데요. ‘깨소금’과 동일한 맥락에서 많이 사용하는 단어라고 볼 수 있습니다. 예를 들어, ‘마지막으로 깨소금을 뿌려서 요리를 완성합니다.’라는 문장에서 ‘깨소금’의 자리에 ‘후춧가루’, ‘생강즙’을 넣어도 어색하지 않죠? 꼬맨틀에서의 ‘유사도’ 개념은 의미보다는 맥락적으로 정의되기 때문에 두 단어가 더 높은 유사도를 얻었을 것으로 추정됩니다.
유사도 순위 6위의 ‘꽈리고추’ 또한 의미적으로는 ‘깨소금’과 관련이 없는 단어입니다. 하지만 ‘꽈리고추’를 활용한 요리법에 ‘깨소금’이 들어가기도 한다는 점을 고려하면, 두 단어가 동일한 문장에서 사용될 수 있다고 생각해 볼 수 있습니다. 예를 들어, ‘꽈리고추 멸치볶음에는 간장 두 스푼, 깨소금 한 스푼, 설탕 한 스푼이 들어갑니다.’와 같은 문장에서 ‘꽈리고추’와 ‘깨소금’은 함께 쓰이는 경우가 많기 때문에 유사도가 높게 나왔을 것으로 추정됩니다.
‘깨소금’이 정답이던 날, 유사도에 대한 꼬맨틀 유저들의 불평이 빗발쳤습니다. ‘소금’이 380위인데, 어떻게 ‘후춧가루’나 ‘생강즙’이 최상위권일 수 있냐면서요. 물론 ‘깨소금’이라는 단어는 의미적이나 철자로는 ‘소금’과 ‘깨’에 더 가깝습니다. 하지만 FastText 모델이 학습한 데이터에서 ‘소금’과 ‘깨소금’을 같은 맥락·문장에서 사용한 경우가 ‘후춧가루’와 ‘깨소금’을 같은 맥락·문장에서 사용한 경우보다 적었기 때문에 유사도가 낮을 수 있어요. 아쉽게도 뉴스젤리에서 직접 훈련한 모델이 아니기 때문에 이와 같은 문의를 주실 때 확실한 답변을 드리기가 어렵다는 점을 양해 부탁드려요.
한편, 유사도에 대한 개념이 저희도 처음에는 쉽지 않았지만 젤리언즈 (뉴스젤리 구성원) 중 유독 정답을 잘 맞히는 ‘유잘알(유사도를 잘 아는 사람)’이 곧 나타났는데요! ‘유잘알’ 쩡젤리님의 팁을 전해 드리자면, ‘유사도가 높게 나온 단어로 구성된 문장을 상상해서 떠올려 보는 것’이라고 합니다. 앞서 설명한 동일한 ‘문장’ 안에 나올 법한 단어를 찾아보는 것이죠! 저는 위키피디아나 사전에서 글을 살펴보곤 하는데요. 동일한 ‘맥락’과 ‘문장’에 언급되는 단어를 추측해 보는 방식이라고 할 수 있을 것 같습니다. 국어사전에서 유의어, 반의어, 예시 문장을 참고해 보는 것도 도움이 되는 것 같아요!
꼬맨틀을 플레이하시면서 맞췄던 단어의 품사를 기억하시나요? 꼬맨틀을 여러 번 플레이해 보신 분이라면 꼬맨틀의 정답 단어가 항상 명사는 아니었다는 것을 알고 계실 거예요. 정답이 명사가 아닌 동사, 형용사였던 날 단어 맞히기가 어려웠다는 평이 있었는데요, 모든 정답 단어의 품사별 비중은 어떻게 될까요? 만약 높은 비중을 차지하는 품사를 먼저 시도해 본다면 정답률이 높아지지 않을까요?
위 그림은 꼬맨틀 정답 단어 리스트의 품사 분석 결과를 나타낸 파이 차트입니다. 유사도 팁에서 설명해 드렸듯이, 꼬맨틀에 사용하는 FastText 모델은 Wikipedia나 웹 사이트에서 문장들을 수집해 학습합니다. 그렇기 때문에 꼬맨틀의 정답 단어는 ‘위키낱말사전’ (Wiktionary)에서 자주 쓰이는 한국어 낱말을 가져와 두 글자 이상의 단어만을 추출하는 과정을 거쳐 임의로 선택되는데요. 이렇게 생성된 총 4,650개의 정답 단어 중 3,230개가 명사로 약 69%를 차지했습니다. 그다음으로는 동사가 768개(약 17%), 형용사가 370개(약 8%)로 나타났습니다. 무려 70%에 가까운 명사를 가장 먼저 추측 단어로 시도한 뒤 동사, 형용사 순으로 시도해 본다면 더 빠르게 정답에 가까워질 수 있겠죠!
그러나 어느 날에는 명사를 아무리 입력해도 정답 단어와 가까워지지 않아서 답답한 날이 있을 텐데요! 그런 날이 30% 정도일 테니 적다고도 볼 수 없겠어요. 한 품사가 계속해서 낮은 유사도를 보이는 날에는 빠르게 다른 품사로 접근하는 것 또한 좋은 방법입니다. 품사 역시 유사도와 밀접한 관계가 있기 때문인데요. 정답이 ‘고구마’일 경우를 예로, 품사와 유사도의 관계를 설명해 드리겠습니다.
‘고구마’의 품사는 명사인데요. 정답이 명사일 경우, 추측할 수 있는 단어는 품사에 따라 4가지로 나누어 볼 수 있습니다.
가장 먼저 정답과 관련된 명사의 경우입니다. ‘고구마’와 관련이 있는 명사 단어는 ‘채소’, ‘음식’, ‘작물’ 등이 있는데요. 이 단어들을 추측했을 때 최소 20 이상의 유사도가 나오는 것을 확인할 수 있었고, 유사도 순위가 1,000위권 내로 높은 단어들이 많았습니다.
정답과 관련 없는 명사 단어의 경우 ‘충전기’, ‘핸드폰’ 등이 포함될 수 있겠는데요. 이 단어들은 ‘고구마’와는 관련이 없지만, 품사가 같아 유사도가 10 이상으로 유지되는 것을 확인할 수 있었습니다.
다음은 정답과 관련된 명사 외의 품사입니다. ‘고구마’와 관련이 있는 명사 외의 품사 단어는 ‘먹다’와 같은 동사, ‘달다’와 같은 형용사 등이 있습니다. 이 단어들을 추측했을 때 동사의 경우 20 이상의 유사도가 나왔으나 형용사의 경우에는 유사도가 20 미만으로 떨어졌어요.
마지막으로 정답과 관련 없는 품사입니다. 정답과 관련이 없으며, 명사를 제외한 모든 품사가 포함되는데요. 정답과도 맥락적으로 관련이 없고, 품사도 다른 단어의 경우에는 유사도가 10 미만으로 크게 떨어졌습니다.
이렇게 4가지 경우를 알고 있다면 시도할 품사의 범위를 크게 좁힐 수 있어 정답까지 빠르게 도달할 가능성이 커지는데요. 예를 들어, 동사인 단어를 입력했을 때 유사도가 20 이상이라면, 정답은 최소한 시도한 단어와 관련이 있거나 같은 동사일 것이라고 추측할 수 있습니다. 특정 품사의 유사도 순위가 계속해서 높게 나온다면, 그 품사에만 집중해서 생각해 보는 게 좋겠습니다!
사람들은 언제 꼬맨틀을 많이 플레이할까요? 정답을 찾지 못해 답답할 때, 여러분은 혹시 같이 플레이하고 있는 사람들의 반응을 확인하거나 힌트를 얻고 싶었던 적은 없으신가요?
위 그래프는 1월 1일부터 9일까지의 시간대별 꼬맨틀 유저 수를 나타낸 그래프입니다. 어느 시간대에 유저들이 꼬맨틀을 많이 사용하는지 분석해 볼 수 있는데요. 꼬맨틀 사용자가 가장 많은 시간대는 문제가 바로 문제가 업데이트되는 밤 12시부터 1시 사이와 점심시간인 11시부터 1시 사이였습니다. 이때 커뮤니티, SNS를 접속하면 예상치 못한 힌트를 얻을 수 있을 거예요. 일례로 정답이 ‘우울하다’였던 작년 12월 19일, 트위터에서는 정답에 관해 ‘요즘 내 기분’, ‘요즘 내 인생’이라는 글이 많이 올라왔답니다. 한편, 당혹스럽게도 힌트를 찾으러 갔다가 예상치 못하게 스포일러를 보게 되는 경우도 발생할 수 있는데요…! 저도 우연치 않게 정답이 포함된 피드를 보게 된 경험이 있어 아쉬웠답니다. 다 같이 꼬맨틀을 즐기기 위해 스포일러는 방지해 주시길 꼬맨틀 유저 분들에게 간곡한 부탁을 드려 봅니다.
그렇다면, 정답률이 가장 높았던 시간대는 언제일까요? 1월 3일부터 9일까지의 시간대별 총 추측 횟수 대비 정답자 수를 계산해 그래프를 그려 보았는데요. 놀랍게도 정답률이 가장 높았던 시간대는 오전 8시였습니다. 실제로 아침은 잠자는 동안 쉬고 있던 몸과 머리가 깨어나면서 가장 두뇌 회전이 빠르고 컨디션이 좋아지는 시간이라고 해요. 꼬맨틀을 출근할 때, 등교할 때 시도해 보시는 건 어떨까요? 다른 시간에는 도통 알 수 없던 정답이 떠오를지도 모르니까요!
여러분은 꼬맨틀을 몇 번째까지 시도해 보셨나요? 저희 젤리언즈 중에는 시도 횟수가 1000번을 돌파해 본 경험이 있는 사람도 있는데요. 다른 유저들은 몇 번까지 시도한 후에 포기하거나 정답을 맞히고 있을까요?
1월 3일부터 9일까지 포기하기 버튼을 누른 유저의 시도 횟수를 히스토그램으로 나타내 보았는데요. 10회 미만으로 시도해 본 후 포기하기 버튼을 누른 사람들의 분포가 가장 많았습니다. 평균적으로는 얼마나 추측할까요? 포기를 선택한 유저는 평균적으로 약 73회의 추측을 시도했네요. 정답자의 경우는 어떨까요?
정답자의 시도 횟수 데이터를 히스토그램으로 나타내 봤을 때, 130회 이상 추측을 시도한 사람이 가장 많다는 것을 확인할 수 있습니다. 가장 많이 추측을 시도한 유저는 무려 1635번의 시도 끝에 정답을 맞혔어요! 또한 정답자는 평균적으로 약 100회 이상 단어를 입력했습니다.
‘열 번 찍어 안 넘어가는 나무 없다’는 말이 있죠? 아무리 어려운 일이라도 노력하면 못 이룰 게 없다는 뜻인데요. 꼬맨틀을 개발하신 분이자 꼬맨틀의 고수이신 ‘맥젤리’님께서도 꼬맨틀을 잘 할 수 있는 방법이 무엇이냐는 질문에 ‘중요한 건 꺾이지 않는 마음(?)’이라고 조언해 주셨답니다..!. 아직 포기하지 마세요! 최소 100번 이상 도전해 보면, 정답이 보일지도 모릅니다.
지금까지 꼬맨틀과 관련된 데이터를 분석해 꼬맨틀을 더 재미있게 즐길 수 있는 4가지 팁을 알아보았습니다. 팁을 알아보면서, 여러분은 어떻게 느끼셨나요? 꼬맨틀을 플레이하면서 쌓였던 답답함이 조금은 해소되었나요?
이번 콘텐츠는 여러분이 조금 더 꼬맨틀을 재미있게 플레이하는 데 도움이 되길 바라는 마음으로 작성했는데요! 사실 이렇게 ‘재미’를 드리고 싶은 마음은 꼬맨틀을 제작할 때부터 시작되었답니다. 어떻게 활용할지 막막했던 데이터를 꼬맨틀을 통해 재미있게 활용해 보고, 활용 경험을 통해 데이터의 가치에 대해서도 경험하실 수 있기를 기대했었는데요!
특별히 꼬맨틀에서 사용하는 데이터는 ‘단어’ 데이터로 컴퓨터가 이해할 수 있도록 단어를 수치로 변환하고, 유사도를 찾는 심도 깊은 활용 사례를 게임으로 공유한다면 데이터를 더욱 쉽고 재미있게 접할 수 있다고 생각했습니다. 또한, 꼬맨틀을 플레이할 때 유저는 자신이 추측한 단어 기록을 직관적인 시각화로 확인할 수 있기도 하죠? 꼬맨틀을 통해 저희가 기대했던 바대로 데이터와 시각화의 활용 가치를 느끼실 수 있었기를 바라 봅니다.
한편, 지금도 뉴스젤리는 꼬맨틀의 시작과 같은 관점에서 데이터와 시각화의 활용을 기반으로 한 다양한 프로젝트를 진행하고 있는데요!. 지금보다 더 많은 사람들이 자연스럽게 데이터를 접하고, 그 과정을 통해 즐거워하는 모습을 상상하면서요. 앞으로 또 다른 흥미로운 프로젝트로 찾아올 테니 기대 부탁드립니다!
소셜댓글