미남과 오컬트와 자살

前四史 통합 단어 탐색기

사기·한서·후한서·삼국지 네 정사의 본문을 하나로 통합 학습한 Word2Vec 모델로 한문 단어의 쓰임을 비교합니다. 한 모델 안에서 전한·후한·삼국을 가로질러 — 예컨대 高祖(전한 창업)와 世祖(후한 창업)를 — 견줄 수 있어요. 한글 독음으로도 검색할 수 있어요.

vector_size=150 · skip-gram · 어휘 개 · v1.0.0

📖 처음이신가요? — 결과 읽는 법과 한계 (코사인 유사도란?)

이 도구는 무엇을 보여주나요?

네 정사(前四史) 본문에서 각 단어가 어떤 말들과 함께 등장하는지(문맥)를 컴퓨터가 학습한 것입니다. 낱말의 ‘뜻’을 아는 게 아니라, 쓰임새가 닮은 단어를 찾아 줍니다. 그래서 荀彧(순욱)의 이웃으로 程昱(정욱)·郭嘉(곽가) 같은 조조 진영 문관들이 떠오르고, ‘승상’ 옆에는 전한·삼국의 역대 승상과 그 속관 벼슬들이 함께 모입니다.

코사인 유사도란?

두 단어가 얼마나 비슷한 문맥에서 쓰였는지를 0~1 사이 숫자로 나타낸 값입니다. 1에 가까울수록 거의 같은 자리에서 쓰였다는 뜻, 0에 가까우면 서로 다른 맥락이라는 뜻이에요. 딱 정해진 합격선은 없으니, 같은 검색 안에서 위쪽일수록 더 닮았다 정도로 읽으면 됩니다.

‘비슷하다’가 ‘친했다’는 아니에요

유사도가 높다고 둘이 친하거나 같은 편이라는 뜻은 아닙니다. 같은 종류로 자주 언급된다는 의미라, 라이벌이나 적장도 비슷한 전투·기록 맥락에 나오면 가깝게 묶일 수 있습니다.

⚠️ 적게 나온 단어는 조심하세요

단어 옆 ‘N회’는 네 사서 통합 본문에 그 단어가 등장한 횟수입니다. 몇 번밖에 안 나온 단어는 컴퓨터가 충분히 보지 못해 결과가 불안정합니다 — 유사어가 우연일 수 있어요. 수십~수백 회 이상 등장한 단어일수록 결과를 믿을 만합니다.

그 밖에 알아둘 점

· 이 모델은 사기·한서·후한서·삼국지(前四史)의 본문을 하나로 합쳐 학습했습니다. 당·송대 주석(史記 三家注·漢書 顏師古注·後漢書 李賢注)은 제외하고, 三國志 배송지(裴松之) 주는 본문의 일부로 포함했습니다. 《삼국지연의》(소설)나 역사적 사실 전체가 아니라, 네 사서 원문의 서술 습관·치우침이 그대로 담깁니다.
· 한 글자 이름(· 등)은 다른 뜻과 겹쳐 흐려질 수 있어 따로 묶지 않고, 諸葛亮처럼 두 글자 이상 고유명사만 한 단어로 인식합니다.
· 같은 인물·지명도 사서마다 표기가 다르면(예 雒陽·洛陽) 별개 단어로 잡힐 수 있습니다.
· ‘스파이 찾기’는 무리의 평균과 가장 덜 닮은 단어를 고르는 놀이입니다. 정답이 아니라 재미로 즐겨 주세요.

두 단어 비교

두 단어가 네 사서에서 얼마나 비슷한 맥락에 쓰였는지 보기 위해, 각 단어와 비슷한 환경에서 출현한 단어들의 목록을 나란히 놓고 비교합니다. 예시: 高祖 vs 世祖

모델 데이터를 불러오는 중…