AI2 Semantic Deduplication (의미 기반 중복 제거) 🔹 1. Sentence-BERT 임베딩 생성“문장을 숫자로 바꿔서 의미 공간에 배치하는 단계” Sentence-BERT는 **문장 단위 의미를 벡터(숫자 리스트)**로 바꿔주는 모델이에요.예:“나는 밥을 먹었다.” → [0.12, -0.08, 0.54, ...]“식사를 했다.” → [0.10, -0.09, 0.56, ...]두 문장은 숫자가 거의 비슷하죠.이 벡터는 보통 384~768차원짜리 “의미 좌표”예요. 📦 Python 예시: from sentence_transformers import SentenceTransformermodel = SentenceTransformer('all-MiniLM-L6-v2')embeddings = model.encode(sentences, normalize_em.. 2025. 10. 28. GloVe 임베딩 모델 펼쳐보기 1) 모델을 코드로 ‘펼쳐’ 보기 (내부 구조 탐색)api.load("glove-wiki-gigaword-50")는 Gensim의 KeyedVectors 객체를 반환합니다.이건 “단어 → 벡터” 해시맵과 벡터 행렬을 들고 있는 테이블이지, 신경망 그래프가 아닙니다. import gensim.downloader as apimodel = api.load("glove-wiki-gigaword-50") # KeyedVectors# 기본 정보type(model) # gensim.models.keyedvectors.KeyedVectorslen(model) # 어휘수 (vocab size)model.vector_size #.. 2025. 10. 28. 이전 1 다음