Semantic Deduplication1 Semantic Deduplication (의미 기반 중복 제거) 🔹 1. Sentence-BERT 임베딩 생성“문장을 숫자로 바꿔서 의미 공간에 배치하는 단계” Sentence-BERT는 **문장 단위 의미를 벡터(숫자 리스트)**로 바꿔주는 모델이에요.예:“나는 밥을 먹었다.” → [0.12, -0.08, 0.54, ...]“식사를 했다.” → [0.10, -0.09, 0.56, ...]두 문장은 숫자가 거의 비슷하죠.이 벡터는 보통 384~768차원짜리 “의미 좌표”예요. 📦 Python 예시: from sentence_transformers import SentenceTransformermodel = SentenceTransformer('all-MiniLM-L6-v2')embeddings = model.encode(sentences, normalize_em.. 2025. 10. 28. 이전 1 다음