TF-IDF는 문서에서 단어의 중요도를 측정한다

2026.04.23·수정 1회

NLP algorithm text-analysis

요약

TF(단어 빈도) * IDF(역문서 빈도)로 특정 문서에서 단어의 중요도를 수치화

본문

TF-IDF = TF * IDF

TF: Terms Frequency

특정 문서 d에서 특정 단어 t의 출현 빈도

참고 DTM, Bag of Words

띄어쓰기 기준으로 토큰화

DF : Document Frequency

DF 전체 문서 D에서 특정 단어 t가 등장한 문서 개수

vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['processed_text'])
word_freq = X.toarray().sum(axis=0)
doc_freq = np.sum(X > 0, axis=0)
total_docs = len(df)
# IDF 및 NIDF 계산 
idf_values = np.log(total_docs / (doc_freq + 1))
min_idf = np.min(idf_values)
max_idf = np.max(idf_values)
nidf_values = (idf_values - min_idf) / (max_idf - min_idf)

전체 코퍼스에서 유저가 얼마나 다양한 단어를 쓰는지 평균 점수로 나타낼 수 있음

참고

이 문서를 참조하는 노트 (1)

BM25는 TF 포화 함수와 길이 정규화로 TF-IDF의 한계를 해결한다

함께 읽기 좋은 글