next up previous
Next: ベクトル空間モデル Up: 自動ハイパーテキスト生成 Previous: 自動ハイパーテキスト生成

tf・idf法

は,ある語tがある文書d中に現れる頻度をで割った値である. はセグメント内の形態素数であり,セグメント長を反映した正規化を 行なっている. は,文書データベース全体においてある語tが現れる文書の頻度に基づく値であり,次式で定義される.

 

はある語tが一部の文書に集中している度合を表しているので, はある語tがある文書dを弁別する能力を表している.

検索要求文はユーザにより自由に入力できるのが通例であるから その中の検索語に関する統計情報は前もって得られないのが普通である. よって, 通常は検索要求文中の検索語について重みを計算することはできず, データベース中の語についてのみ重みを計算する. 一方,本システムでは,両マニュアル中の全ての語について重みを計算することが出来るため, 対応箇所を見つける際の精度の向上が期待される.



Nobuyuki Ohmori
1997年10月08日(水) 17時48分40秒 JST