-
Notifications
You must be signed in to change notification settings - Fork 6
スパム検知で使用するキーワードの自動学習 #35
Copy link
Copy link
Open
Description
スパム検知で使用するキーワードは,spam_words_list.jsに表記される.
流行しているスパムの内容が変化することで,事前に定義したキーワードリストでは,
スパム検知の精度が落ちる可能性がある.
スパムの内容に現れるキーワードを人手で決めることなく,プログラムで自動的に学習する
機能があるとよい.
具体的には,メールの本文やサブジェクトを単語の単位で解析して,出現頻度の多い単語をリストに自動で追加する.
しかし,自然言語を単語単位で解析する解析プログラムは,設計が難しいと考えられる.
また,単純に出現頻度で選択すると,「...の」や「...は」といったメールの種類を問わず頻出する
単語(文章を構成するのに必須な単語)など,本来リストに入れる必要がない単語まで誤って選択する恐れがある.
このため,「不正ログイン」,「パスワード」など「スパムにとって意味のある」単語を選ぶようルールを
決める必要がある.
Reactions are currently unavailable
Metadata
Metadata
Assignees
Labels
No labels