Skip to content

スパム検知で使用するキーワードの自動学習 #35

@MMikipenguin

Description

@MMikipenguin

スパム検知で使用するキーワードは,spam_words_list.jsに表記される.
流行しているスパムの内容が変化することで,事前に定義したキーワードリストでは,
スパム検知の精度が落ちる可能性がある.

スパムの内容に現れるキーワードを人手で決めることなく,プログラムで自動的に学習する
機能があるとよい.

具体的には,メールの本文やサブジェクトを単語の単位で解析して,出現頻度の多い単語をリストに自動で追加する.
しかし,自然言語を単語単位で解析する解析プログラムは,設計が難しいと考えられる.
また,単純に出現頻度で選択すると,「...の」や「...は」といったメールの種類を問わず頻出する
単語(文章を構成するのに必須な単語)など,本来リストに入れる必要がない単語まで誤って選択する恐れがある.
このため,「不正ログイン」,「パスワード」など「スパムにとって意味のある」単語を選ぶようルールを
決める必要がある.

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions