サマリー
「フィッシングサイト検出システム」は、インターネット上で日々新たに生成されるフィッシングサイトをAIによって自動検出・収集するために開発されたシステムです。
PythonおよびPyTorchによる機械学習基盤上で、BERTモデルを活用したテキスト解析と画像・構造解析を組み合わせることで、URLやHTML構成、ページの見た目などからフィッシングサイトを高精度に判定します。
背景
近年、有名企業や行政機関に酷似したデザインのフィッシングサイトを悪用した犯罪が急増しています。
これらのサイトは短期間で生成・削除を繰り返し、従来のブラックリスト型対策では追いつかない状況が課題でした。
特に、フィッシングサイトの寿命は平均数時間〜数日程度と短く、発見から対応までのスピードが求められていました。
提案方針
このような状況に対し、弊社は「発生と同時に検出・記録できるAIシステム」の構築を提案しました。
具体的には、インターネット上で新規に登録されたドメインをリアルタイムに監視し、その中からAIが自動的にフィッシングの疑いを持つサイトを抽出。
収集したデータをもとに、自動生成型ブラックリストを更新し続けるアーキテクチャを設計しました。
活動内容
- ドメイン監視:
certstreamからリアルタイムで新規登録ドメイン情報を取得し、AIによる検査対象を生成。 - AI解析パイプライン:
URL、HTMLソース、スクリーンショット画像を取得し、それぞれ異なるAIモデルに入力。- テキスト解析:BERTを用いてドメイン名・メタ情報・文面を分析し、既存ブランドとの類似度を判定。
- 構造・画像解析:PyTorchモデルによりページ構造やレイアウトの特徴を抽出し、偽装傾向を識別。
- 自動判定とリスト化:
各モデルのスコアを総合し、フィッシングと判定されたサイトを自動的にブラックリストに登録。
APIを介して外部システムとの連携も可能な構成としました。
結果
本システムは、リアルタイムに生成される未知のフィッシングサイトを自動的に収集・検出できるAI基盤として機能しました。
まだ導入実績はありませんが、スペインで開催された展示会に出展し、欧州のセキュリティ関係者から注目を集めました。
今後は、セキュリティ企業やドメイン監視サービスとの連携を視野に、国際的な展開を進めていく予定です。