人工智能技术在网络钓鱼攻击检测中的应用研究

  • 来源:互联网周刊
  • 关键字:网络钓鱼攻击,机器学习,深度学习
  • 发布时间:2025-05-09 21:49

  文/康乐 尚杰 盛浩月通信作者 奇安信科技集团股份有限公司

  摘要:随着信息技术的快速发展,网络钓鱼攻击已经成为信息安全领域的主要威胁,传统检测手段难以应对其多样化、隐蔽化、快速变异等特性。本文聚焦人工智能技术在网络钓鱼攻击检测中的应用,探讨基于特征提取的机器学习、深度学习、自然语言处理、行为分析等方法的应用。研究表明,人工智能技术在提升网络钓鱼检测准确性与效率上潜力巨大,能为网络安全提供有力保障。

  关键词:人工智能技术;网络钓鱼攻击;机器学习;深度学习

  引言

  网络钓鱼攻击是当今信息安全领域中最常见的威胁之一。攻击者通过伪造可信网站、电子邮件等方式,诱骗用户泄露敏感信息,这不仅对个人隐私构成严重威胁,还可能造成企业数据泄露和金融损失。近年来,随着技术的不断进步,网络钓鱼攻击的形式变得更加多样化和隐蔽化,传统的基于规则的检测方法已难以应对新型攻击[1]。

  在此背景下,人工智能技术凭借其在海量数据处理、模式识别和异常检测中的强大能力,为网络钓鱼攻击检测提供了新的解决思路。本文将围绕人工智能技术在网络钓鱼攻击检测中的应用,以及如何通过基于深度学习的网络钓鱼检攻击测方法处理相关安全威胁开展研究。

  1. 网络钓鱼攻击的现状

  当前,网络钓鱼攻击正渗透到人们生产生活的方方面面。《基于报告分析的2024年全球网络安全趋势研究》显示,在对21份全球权威报告进行综合剖析后发现,网络钓鱼这一关键词的出现比例高达17.28%(如图1所示),凸显了其在网络安全领域的高发性[1]。

  随着ChatGPT、DeepSeek等先进大语言模型的发展,以及移动设备、二维码和深度伪造语音技术的普及,网络钓鱼诱饵的欺骗性与日俱增。通过生成高度逼真的文本、语音和图像内容,钓鱼邮件攻击具备了强大的欺骗性。

  2. 网络钓鱼攻击的特点与挑战

  2.1 网络钓鱼攻击的特点

  2.1.1 伪装性强

  钓鱼网站与钓鱼邮件在外观设计上与合法的网站及邮件极为相似,常令用户难以辨别真伪。例如,涉及中国香港邮政及银行系统的“钓鱼”诈骗案中,受害人均收到相关虚假电子邮件或手机短信,讹称有包裹无法派递要求支付邮费,或银行账户有异样,要求补充信用卡或网上银行密码等资料,乘机骗取金钱,近百人受骗,合计损失近300万港元[2]。

  2.1.2 多样化的媒介

  网络钓鱼攻击广泛借助各类通信平台传播。邮件是常见方式,攻击者发送伪装成官方通知、客服反馈或好友求助的邮件;短信也常被利用,以中奖信息、账户异常提醒等诱骗用户;在社交媒体平台上,虚假的促销活动链接或好友推荐信息也可能隐藏钓鱼陷阱;即时通信(IM)应用中,伪装成群组消息或好友私聊的钓鱼信息也常出现,全面渗透用户的网络社交空间[3]。

  2.1.3 攻击规模广

  钓鱼攻击技术门槛和成本低,攻击者借助自动化工具批量生成钓鱼内容,并大量传播。例如,Bleeping Computer网站披露了一项大规模网络钓鱼活动,针对这一事件,一家专注于人工智能的网络安全公司PIXM对其展开研究,研究人员未经身份验证,成功访问了网络钓鱼活动统计页面,经过对数据信息分析后发现,在2021年,有270万用户访问了其中一个网络钓鱼门户,这个数字在2022年上升到850万,侧面反映了钓鱼活动在大规模增长[4]。

  2.1.4 快速变异

  攻击者为躲避检测,动态生成钓鱼页面,变换域名、统一资源定位符(uniform resource locator,URL)结构、页面内容和攻击手法。例如,采用域名系统(domain name system,DNS)解析快速切换域名指向,传统黑名单难以追踪;利用代码混淆技术改变页面脚本,给网络安全防护带来极大挑战。

  2.2 网络钓鱼攻击检测的挑战

  2.2.1 高误报率

  传统检测方法,如基于规则的过滤和签名匹配,往往无法准确区分网络钓鱼攻击的内容和正常内容,导致大量的误报。

  2.2.2 数据多样

  网络钓鱼攻击的形式和内容极具多样性,包括使用不同的语言、内容、URL和伪装手段等,难以制定统一且有效的检测规则。

  2.2.3 实时性要求

  网络钓鱼攻击具有高度的时效性,一旦发现威胁,须迅速采取措施进行处置。

  2.2.4 对抗性攻击

  随着网络钓鱼攻击技术的不断发展,攻击者开始利用对抗样本技术来绕过检测系统,影响检测系统的有效性。

  3. 人工智能技术的网络钓鱼攻击检测方法

  3.1 基于特征提取的机器学习方法

  传统机器学习在网络钓鱼攻击检测中依赖人工定义特征。例如,在URL特征上,会考量URL长度,通常的网络钓鱼攻击URL较长且复杂[5],包含大量随机字符或疑似恶意的参数;域名复杂度也是关键因素,如是否存在二级域名过多、域名与知名品牌相似但存在细微拼写差异等情况。

  在网页内容特征上,会检查是否有常见的网络钓鱼攻击关键词,如“立即登录”“限时免费”“账户冻结需紧急处理”等具有诱导性和紧迫感的词汇,以及是否存在可疑的外部链接。这些人工定义的特征构成训练数据,输入分类器中,常见的如支持向量机(support vector machine,SVM)、决策树或随机森林等。

  3.2 深度学习方法

  深度学习是人工智能技术的重要分支,能够从海量数据中提取高维特征,减少人工干预。在网络钓鱼攻击检测中,深度学习方法具有显著的优势。常用的模型包括卷积神经网络(convolutional neural networks,CNN)、循环神经网络(recurrent neural network,RNN)和基于自注意力机制的深度学习模型Transformer三种。其中,CNN用于提取邮件内容、URL或页面截图的视觉特征。通过卷积运算和池化操作,捕捉图像中的局部特征,如颜色、纹理等,从而实现对钓鱼页面的有效识别。RNN用于处理时间序列数据,如URL字符流和邮件内容的语言模式。RNN通过循环连接的方式,捕捉数据中的时序依赖关系,从而对钓鱼邮件进行准确分类。Transformer模型则能够结合自然语言处理技术,理解邮件或页面中的语义信息。该模型通过自注意力机制和位置编码,捕捉文本的全局依赖关系,实现对钓鱼文本的深入理解。

  3.3 自然语言处理

  自然语言处理(natural language processing,NLP)技术在网络钓鱼攻击检测中发挥着关键作用,可深入分析文本的语义结构和语言特征。在关键词分析方面,除了常见的“紧急”“账号冻结”等词汇外,还会关注如“安全验证失败”“系统升级需重新登录”等关键词组合。同时,检测语法和拼写错误也是重要环节。钓鱼邮件因制作仓促或故意伪装,可能存在较多语法错误、拼写不规范或词汇使用不当的情况。此外,NLP技术还能分析文本的情感倾向和语言风格,钓鱼文本通常带有较强的紧迫感或诱导性,通过与正常邮件的语言风格对比,可有效识别潜在的欺骗行为,为判断邮件是否为钓鱼内容提供有力依据。

  3.4 行为分析

  行为分析结合用户的历史行为数据和正常操作习惯模型,利用机器学习算法建立异常行为检测模型,如使用聚类分析将用户行为划分为不同的簇,当新的行为数据偏离正常簇时,即可判定为异常行为,发现并防范网络钓鱼攻击。例如,正常浏览网页时,对不同页面的访问时间通常呈现规律分布,在遭受网络钓鱼攻击时,可能会在某个可疑页面上停留过长时间或频繁点击来自未知来源的链接[6]。对于攻击者行为,重复访问某一URL可能是其在测试钓鱼页面的有效性或准备发动大规模攻击的前奏;点击率异常高的链接往往是网络钓鱼攻击的重要线索,表明该链接可能被大量用户误点击或受到恶意推广。

  4. 人工智能技术进行网络钓鱼检测的流程

  4.1 数据收集与预处理

  数据收集是构建有效网络钓鱼攻击检测系统的基础。需要广泛获取相关的多源数据,包括钓鱼网站的URL、网页内容、源代码、交互记录以及相关的流量数据等[7]。

  收集到的数据通常存在噪声和不完整性,需要进行清洗和预处理。清洗过程包括去除无关信息,这些信息可能干扰后续的特征提取和模型训练。同时,对数据进行标准化处理,将文本数据转换为统一的编码格式,并进行归一化操作,使不同特征的数据统一在同一量纲下,从而确保模型训练的稳定性和准确性。

  4.2 特征提取

  从收集到的网页数据中提取出有助于判断是否为钓鱼网站的特征。这些特征可能包括:

  (1)URL特征。如URL中是否包含可疑的域名、异常字符等。

  (2)网页内容特征。网页的文本内容是否包含网络钓鱼攻击常见的关键词,如“立即登录”“免费”“赠送”等,以及是否存在大量的外部链接[8]。

  (3)页面布局特征。钓鱼网站通常模仿真实网站的设计,但可能在布局上有所不同。机器学习模型可以通过分析页面的CSS、HTML标签等判断是否为仿冒网站。

  (4)交互行为特征。例如,钓鱼网站可能通过弹窗、表单等方式诱导用户输入个人信息,这些行为可以被追踪和分析。

  4.3 模型训练

  利用提取的特征,使用机器学习算法来训练模型。这一过程通常需要有标注的训练数据集,包括标明“钓鱼”与“非钓鱼”的数据。训练的目标是让模型能够识别出钓鱼网站的典型特征,从而在实际应用中进行有效的判断[8]。

  4.4 模型评估与优化

  在训练完成后,需要通过测试集对模型进行评估。根据评估结果,可以进一步调整模型参数或选择不同的算法来提高检测性能[9]。

  4.5 实时检测

  经过训练和优化的模型可以集成到网络安全防护工具中,进行实时检测。当用户访问某个网站时,系统会根据该网站的特征与训练模型进行比对,判断该网站是否可能为钓鱼网站。如果是钓鱼网站,系统会及时警告用户并阻止访问。

  4.6 持续学习与更新

  由于网络钓鱼攻击的手法不断演变,原有的钓鱼网站特征可能不再适用。因此,基于人工智能的检测系统需要定期更新训练数据,重新训练模型,确保检测系统的有效性。

  5. 人工智能技术在网络钓鱼检测中的实际应用

  以PayPal为例,用户所收到的电子邮件看似简单,邮件以“Hallo”开头,主要内容为:你的账户存在异常活动,需要你点击邮件中的身份验证链接,进行验证[10]。因此,邮件中包含一个链接,指向一个伪造的登录页面,网址为“www.paypa1-security.com”。该域名中的“l”被替换为了数字“1”。如果用户信以为真,点击该链接后,进入几乎与真实PayPal登录页面外观一致的网页,当用户在这个假网站上输入账号密码时,用户的账户信息就落入了骗子的手中。

  此时,人工智能技术在识别并检验钓鱼网站方面发挥了巨大作用。首先,基于URL特征分析,人工智能技术会识别出该域名存在欺骗性拼写(typosquatting),并且该网站的注册信息显示其归属于未知实体,而非PayPal官方。其次,通过网页内容分析,人工智能技术发现该页面包含诸如“您的账户存在安全风险,请立即验证”之类的高危关键词,同时,该页面没有安全套接层(secure sockets layer,SSL)证书或使用了低信誉的安全证书。再次,在页面布局特征分析方面,人工智能技术通过超文本标记语言(hypertext mark language,HTML)和串联样式表(cascading style sheets,CSS)代码对比发现,该网站的页面结构与PayPal官方页面有所不同,如按钮样式、表单字段名称等存在细微差异。此外,交互行为特征检测显示,该网站在用户输入登录凭据后,立即尝试重定向到一个非PayPal域名,并通过JavaScript代码收集用户输入的信息,这种异常行为进一步加大了钓鱼风险的可能性。最后,结合上述检测方法,人工智能技术综合判断该网站为钓鱼网站,并实时向用户发出警告,阻止用户提交任何敏感信息。人工智能技术的持续学习能力还允许其自动更新钓鱼网站的特征数据库,以应对不断变化的攻击手法。

  结语

  人工智能技术在网络钓鱼攻击的检测与防范领域展现出巨大潜力,通过深度学习和自然语言处理等技术的运用,不仅显著提升了检测的准确性和效率,还使检测方法变得更智能、更精准、更全面。尽管目前人工智能技术在实施过程中还面临诸多挑战,但随着技术的不断进步与成熟,其在信息安全领域的应用前景将更加广阔,未来有望为网络安全提供更加全面、高效和智能的保障。

  参考文献:

  [1]吴坤,陈蔓,钟海涛.基于报告分析的2024年全球网络安全趋势研究[J].信息安全与通信保密, 2024(7):1-11.

  [2]界面新闻.“钓鱼”邮件冒充邮政或银行骗钱,香港警方:逾百人中招,已有9人被捕[EB/OL].(2021-03-10)[2025-03-05].https://news.sina.com.cn/c/2021-03-10/doc-ikknscsi0377634.shtml.

  [3]巨腾飞,吕丽萍.高级网络钓鱼攻击的研究与防范[J].网络安全技术与应用,2023(12):22-23.

  [4]安全圈.攻击者利用Facebook进行网络钓鱼,获取大量非法收益[EB/OL].(2022-06-10)[2025-03-05].https://www.163.com/dy/article/H9HC79JP0511A5GF.html.

  [5]王辉,刘畅.机器学习在钓鱼邮件识别中的应用分析[J].信息安全研究,2017,3(5):412-417.

  [6]丁海杰.基于深度学习的文本关系分类与生成机制研究及系统构建[D].南京:南京邮电大学,2022.

  [7]李阳,孙悦.融合自然语言处理与行为分析的网络钓鱼检测系统[J].计算机科学,2020,47(11):143-148.

  [8]陈浩.网络钓鱼攻击的检测和防御研究[D].南京:东南大学,2023.

  [9]陈鹏,郭云飞,张建朋,等.一种面向未知攻击检测的深度神经网络预处理方法[J].信息工程大学学报,2021,22(2):200-207.

  [10]德国吃喝玩乐.警惕!德国PayPal新骗局:收到“Hallo”邮件要小心![EB/OL].(2024-11-18)[2025-03-05].https://baijiahao.baidu.com/s?id=1816053240926655344&wfr=spider&for=pc.

  作者简介:康乐,硕士研究生,工程师,kangle@qianxin.com,研究方向:网络安全体系与企业安全建设;尚杰,硕士研究生,研究方向:网络安全体系与企业安全建设;通信作者:盛浩月,本科,shenghaoyue01@qianxin.com,研究方向:网络安全体系与企业安全建设。

关注读览天下微信, 100万篇深度好文, 等你来看……