在理想的世界中,我们希望各种先进的技术能够在“阳光”下被使用,然而,现实世界从来不是乌托邦。
众所周知,“暗网”一直都是各种非法网络活动的庇护所,甚至是滋生罪恶的温床,以窝藏非法匿名网站和支持非法活动(例如交易被盗数据、毒品和武器)而臭名昭著。但是,暗网中也存在大量的商业数据和个人信息,而其中的很多数据是在公开网络中难以获取到的。试想一下,如果用暗网中的数据训练AI,将会发生什么?
近日,韩国科学技术院 (KAIST) 的一个研究团队发布了一款可应用于网络安全领域的大语言模型工具——DarkBERT,这是一个专门从暗网获取数据进行训练的LLM。DarkBERT并非出于恶意目的而创建,研究人员的目标是创造一种超越现有安全方案的智能化暗网威胁监控工具,帮助威胁研究人员、执法机构和网络安全分析师打击网络威胁。
据了解,此次发布的DarkBERT工具,是一个基于RoBERTa架构的transformer-based编码器模型。该模型目前已经接受了数百万个暗网网页的训练,全面包括了来自地下黑客论坛、诈骗网站和其他非法网站的数据。为了训练DarkBERT,研究人员会通过Tor网络进入暗网并收集原始数据,然后创建一个可以不断完善的暗网数据资料库,并在两周内将更新后的数据提供给RoBERTa。
该研究团队表示,即使是从最不寻常的来源所收集的数据,也可以训练出有用的人工智能模型。尽管一些人可能会担心暗网数据会带有天然的“邪恶”属性,并可能对DarkBERT造成不好的影响,但我们认为,在AI技术迅速发展的今天,需要更加关注如何让这些数据能够在受控和透明的环境下运行,并确保他们产生对社会有利的价值。
为了评估DarkBERT的有效性,研究人员将其与两个著名的NLP工具BERT和RoBERTa进行了比较,并从以下三个关键网络安全场景评估DarkBERT的实际可用性:
以上评估结果表明,DarkBERT模型对网络罪犯的语言有着非凡的理解能力,并善于发现特定的潜在威胁。它可以帮助安全人员更好地研究暗网,并成功识别和标记数据泄露及勒索软件等网络安全威胁,成为打击网络安全犯罪活动的有力工具。
DarkBERT目前还并不向公众开放,只接受部分将其用于学术研究目的的应用请求。因为像其他LLM模型一样,DarkBERT还是一个尚在发展中的模型,有许多地方还需要通过不断的训练和调整去优化。创新模型的出现将会提高现有网络安全防护体系的能力和性能,但同时,也必须要关注其可能带来的新挑战和问题,例如数据隐私、自主决策等方面的问题,需要得到充分的重视和解决。
参考链接:
https://www.makeuseof.com/what-is-darkbert-ai/
来源:安全牛