近日,研究人员在用于训练人工智能模型的Common Crawl数据集中发现了11908个API密钥、口令以及密码等敏感信息。
作为全球最大的开源网络数据集之一,Common Crawl自2008年起持续收集PB级Web数据,并免费向公众开放。鉴于数据集的庞大体量,许多人工智能项目可能至少在一定程度上依赖这些数字档案来训练大型语言模型(LLM),其中包括OpenAI、DeepSeek、Google、Meta、Anthropic和Stability等公司的模型。
尽管Common Crawl的开放共享在很大程度上促进了全球人工智能技术的迅猛发展,但同时也有可能会带来严重的安全风险。
网络安全公司Truffle Security在对Common Crawl 2024年12月存档的26.7亿个网页的400TB数据进行扫描时,发现了11908个经过成功验证的密钥。这些密钥被开发人员硬编码,表明LLM有可能在不安全的代码基础上接受了训练。
值得注意的是,LLM的训练数据不能直接以原始形式使用,必须经过预处理阶段,包括清理和过滤掉不相关的数据、重复项,以及有害或敏感信息等不需要的内容。
研究人员在分析扫描数据后,发现大量Amazon Web Services (AWS)、MailChimp和WalkScore服务的有效API密钥。
研究人员在Common Crawl数据集中识别出219种不同的密钥类型,最常见的是MailChimp API密钥。约1500个Mailchimp API密钥在前端HTML和 JavaScript中进行了硬编码。
研究人员指出,威胁攻击者可能会利用上述密钥继续进行恶意活动,例如网络钓鱼活动和品牌冒充。不仅如此,密钥也可能会导致数据泄露。泄露的潜在影响包括:
Truffle Security在发现这一安全风险后,迅速联系了受影响的供应商,并协助他们撤销和更换密钥。目前来看,尽管LLM训练数据在预处理阶段会进行清理和过滤,但完全去除敏感信息仍然具有挑战性。
文章来源 | bleeping computer