本文版權(quán)為《郵電設計技術(shù)》所有,如需轉(zhuǎn)載請聯(lián)系《郵電設計技術(shù)》編輯部
摘要:攻擊者常使用域名生成算法(DGA)生成大量的隨機域名來傳輸惡意軟件控制指令,而傳統(tǒng)DGA檢測方法存在計算量大、檢測精確度低等問題,采用機器學習和深度學習的方法可極大緩解上述問題。首先從域名的基本特征、語言特征和統(tǒng)計特征3個方面對DGA域名和正常域名進行特征提取,在特征集上采用機器學習算法進行模型訓練;同時,采用長短期記憶(LSTM)網(wǎng)絡以域名字符串的嵌入向量作為輸入,提取域名的深度特征進行域名檢測。通過查準率、召回率、F1-score、ROC曲線、AUC值等評測指標對模型訓練結(jié)果進行對比,獲得較優(yōu)的DGA域名檢測模型。
關(guān)鍵詞:域名生成算法;機器學習;深度學習;域名檢測
doi:10.12045/j.issn.1007-3043.2024.08.003
引言
大多數(shù)僵尸網(wǎng)]依賴集中C&C服務器,一旦C&C域名被識別拆除,僵尸主機將失去對整個僵尸網(wǎng)絡的控制。因此,攻擊者常會利用域名生成算法(DGA)生成大量隨機域名為惡意程序和命令控制服務器建立通信,以提升C&C服務器逃避檢測的能力。傳統(tǒng)的DGA檢測方法,如黑名單過濾法和逆向惡意樣本DGA算法,存在檢測準確率不高、實際應用中難以實現(xiàn)等問題。因此,采用機器學習方法對DNS域名服務器數(shù)據(jù)進行分析和檢測已成為當前的研究熱點。該方法主要基于域名服務器流量或域名語言統(tǒng)計特征進行機器學習完成DGA域名的標識和分類。但設計人工特征是一個非常耗時的工作,且需隨著域名生成算法的更新而不斷更新。因此,深度學習算法開始被應用于自動檢測DGA域名,例如以域名字符串的嵌入向量為輸入的動態(tài)卷積算法模型能顯著提高檢測準確率,但是這類模型通過捷徑學習進行特征提取,在對抗樣本下十分脆弱。
針對上述問題,某省聯(lián)通分別采用了機器學習和深度學習的方法來檢測分析DGA域名,通過對比試驗,選出較優(yōu)的方法應用于日常威脅檢測工作中。在機器學習方面,通過從域名的基本特征、語言特征和統(tǒng)計特征3個方面形成的數(shù)據(jù)集進行訓練;在深度學習方面,采用長短期記憶(LSTM)網(wǎng)絡,以域名字符串的嵌入向量作為輸入,提取域名的深度特征并進行域名檢測。通過兩者的對比分析,某省聯(lián)通找到適合DGA域名自動檢測的分類模型。