2025/4/2 11:31

DeepSeek 新專利公布：減少數(shù)據(jù)采集時(shí)網(wǎng)絡(luò)資源消耗

IT之家清源

從國(guó)家知識(shí)產(chǎn)權(quán)局中國(guó)專利公布公告網(wǎng)獲悉，DeepSeek 關(guān)聯(lián)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司申請(qǐng)的“一種廣度數(shù)據(jù)采集的方法及其系統(tǒng)”專利于 4 月 1 日公布。

專利摘要顯示：

該發(fā)明的有益效果在于：發(fā)現(xiàn)盡可能多的網(wǎng)頁(yè)鏈接，并減少對(duì)網(wǎng)站的流量沖擊；對(duì)已經(jīng)下載的內(nèi)容進(jìn)行分析，對(duì)未下載的鏈接進(jìn)行質(zhì)量推斷，通過(guò)擇優(yōu)下載分配額度的方式，減少低質(zhì)量網(wǎng)頁(yè)下載和重復(fù)下載，提高數(shù)據(jù)質(zhì)量及下載效率，減少在數(shù)據(jù)采集過(guò)程中網(wǎng)絡(luò)資源的消耗；采用單獨(dú)的信息回灌隊(duì)列，保證網(wǎng)頁(yè)元信息庫(kù)修改操作的原子性和穩(wěn)定性。

背景技術(shù)稱：近年來(lái)，隨著人工智能技術(shù)的進(jìn)展，NLP 自然語(yǔ)言領(lǐng)域取得了巨大的進(jìn)步。許多大語(yǔ)言模型 (Large Language Models,LLMs) 被訓(xùn)練應(yīng)用于自然語(yǔ)言處理領(lǐng)域，用于研究實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。

大語(yǔ)言模型的訓(xùn)練需要構(gòu)建一個(gè)高質(zhì)量、多樣化的大語(yǔ)言模型數(shù)據(jù)集，這需要將網(wǎng)頁(yè)數(shù)據(jù)采集并處理后得到大量高質(zhì)量的文本信息作為模型的輸入，用于大語(yǔ)言模型進(jìn)行訓(xùn)練。

然而，現(xiàn)有的數(shù)據(jù)采集技術(shù)存在諸多問(wèn)題，比如對(duì)復(fù)雜站點(diǎn)進(jìn)行采集時(shí)，無(wú)法獲取完整鏈接；容易過(guò)量下載，造成對(duì)方網(wǎng)站崩潰；對(duì)下載頁(yè)面不進(jìn)行內(nèi)容質(zhì)量分析和推斷，造成重復(fù)下載或低質(zhì)下載、影響數(shù)據(jù)采集的效率。

因此，在大量網(wǎng)頁(yè)數(shù)據(jù)獲取的過(guò)程中，如何快速、精準(zhǔn)、安全、高效地采集互聯(lián)網(wǎng)數(shù)據(jù)變得至關(guān)重要。

給作者點(diǎn)贊

0 VS 0

寫得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

網(wǎng)絡(luò)計(jì)算機(jī)互聯(lián)網(wǎng)

中國(guó)工程院院士張平：DeepSeek給通信界帶來(lái)什么啟示？
C114通信網(wǎng) 4-3
上海移動(dòng)聯(lián)合華為發(fā)布基于DeepSeek的核心網(wǎng)MoM運(yùn)維智能體試點(diǎn)方案
C114通信網(wǎng) 4-3
助力DeepSeek本地部署，浙江移動(dòng)“AI+醫(yī)療”重構(gòu)就醫(yī)體驗(yàn)
C114通信網(wǎng) 4-2
中國(guó)電信×DeepSeek 解鎖教育創(chuàng)新密碼
C114通信網(wǎng) 4-2