文/陳根
網(wǎng)絡(luò)爬蟲也被稱為網(wǎng)頁(yè)蜘蛛或者網(wǎng)絡(luò)機(jī)器人等,是能夠根據(jù)自身規(guī)則抓取信息的程序。作為搜索引擎的基礎(chǔ)構(gòu)件之一,網(wǎng)絡(luò)爬蟲直接面向互聯(lián)網(wǎng),是搜索引擎的數(shù)據(jù)來(lái)源,決定著整個(gè)系統(tǒng)的內(nèi)容是否豐富、信息能否得到及時(shí)更新。網(wǎng)絡(luò)爬蟲的性能表現(xiàn)直接影響整個(gè)搜索引擎的效果。
網(wǎng)絡(luò)爬蟲平時(shí)會(huì)在網(wǎng)絡(luò)上自動(dòng)爬取有用的數(shù)據(jù),通過(guò)一定的選取機(jī)制、過(guò)濾機(jī)制、錄用機(jī)制等,來(lái)豐富它們的數(shù)據(jù)庫(kù)。事實(shí)上,每個(gè)搜索引擎的爬蟲機(jī)器人都不一樣,它們有著自己的一套“爬取機(jī)制”,誰(shuí)把這個(gè)機(jī)制優(yōu)化得最好,那么誰(shuí)就能更快給到用戶真正想要的信息。
比如,百度的爬蟲機(jī)器人叫做百度蜘蛛( Baiduspider ),360的爬蟲叫做360 Spider ,搜狗的叫做 SogouSpider ...基于不同的程序爬取算法,它們也擁有不一樣的搜索結(jié)果。
然而,網(wǎng)絡(luò)爬蟲卻不總是合法的——網(wǎng)絡(luò)惡意爬蟲則會(huì)突破網(wǎng)站機(jī)器人協(xié)議的禁止爬取要求(規(guī)定在robots.txt文件的Disallow部分),爬取網(wǎng)站的核心數(shù)據(jù)資源,并可能極大地?fù)p耗被爬取網(wǎng)站服務(wù)器的性能。實(shí)際上,對(duì)于刷個(gè)短視頻,個(gè)人信息和需求竟被他人獲取,不久后,私人信箱中還會(huì)收到仿佛“量身定制”的推銷信息的現(xiàn)象,其實(shí)就源于所謂的爬蟲軟件。
2022年5月10日,經(jīng)江蘇省無(wú)錫市梁溪區(qū)人民檢察院提起公訴,梁溪區(qū)人民法院以提供侵入計(jì)算機(jī)信息系統(tǒng)程序罪判處被告人丁某有期徒刑一年六個(gè)月,緩刑兩年,并處罰金三萬(wàn)元。這也是全國(guó)首例短視頻平臺(tái)領(lǐng)域網(wǎng)絡(luò)“爬蟲”案件。
2021年9月,某信息公司員工吳先生在網(wǎng)上巡查時(shí)發(fā)現(xiàn)有人在兜售一款叫“匯易獲客”的軟件,通過(guò)對(duì)方官網(wǎng)及電話購(gòu)買了該款軟件。使用后,吳先生驚訝地發(fā)現(xiàn)該軟件居然可以“爬取”自己公司后臺(tái)數(shù)據(jù)和直播間用戶的相關(guān)信息,隨即報(bào)警。經(jīng)偵查,公安機(jī)關(guān)發(fā)現(xiàn)售賣該軟件的某信息咨詢公司老板丁某及銷售人員有重大作案嫌疑。
經(jīng)查,2019年,丁某成立了自己的信息咨詢公司,后公司因經(jīng)營(yíng)不善處于停業(yè)狀態(tài)。2021年中,丁某從丁某某(另案處理)處以9800元的價(jià)格購(gòu)進(jìn)匯易獲客軟件成為代理商,利用該軟件可以入侵某些短視頻平臺(tái)的服務(wù)器,通過(guò)關(guān)鍵詞搜索可以快速抓取平臺(tái)信息,主要包括用戶名、UID、簽名及評(píng)論等,再通過(guò)軟件把UID轉(zhuǎn)換成二維碼,來(lái)精準(zhǔn)定位客戶。丁某對(duì)該軟件進(jìn)行了重新包裝,“改頭換面”后對(duì)外銷售,違法所得2.4萬(wàn)余元。
對(duì)此,本案承辦法官表示,侵入計(jì)算機(jī)信息系統(tǒng)程序罪是刑法修正案(七)新增的一個(gè)罪名,主要針對(duì)向他人提供專門用于侵入或非法控制計(jì)算機(jī)信息系統(tǒng)工具或程序,或是明知他人實(shí)施侵入、非法控制計(jì)算機(jī)信息系統(tǒng)的違法犯罪行為而為其提供程序、工具,情節(jié)嚴(yán)重的行為處以刑罰。
顯然,此次案件中涉及的“爬蟲”軟件就是利用技術(shù)手段突破短視頻平臺(tái)的反爬措施,非法獲取后臺(tái)服務(wù)器內(nèi)指定的數(shù)據(jù)文件。
無(wú)疑,網(wǎng)絡(luò)爬蟲作為數(shù)據(jù)資源獲取和利用的重要手段,但無(wú)論是私法領(lǐng)域數(shù)據(jù)確權(quán)還是刑法領(lǐng)域數(shù)據(jù)法益保護(hù),網(wǎng)絡(luò)爬蟲抓取數(shù)據(jù)的正當(dāng)性、有效性都源于數(shù)據(jù)主體的授權(quán),而技術(shù)一旦被惡意使用,在技術(shù)盛行的時(shí)代帶來(lái)的傷害,也將是超過(guò)人們想像的。
標(biāo)簽: 網(wǎng)絡(luò)爬蟲 搜索引擎 控制計(jì)算機(jī)
熱門