Node.js編寫(xiě)爬蟲(chóng)的基本思路及抓取百度圖片的實(shí)例分享
來(lái)源:易賢網(wǎng) 閱讀:867 次 日期:2016-07-20 15:57:45
溫馨提示:易賢網(wǎng)小編為您整理了“Node.js編寫(xiě)爬蟲(chóng)的基本思路及抓取百度圖片的實(shí)例分享”,方便廣大網(wǎng)友查閱!

這篇文章主要介紹了Node.js編寫(xiě)爬蟲(chóng)的基本思路及抓取百度圖片的實(shí)例分享,其中作者提到了需要特別注意GBK轉(zhuǎn)碼的轉(zhuǎn)碼問(wèn)題,需要的朋友可以參考下

其實(shí)寫(xiě)爬蟲(chóng)的思路十分簡(jiǎn)單:

1.按照一定的規(guī)律發(fā)送 HTTP 請(qǐng)求獲得頁(yè)面 HTML 源碼(必要時(shí)需要加上一定的 HTTP 頭信息,比如 cookie 或 referer 之類(lèi))

2.利用正則匹配或第三方模塊解析 HTML 代碼,提取有效數(shù)據(jù)

3.將數(shù)據(jù)持久化到數(shù)據(jù)庫(kù)中

但是真正寫(xiě)起這個(gè)爬蟲(chóng)來(lái),我還是遇到了很多的問(wèn)題(和自己的基礎(chǔ)不扎實(shí)也有很大的關(guān)系,node.js 并沒(méi)有怎么認(rèn)真的學(xué)過(guò))。主要還是 node.js 的異步和回調(diào)知識(shí)沒(méi)有完全掌握,導(dǎo)致在寫(xiě)代碼的過(guò)程中走了很多彎路。

模塊化

模塊化對(duì)于 node.js 程序是至關(guān)重要的,不能像原來(lái)寫(xiě) PHP 那樣所有的代碼都扔到一個(gè)文件里(當(dāng)然這只是我個(gè)人的惡習(xí)),所以一開(kāi)始就要分析這個(gè)爬蟲(chóng)需要實(shí)現(xiàn)的功能,并大致的劃分了三個(gè)模塊。

主程序,調(diào)用爬蟲(chóng)模塊和持久化模塊實(shí)現(xiàn)完整的爬蟲(chóng)功能

爬蟲(chóng)模塊,根據(jù)傳來(lái)的數(shù)據(jù)發(fā)送請(qǐng)求,解析 HTML 并提取有用數(shù)據(jù),返回一個(gè)對(duì)象

持久化模塊,接受一個(gè)對(duì)象,將其中的內(nèi)容儲(chǔ)存到數(shù)據(jù)庫(kù)中

模塊化也帶來(lái)了困擾了我一個(gè)下午的問(wèn)題:模塊之間的異步調(diào)用導(dǎo)致數(shù)據(jù)錯(cuò)誤。其實(shí)我至今都不太明白問(wèn)題到底出在哪兒,鑒于腳本語(yǔ)言不那么方便的調(diào)試功能,暫時(shí)還沒(méi)有深入研究。

另外一點(diǎn)需要注意的是,模塊化時(shí)盡量慎用全局對(duì)象來(lái)儲(chǔ)存數(shù)據(jù),因?yàn)榭赡苣氵@個(gè)模塊的一個(gè)功能還沒(méi)有結(jié)束,這個(gè)全局變量已經(jīng)被修改了。

Control Flow

這個(gè)東西很難翻譯,直譯叫控制流(嗎)。眾所周知,node.js 的核心思想就是異步,但是異步多了就會(huì)產(chǎn)生好幾層嵌套,代碼實(shí)在難看。這個(gè)時(shí)候,你需要借助一些 Control Flow 模塊來(lái)重新整理你的邏輯。在這里就要推薦開(kāi)發(fā)社區(qū)十分活躍,用起來(lái)也很順手的 async.js(https://github.com/caolan/async/)。

async 提供了很多實(shí)用的方法,我在寫(xiě)爬蟲(chóng)時(shí)主要用到了

1.async.eachSeries(arr, fn, callback)  依次把 arr 中的每一個(gè)元素傳給 fn,若 fn 回調(diào)沒(méi)有返回錯(cuò)誤對(duì)象就繼續(xù)傳下一個(gè),否則把錯(cuò)誤對(duì)象傳給 callback,循環(huán)結(jié)束

2.async.parallel(fn[, fn] , callback)  當(dāng)所有的 fn 都執(zhí)行完成后執(zhí)行 callback

這些控制流方法給爬蟲(chóng)的開(kāi)發(fā)工作帶來(lái)了很大的方便??紤]這么一個(gè)應(yīng)用場(chǎng)景,你需要把若干條數(shù)據(jù)插入數(shù)據(jù)庫(kù)(屬于同一個(gè)學(xué)生),你需要在所有數(shù)據(jù)都插入完成后才能返回結(jié)果,那么如何保證所有的插入操作都結(jié)束了呢?只能是層層回調(diào)保證,如果用 async.parallel 就方便多了。

這里再多提一句,本來(lái)保證所有的插入都完成這個(gè)操作可以在 SQL 層實(shí)現(xiàn),即 transaction,但是 node-mysql 截止我使用的時(shí)候還是沒(méi)有很好的支持 transaction,所以只有自己手動(dòng)用代碼保證了。

解析 HTML

在解析過(guò)程中也遇到一些問(wèn)題,這里一并記錄下來(lái)。

最基本的發(fā)送 HTTP 請(qǐng)求獲得 HTML 代碼,使用 node 自帶的 http.request 功能即可。如果是爬簡(jiǎn)單的內(nèi)容,比如獲得某個(gè)指定 id 元素中的內(nèi)容(常見(jiàn)于抓去商品價(jià)格),那么正則足以完成任務(wù)。但是對(duì)于復(fù)雜的頁(yè)面,尤其是數(shù)據(jù)項(xiàng)較多的頁(yè)面,使用 DOM 會(huì)更加方便高效。

而 node.js 最好的 DOM 實(shí)現(xiàn)非 cheerio(https://github.com/MatthewMueller/cheerio) 莫屬了。其實(shí) cheerio 應(yīng)該算是 jQuery 的一個(gè)針對(duì) DOM 操作優(yōu)化和精簡(jiǎn)的子集,包含了 DOM 操作的大部分內(nèi)容,去除了其它不必要的內(nèi)容。使用 cheerio 你就可以像用普通 jQuery 選擇器那樣選擇你需要的內(nèi)容。

下載圖片

在爬數(shù)據(jù)時(shí),我們可能還需要下載圖片。其實(shí)下載圖片的方式和普通的網(wǎng)頁(yè)沒(méi)有太大的區(qū)別,但是有一點(diǎn)讓我吃了苦頭。

注意下面代碼中言辭激烈的注釋?zhuān)蔷褪俏夷贻p時(shí)犯下的錯(cuò)誤……

var req = http.request(options, function(res){

  //初始化數(shù)據(jù)!??!

  var binImage = '';

  res.setEncoding('binary');

  res.on('data', function(chunk){

   binImage += chunk;

  });

  res.on('end', function(){

   if (!binImage) {

    console.log('image data is null');

    return null;

   }

   fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){

    if (err) {

     console.log('image writing error:' + err.message);

     return null;

    }

    else{

     console.log('image ' + filename + ' saved');

     return filename;

    }

   });

  });

  res.on('error', function(e){

   console.log('image downloading response error:' + e.message);

   return null;

  });

 });

 req.end();

GBK 轉(zhuǎn)碼

另外一個(gè)值得說(shuō)明的問(wèn)題就是 node.js 爬蟲(chóng)在爬 GBK 編碼內(nèi)容時(shí)轉(zhuǎn)碼的問(wèn)題,其實(shí)這個(gè)問(wèn)題很好解決,但是新手可能會(huì)繞彎路。這里就把源碼全部奉上:

var req = http.request(options, function(res) {

  res.setEncoding('binary');

  res.on('data', function (chunk) {

  html += chunk;

  });

  res.on('end', function(){

  //轉(zhuǎn)換編碼

  html = iconv.decode(html, 'gbk');

  });

 });

 req.end();

這里我使用的轉(zhuǎn)碼庫(kù)是 iconv-lite(https://github.com/ashtuchkin/iconv-lite),完美支持 GBK 和 GB2312 等雙字節(jié)編碼。

實(shí)例:爬蟲(chóng)批量下載百度圖片

var fs = require('fs'), 

 path = require('path'), 

 util = require('util'), // 以上為Nodejs自帶依賴包 

 request = require('request'); // 需要npm install的包 

// main函數(shù),使用 node main執(zhí)行即可 

patchPreImg(); 

// 批量處理圖片 

function patchPreImg() { 

 var tag1 = '攝影', tag2 = '國(guó)家地理', 

  url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=', 

  url = util.format(url, 0, tag1, tag2), 

  url = encodeURI(url), 

  dir = 'D:/downloads/images/', 

  dir = path.join(dir, tag1, tag2), 

  dir = mkdirSync(dir); 

 request(url, function(error, response, html) { 

  var data = JSON.parse(html); 

  if (data && Array.isArray(data.imgs)) { 

   var imgs = data.imgs; 

   imgs.forEach(function(img) { 

    if (Object.getOwnPropertyNames(img).length > 0) { 

     var desc = img.desc || ((img.owner && img.owner.userName) + img.column); 

     desc += '(' + img.id + ')'; 

     var downloadUrl = img.downloadUrl || img.objUrl; 

     downloadImg(downloadUrl, dir, desc); 

    } 

   }); 

  } 

 }); 

// 循環(huán)創(chuàng)建目錄 

function mkdirSync(dir) { 

 var parts = dir.split(path.sep); 

 for (var i = 1; i <= parts.length; i++) { 

  dir = path.join.apply(null, parts.slice(0, i)); 

  fs.existsSync(dir) || fs.mkdirSync(dir); 

 } 

 return dir; 

var index = 1; 

// 開(kāi)始下載圖片,并log統(tǒng)計(jì)日志 

function downloadImg(url, dir, desc) { 

 var fileType = 'jpg'; 

 if (url.match(/\.(\w+)$/)) fileType = RegExp.$1; 

 desc += '.' + fileType; 

 var options = { 

  url: url, 

  headers: { 

   Host: 'f.hiphotos.baidu.com', 

   Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'

  } 

 }; 

 var startTime = new Date().getTime(); 

 request(options) 

  .on('response', function() { 

   var endTime = new Date().getTime(); 

   console.log('Downloading...%s.. %s, 耗時(shí): %ss', index++, desc, (endTime - startTime) / 1000); 

  }) 

  .pipe(fs.createWriteStream(path.join(dir, desc))); 

}

更多信息請(qǐng)查看網(wǎng)絡(luò)編程
由于各方面情況的不斷調(diào)整與變化,易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考,敬請(qǐng)考生以權(quán)威部門(mén)公布的正式信息和咨詢?yōu)闇?zhǔn)!
關(guān)于我們 | 聯(lián)系我們 | 人才招聘 | 網(wǎng)站聲明 | 網(wǎng)站幫助 | 非正式的簡(jiǎn)要咨詢 | 簡(jiǎn)要咨詢須知 | 加入群交流 | 手機(jī)站點(diǎn) | 投訴建議
工業(yè)和信息化部備案號(hào):滇ICP備2023014141號(hào)-1 云南省教育廳備案號(hào):云教ICP備0901021 滇公網(wǎng)安備53010202001879號(hào) 人力資源服務(wù)許可證:(云)人服證字(2023)第0102001523號(hào)
云南網(wǎng)警備案專(zhuān)用圖標(biāo)
聯(lián)系電話:0871-65317125(9:00—18:00) 獲取招聘考試信息及咨詢關(guān)注公眾號(hào):hfpxwx
咨詢QQ:526150442(9:00—18:00)版權(quán)所有:易賢網(wǎng)
云南網(wǎng)警報(bào)警專(zhuān)用圖標(biāo)