在线观看成人无码中文AV天堂,а天堂中文最新版在线官网,婷婷大伊香蕉五月天视频

當(dāng)前位置：首頁 > 范文|應(yīng)用文 > IT技術(shù)專欄 > 網(wǎng)絡(luò)編程

Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享

來源：易賢網(wǎng) 閱讀：976 次日期：2016-07-20 15:57:45

溫馨提示：易賢網(wǎng)小編為您整理了“Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享”,方便廣大網(wǎng)友查閱！

這篇文章主要介紹了Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享,其中作者提到了需要特別注意GBK轉(zhuǎn)碼的轉(zhuǎn)碼問題,需要的朋友可以參考下

其實寫爬蟲的思路十分簡單：

1.按照一定的規(guī)律發(fā)送 HTTP 請求獲得頁面 HTML 源碼（必要時需要加上一定的 HTTP 頭信息，比如 cookie 或 referer 之類）

2.利用正則匹配或第三方模塊解析 HTML 代碼，提取有效數(shù)據(jù)

3.將數(shù)據(jù)持久化到數(shù)據(jù)庫中

但是真正寫起這個爬蟲來，我還是遇到了很多的問題（和自己的基礎(chǔ)不扎實也有很大的關(guān)系，node.js 并沒有怎么認真的學(xué)過）。主要還是 node.js 的異步和回調(diào)知識沒有完全掌握，導(dǎo)致在寫代碼的過程中走了很多彎路。

模塊化

模塊化對于 node.js 程序是至關(guān)重要的，不能像原來寫 PHP 那樣所有的代碼都扔到一個文件里（當(dāng)然這只是我個人的惡習(xí)），所以一開始就要分析這個爬蟲需要實現(xiàn)的功能，并大致的劃分了三個模塊。

主程序，調(diào)用爬蟲模塊和持久化模塊實現(xiàn)完整的爬蟲功能

爬蟲模塊，根據(jù)傳來的數(shù)據(jù)發(fā)送請求，解析 HTML 并提取有用數(shù)據(jù)，返回一個對象

持久化模塊，接受一個對象，將其中的內(nèi)容儲存到數(shù)據(jù)庫中

模塊化也帶來了困擾了我一個下午的問題：模塊之間的異步調(diào)用導(dǎo)致數(shù)據(jù)錯誤。其實我至今都不太明白問題到底出在哪兒，鑒于腳本語言不那么方便的調(diào)試功能，暫時還沒有深入研究。

另外一點需要注意的是，模塊化時盡量慎用全局對象來儲存數(shù)據(jù)，因為可能你這個模塊的一個功能還沒有結(jié)束，這個全局變量已經(jīng)被修改了。

Control Flow

這個東西很難翻譯，直譯叫控制流（嗎）。眾所周知，node.js 的核心思想就是異步，但是異步多了就會產(chǎn)生好幾層嵌套，代碼實在難看。這個時候，你需要借助一些 Control Flow 模塊來重新整理你的邏輯。在這里就要推薦開發(fā)社區(qū)十分活躍，用起來也很順手的 async.js（https://github.com/caolan/async/）。

async 提供了很多實用的方法，我在寫爬蟲時主要用到了

1.async.eachSeries(arr, fn, callback) 依次把 arr 中的每一個元素傳給 fn，若 fn 回調(diào)沒有返回錯誤對象就繼續(xù)傳下一個，否則把錯誤對象傳給 callback，循環(huán)結(jié)束

2.async.parallel(fn[, fn] , callback) 當(dāng)所有的 fn 都執(zhí)行完成后執(zhí)行 callback

這些控制流方法給爬蟲的開發(fā)工作帶來了很大的方便?？紤]這么一個應(yīng)用場景，你需要把若干條數(shù)據(jù)插入數(shù)據(jù)庫（屬于同一個學(xué)生），你需要在所有數(shù)據(jù)都插入完成后才能返回結(jié)果，那么如何保證所有的插入操作都結(jié)束了呢？只能是層層回調(diào)保證，如果用 async.parallel 就方便多了。

這里再多提一句，本來保證所有的插入都完成這個操作可以在 SQL 層實現(xiàn)，即 transaction，但是 node-mysql 截止我使用的時候還是沒有很好的支持 transaction，所以只有自己手動用代碼保證了。

解析 HTML

在解析過程中也遇到一些問題，這里一并記錄下來。

最基本的發(fā)送 HTTP 請求獲得 HTML 代碼，使用 node 自帶的 http.request 功能即可。如果是爬簡單的內(nèi)容，比如獲得某個指定 id 元素中的內(nèi)容（常見于抓去商品價格），那么正則足以完成任務(wù)。但是對于復(fù)雜的頁面，尤其是數(shù)據(jù)項較多的頁面，使用 DOM 會更加方便高效。

而 node.js 最好的 DOM 實現(xiàn)非 cheerio（https://github.com/MatthewMueller/cheerio）莫屬了。其實 cheerio 應(yīng)該算是 jQuery 的一個針對 DOM 操作優(yōu)化和精簡的子集，包含了 DOM 操作的大部分內(nèi)容，去除了其它不必要的內(nèi)容。使用 cheerio 你就可以像用普通 jQuery 選擇器那樣選擇你需要的內(nèi)容。

下載圖片

在爬數(shù)據(jù)時，我們可能還需要下載圖片。其實下載圖片的方式和普通的網(wǎng)頁沒有太大的區(qū)別，但是有一點讓我吃了苦頭。

注意下面代碼中言辭激烈的注釋，那就是我年輕時犯下的錯誤……

var req = http.request(options, function(res){

//初始化數(shù)據(jù)！??！

var binImage = '';

res.setEncoding('binary');

res.on('data', function(chunk){

binImage += chunk;

});

res.on('end', function(){

if (!binImage) {

console.log('image data is null');

return null;

}

fs.writeFile(imageFolder + filename, binImage, 'binary', function(err){

if (err) {

console.log('image writing error:' + err.message);

return null;

}

else{

console.log('image ' + filename + ' saved');

return filename;

}

});

res.on('error', function(e){

console.log('image downloading response error:' + e.message);

return null;

});

req.end();

GBK 轉(zhuǎn)碼

另外一個值得說明的問題就是 node.js 爬蟲在爬 GBK 編碼內(nèi)容時轉(zhuǎn)碼的問題，其實這個問題很好解決，但是新手可能會繞彎路。這里就把源碼全部奉上：

var req = http.request(options, function(res) {

res.setEncoding('binary');

res.on('data', function (chunk) {

html += chunk;

});

res.on('end', function(){

//轉(zhuǎn)換編碼

html = iconv.decode(html, 'gbk');

});

req.end();

這里我使用的轉(zhuǎn)碼庫是 iconv-lite（https://github.com/ashtuchkin/iconv-lite），完美支持 GBK 和 GB2312 等雙字節(jié)編碼。

實例：爬蟲批量下載百度圖片

var fs = require('fs'),

path = require('path'),

util = require('util'), // 以上為Nodejs自帶依賴包

request = require('request'); // 需要npm install的包

// main函數(shù)，使用 node main執(zhí)行即可

patchPreImg();

// 批量處理圖片

function patchPreImg() {

var tag1 = '攝影', tag2 = '國家地理',

url = 'http://image.baidu.com/data/imgs?pn=%s&rn=60&p=channel&from=1&col=%s&tag=%s&sort=1&tag3=',

url = util.format(url, 0, tag1, tag2),

url = encodeURI(url),

dir = 'D:/downloads/images/',

dir = path.join(dir, tag1, tag2),

dir = mkdirSync(dir);

request(url, function(error, response, html) {

var data = JSON.parse(html);

if (data && Array.isArray(data.imgs)) {

var imgs = data.imgs;

imgs.forEach(function(img) {

if (Object.getOwnPropertyNames(img).length > 0) {

var desc = img.desc || ((img.owner && img.owner.userName) + img.column);

desc += '(' + img.id + ')';

var downloadUrl = img.downloadUrl || img.objUrl;

downloadImg(downloadUrl, dir, desc);

}

});

}

});

}

// 循環(huán)創(chuàng)建目錄

function mkdirSync(dir) {

var parts = dir.split(path.sep);

for (var i = 1; i <= parts.length; i++) {

dir = path.join.apply(null, parts.slice(0, i));

fs.existsSync(dir) || fs.mkdirSync(dir);

}

return dir;

}

var index = 1;

// 開始下載圖片，并log統(tǒng)計日志

function downloadImg(url, dir, desc) {

var fileType = 'jpg';

if (url.match(/\.(\w+)$/)) fileType = RegExp.$1;

desc += '.' + fileType;

var options = {

url: url,

headers: {

Host: 'f.hiphotos.baidu.com',

Cookie: 'BAIDUID=810ACF57B5C38556045DFFA02C61A9F8:FG=1;'

}

};

var startTime = new Date().getTime();

request(options)

.on('response', function() {

var endTime = new Date().getTime();

console.log('Downloading...%s.. %s, 耗時: %ss', index++, desc, (endTime - startTime) / 1000);

})

.pipe(fs.createWriteStream(path.join(dir, desc)));

}

更多信息請查看網(wǎng)絡(luò)編程

上一篇：詳解JavaScript中數(shù)組和字符串的lastIndexOf()方法使用

下一篇：JavaScript中循環(huán)遍歷Array與Map的方法小結(jié)

易賢網(wǎng)手機網(wǎng)站地址：Node.js編寫爬蟲的基本思路及抓取百度圖片的實例分享

由于各方面情況的不斷調(diào)整與變化，易賢網(wǎng)提供的所有考試信息和咨詢回復(fù)僅供參考，敬請考生以權(quán)威部門公布的正式信息和咨詢?yōu)闇剩?/div>

相關(guān)閱讀網(wǎng)絡(luò)編程

Shell中如何刪除文本比較長的行的實現(xiàn)方法10月30日

vue.js語法及常用指令10月30日

python 讀寫中文json的實例詳解10月30日

Objective-C Json 實例詳解10月30日

bootstrap table sum總數(shù)量統(tǒng)計實現(xiàn)方法10月30日

python生成二維碼的實例詳解10月30日

Python批量更改文件名的實現(xiàn)方法10月30日

解決出現(xiàn)Incorrect integer value的問題10月30日

jQuery實現(xiàn)切換隱藏與顯示同時切換圖標功能10月30日

docker python api 安裝配置的詳解10月30日

javascript按鈕禁用和啟用的效果實例代碼10月30日

vue.js todolist實現(xiàn)代碼10月30日

vue.js 父向子組件傳參的實例代碼10月30日

apache 開啟重定向 rewrite的實現(xiàn)方法10月30日

Vue.js劃分組件的方法10月30日

python logging日志模塊的詳解10月30日

vue中的scope使用詳解10月30日

docker cgroup 資源監(jiān)控的詳解10月30日

使用Android Studio 開發(fā)自己的SDK教程10月23日

linux系統(tǒng)下MongoDB單節(jié)點安裝教程10月23日

易賢網(wǎng)移動網(wǎng)站

2025國考·省考課程試聽報名

報班類型
姓名
手機號
驗證碼