# 爬虫系统
# 爬虫系统以及 Robots 协议
爬虫
一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
robots.txt robots.txt
是一个协议,不是一个命令。robots.txt
是爬虫要查看的第一个文件。robots.txt 文件会告诉爬虫在服务器上什么文件是可以被查看,搜索机器人会按照该文件中的内容来确定访问的范围。
# 配置爬虫系统和开发环境
# > npm init -y
> express splider
> cd splider
> npm i
> npm install request --save-dev
> npm install cheerio --save-dev
> npm install supervisor --save-dev
# 爬虫代码实战
// /app.js
var express = require("express");
var app = express();
var request = require("request");
var cheerio = require("cherrio");
app.get("/", function(req, res) {
request("http://www.jikexueyuan.com/", function(error, response, body) {
$ = cheerio.load(body); // 当前$相当于网页的前端选择器
res.json({
classnum: $(".aside-cList li").length,
});
});
});
app.listen(3000);
← 数据推送 用 node 起一个简单的服务 →