# 爬虫系统

# 爬虫系统以及 Robots 协议

爬虫 一种自动获取网页内容的程序。是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。 robots.txt robots.txt是一个协议,不是一个命令。robots.txt是爬虫要查看的第一个文件。robots.txt 文件会告诉爬虫在服务器上什么文件是可以被查看,搜索机器人会按照该文件中的内容来确定访问的范围。

# 配置爬虫系统和开发环境

# > npm init -y
> express splider
> cd splider
> npm i
> npm install request --save-dev
> npm install cheerio --save-dev
> npm install supervisor --save-dev

# 爬虫代码实战

// /app.js
var express = require("express");
var app = express();
var request = require("request");
var cheerio = require("cherrio");

app.get("/", function(req, res) {
  request("http://www.jikexueyuan.com/", function(error, response, body) {
    $ = cheerio.load(body); // 当前$相当于网页的前端选择器
    res.json({
      classnum: $(".aside-cList li").length,
    });
  });
});
app.listen(3000);