2017-09-18

node爬虫简书文章~

node爬虫简书文章,用的是Sequelize存到数据库里

先建一个database,命名为’jianshu’

建完后大概就是这样的结构

config.js

const config = {
    database: 'jianshu',
    username:'root',
    password: 'root', 
    host: 'localhost', 
    port: 3306 
};

module.exports = config;

model.js

const config = require('./config');
const Sequelize = require('Sequelize');
const sequelize = new Sequelize(config.database, config.username, config.password, {
  host: config.host,
  dialect: 'mysql',
  pool: {
    max: 5,
    min: 0,
    idle: 30000
  }
});
let Content = sequelize.define('Content', {
  id: {
    type: Sequelize.INTEGER,
    primaryKey: true,
    autoIncrement: true,    
  },
  author: Sequelize.STRING(255),
  title: Sequelize.STRING(255),
  summary: Sequelize.TEXT,
  wachedCount: {
    type:Sequelize.BIGINT,
    defaultValue:0
  },
  content: Sequelize.TEXT,
  realContentHref: Sequelize.STRING(100),
  shareTime: Sequelize.STRING(50),
  createdTime: Sequelize.BIGINT,
  updatedTime: Sequelize.BIGINT
}, {
    timestamps: false
  });

module.exports = Content;

jianshu.js

const superagent = require('superagent');
const cheerio = require('cheerio');
const fs = require('fs');
const path = require('path');
const request = require('request');
const async = require('async');
const ContentModel = require('./model'); //引入数据库模型
let jianshuUrl = 'http://www.jianshu.com';
let specialUrl = 'http://www.jianshu.com/recommendations/collections?utm_medium=index-collections&utm_source=desktop';
//替换url
let replaceSpecialUrl = (str) => {
  return `${jianshuUrl}${str}`
};
//替换str
let replaceStr = (str) => {
  return str.replace(/(^\s+)|(\s+$)/g, '');
}

//获取专题简书专题
let getSpecialJson = async () => {
  console.log('<---------- 获取简书的专题开始 -------->');
  let specialJson = [];
  return new Promise((resolve, reject) => {
    superagent.get(specialUrl).end((err, res) => {
      if (err) console.log(err);
      let $ = cheerio.load(res.text);
      let collectionWrap = $('#list-container .collection-wrap');
      collectionWrap.each((i, e) => {
        let specialAvatar = replaceSpecialUrl($(e).find('a:first-child img').attr('src'));
        let specialHref = replaceSpecialUrl($(e).find('a:first-child').attr('href'));
        let specialName = $(e).find('a:first-child .name').text();
        specialJson.push({
          specialAvatar: specialAvatar,
          specialHref: specialHref,
          specialName: specialName
        });
        console.log(`正在获取专题名字:${specialName}`)
      })
      resolve(specialJson);
    })
  })
}
//获取文章的概要集合
let getSpecialSummaryJson = async () => {
  console.log('<---------- 获取专题数据开始 -------->');
  let specialJson = await getSpecialJson();
  let result = [];
  let concurrencyCount = 0;
  let getCount = 0;
  return new Promise((resolve, reject) => {
    let queue = async.queue((specialJson, callback) => {
      let delay = parseInt((Math.random() * 30000000) % 1000, 10);
      concurrencyCount++;
      superagent.get(specialJson.specialHref).end((err, res) => {
        if (err) {
          console.log(err);
          callback(null);
        } else {
          let $ = cheerio.load(res.text);
          let dataList = $('.note-list li');
          concurrencyCount--
          dataList.each((i, e) => {
            let avatar = $(e).find('.content .avatar img').attr('src');
            let author = replaceStr($(e).find('.content .name').text());
            let title = $(e).find('.content .title').text();
            let summary = replaceStr($(e).find('.content .abstract').text());
            let realContentHref = replaceSpecialUrl($(e).find('.content .title').attr('href'));
            let shareTime = $(e).find('.content .time').attr('data-shared-at');
            let watchedCount = replaceStr($(e).find('.content .meta a:first-child').text());
            let pushData = {
              author: author,
              avatar: `http:${avatar}`,
              title: title,
              summary: summary,
              realContentHref: realContentHref,
              shareTime: shareTime,
              watchedCount: watchedCount
            };
            // console.log(pushData.realContentHref,pushData.watchedCount)
            console.log(`正在获取的是:${title} 并发数:${concurrencyCount} 延迟:${delay}毫秒`);
            getCount++;
            result.push(pushData)
          })
          callback(null)
        }
      })
    }, 1)
    queue.drain = function () {
      // console.log(result);
      resolve(result)
    }
    queue.push(specialJson)
  })
};
//获取文章的正文集合
let getRealContentJson = async () => {
  let specialSummaryJson = await getSpecialSummaryJson();
  let concurrencyCount = 0;
  let writeCount = 0;
  let realContentJson = [];
  return new Promise((resolve, reject) => {
    let queue = async.queue((specialSummaryJson, callback) => {
      let delay = parseInt((Math.random() * 30000000) % 1000, 10);
      concurrencyCount++;
      superagent.get(specialSummaryJson.realContentHref).end((err, res) => {
        if (err) {
          console.log(err);
          callback(null);
        } else {
          let $ = cheerio.load(res.text);
          let content = '';
          let essay = $('.show-content>p').each((i, e) => {
            content += $(e).text();
          })
          realContentJson.push({
            content: content,
            author: specialSummaryJson.author,
            summary: specialSummaryJson.summary,
            avatar: specialSummaryJson.avatar,
            watchedCount: specialSummaryJson.watchedCount,
            realContentHref:specialSummaryJson.realContentHref,
            shareTime: specialSummaryJson.shareTime,
            summary:specialSummaryJson.summary,
            title:specialSummaryJson.title
          })
          // console.log(specialSummaryJson.watchedCount,specialSummaryJson.realContentHref)
          callback(null)
        }
      })
    }, 1)
    queue.drain = () => {
      console.log('<---------------获取正文数据完成--------------->')
      resolve(realContentJson);
    };
    queue.push(specialSummaryJson);
  })
};

let writeRealContent = async () => {
  let realContentJson = await getRealContentJson();
  let concurrencyCount = 0;
  let queue = async.queue((realContentJson, callback) => {
    let delay = parseInt((Math.random() * 30000000) % 1000, 10);
    concurrencyCount++;
    let DateNow = Date.now();
    ContentModel.create({
      author: realContentJson.author,
      avatar: realContentJson.avatar,
      title: realContentJson.title,
      summary:realContentJson.summary,
      content: realContentJson.content,
      watchedCount: realContentJson.watchedCount,
      shareTime: realContentJson.shareTime,
      realContentHref: realContentJson.realContentHref,
      createdTime: DateNow,
      updatedTime: DateNow,
    }).then(function (result) {
      console.log(`写入标题为${result.title}的文章成功!`);
    }).catch(function (err) {
      console.log('failed: ' + err);
    });
    setTimeout(() => {
      concurrencyCount--;
      callback(null);
    }, delay)
  }, 1);
  //任务队列执行完成的回调
  queue.drain = () => {
    console.log('全部写入完成');
  }
  //加入任务队列
  queue.push(realContentJson);
}
writeRealContent();