跳转至

Cheerio 教程

原文: http://zetcode.com/javascript/cheerio/

Cheerio 教程展示了如何使用 Cheerio 模块在 JavaScript 中进行网页抓取。 Cheerio 实现了为服务器设计的 jQuery 的核心。

Cheerio

Cheerio 是专门为服务器设计的核心 jQuery 的快速,灵活和精益实现。

在本教程中,我们从本地 Web 服务器上抓取 HTML。 对于本地 Web 服务器,我们使用local-web-server

index.html

<!DOCTYPE html>
<html lang="en">

<head>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width, initial-scale=1.0">
    <meta http-equiv="X-UA-Compatible" content="ie=edge">
    <title>Home page</title>
    <style>
        .fpar {
            font-family: Georgia;
        }
    </style>
</head>

<body>
    <main>
        <h1>My website</h1>

        <p class="fpar">
            I am a JavaScript programmer.
        </p>

        <p>
            My hobbies are:
        </p>

        <ul>
            <li>Swimming</li>
            <li>Tai Chi</li>
            <li>Running</li>
            <li>Web development</li>
            <li>Reading</li>
            <li>Music</li>
        </ul>
    </main>
</body>

</html>

我们将使用此 HTML 文件。

Cheerio 选择器

在 Cherrion 中,我们使用选择器来选择 HTML 文档的标签。 选择器语法是从 jQuery 借用的。

以下是可用选择器的部分列表:

  • $("*") - 选择所有元素
  • $("#first") — 用id="first选择元素
  • $(".intro") — 选择带有class="intro"的所有元素
  • $("div") - 选择所有<div>元素
  • $("h2, div, p") - 选择所有<h2>, <div>, <p>元素
  • $("li:first") — 选择第一个<li>元素
  • $("li:last") — 选择最后一个<li>元素
  • $("li:even") — 选择所有偶数<li>元素
  • $("li:odd") - 选择所有奇数<li>元素
  • $(":empty") - 选择所有为空的元素
  • $(":focus") - 选择当前具有焦点的元素

安装 Cheerio 和其他模块

我们安装了cheerio模块和两个附加模块。

$ nodejs -v
v9.11.2

我们使用 Node 版本 9.11.2。

$ sudo npm i cheerio
$ sudo npm i request
$ sudo npm i -g local-web-server

我们安装cheeriorequestlocal-web-server

$ ws
Serving at http://t400:8000, http://127.0.0.1:8000, http://192.168.0.3:8000

在项目目录中,我们有index.html文件,我们启动了本地 Web 服务器。 它会自动在三个不同的位置提供index.html文件。

Cheerio 标题

在第一个示例中,我们获得了文档的标题。

get_title.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let title = $('title');

    console.log(title.text());
});

该示例打印 HTML 文档的标题。

const cheerio = require('cheerio');
const request = require('request');

我们包括cheeriorequest模块。 使用cheerio,我们可以进行网页抓取。 使用request,我们创建 GET 请求。

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

我们向本地 Web 服务器提供的 localhost 创建 GET 请求。 该资源在body参数中可用。

let $ = cheerio.load(body);

首先,我们加载 HTML 文档。 为了模仿 jQuery,我们使用$变量。

let title = $('title');

选择器返回title标签。

console.log(title.text());

使用text()方法,我们获得title标签的文本。

$ node get_title.js 
Home page

该示例打印文档的标题。

Cheerio 获取父元素

使用parent()检索父元素。

get_parent.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let h1El = $('h1');

    let parentEl = h1El.parent();

    console.log(parentEl.get(0).tagName)
});

我们得到h1元素的父元素。

$ node get_parent.js 
main

h1的父元素是main

Cheerio 第一个&最后一个元素

cheerio对象的第一个元素可以使用first()找到,最后一个元素可以使用last()找到。

first_last.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let main = $('main');

    let fel = main.children().first();
    let lel = main.children().last();

    console.log(fel.get(0).tagName);
    console.log(lel.get(0).tagName);
});

该示例打印main标签的第一个和最后一个元素。

let main = $('main');

我们选择main标签。

let fel = main.children().first();
let lel = main.children().last();

我们从main子级中获得第一个和最后一个元素。

console.log(fel.get(0).tagName);
console.log(lel.get(0).tagName);

我们找出标签名称。

$ node first_last.js 
h1
ul

main的第一个标签是h1,最后一个标签是ul

Cheerio 添加元素

append()方法在指定标签的末尾添加一个新元素。

add_element.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let ulEl = $('ul');

    ulEl.append('<li>Travel</li>');

    let lis = $('ul').html();
    let items = lis.split('\n');

    items.forEach((e) => {
        if (e) {
            console.log(e.replace(/(\s+)/g, ''));
        }
    });
});

在示例中,我们向ul元素添加了一个新列表项,并将其打印到控制台。

ulEl.append('<li>Travel</li>');

我们增加了一个新的爱好。

let lis = $('ul').html();

我们得到ul标签的 HTML。

let items = lis.split('\n');

items.forEach((e) => {
    if (e) {
        console.log(e.replace(/(\s+)/g, ''));
    }
});

我们去除空格。 元素的文本数据包含大量空间。

$ node add_element.js 
<li>Swimming</li>
<li>TaiChi</li>
<li>Running</li>
<li>Webdevelopment</li>
<li>Reading</li>
<li>Music</li>
<li>Travel</li>

在列表的末尾附加了一个新的旅行爱好。

Cheerio 元素后插入

使用after(),我们可以在标签后插入元素。

insert_after.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    $('main').after('<footer>This is a footer</footer>')

    console.log($.html());
});

在示例中,我们在main元素之后插入一个footer元素。

Cheerio 在元素上循环

使用each(),我们可以循环遍历元素。

loop_elements.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let hobbies = [];

    $('li').each(function (i, e) {
        hobbies[i] = $(this).text();
    });

    console.log(hobbies);
});

该示例循环访问ulli标签,并打印数组中元素的文本。

$ node loop_elements.js 
[ 'Swimming',
  'Tai Chi',
  'Running',
  'Web development',
  'Reading',
  'Music' ]

这是输出。

Cheerio 获取元素属性

可以使用attr()函数检索属性。

attributes.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let fpEl = $('h1 + p');
    let attrs = fpEl.attr();

    console.log(attrs);
});

在示例中,我们获得了h1的直接同级段落的属性。

$ node attributes.js 
{ class: 'fpar' }

该段包含fpar类。

Cheerio 过滤器

我们可以使用filter()在元素上应用过滤器。

filtering.js

const cheerio = require('cheerio');
const request = require('request');

request({
    method: 'GET',
    url: 'http://localhost:8000'
}, (err, res, body) => {

    if (err) return console.error(err);

    let $ = cheerio.load(body);

    let allEls = $('*');

    let filteredEls = allEls.filter(function (i, el) {
        // this === el
        return $(this).children().length > 3;
    });

    let items = filteredEls.get();

    items.forEach(e => {
        console.log(e.name);
    });

});

在示例中,我们找到了包含三个以上子元素的文档的所有元素。

let allEls = $('*');

*选择器选择所有元素。

let filteredEls = allEls.filter(function (i, el) {
    // this === el
    return $(this).children().length > 3;
});

在检索到的元素上,我们应用过滤器。 仅当元素包含三个以上的子元素时,该元素才包含在过滤列表中。

let items = filteredEls.get();

items.forEach(e => {
    console.log(e.name);
});

我们遍历过滤后的列表并打印元素的名称。

$ node filtering.js 
head
main
ul

headmainul元素包含三个以上的子代。 不包含body,因为它仅包含一个直属子代。

在本教程中,我们使用 Cheerio 库在 JavaScript 中完成了 Web 抓取。

您可能也对以下相关教程感兴趣: JQuery 教程Moment.js 教程从 JavaScript 中的 URL 读取 JSONJavaScript 贪食蛇教程Node Sass 教程Lodash 教程


我们一直在努力

apachecn/AiLearning

【布客】中文翻译组