python 爬虫(起点)网络小说

1 先确定要爬取的小说是get 请求换是post 请求1.1先在网站上打开一篇小说:1.2 f12 进去开发者模式1.3 切换到NetWork 发现有一个空白,可以点击左侧的小说内容点击之后可以看到显示内容了如下然后点击一下,可以看到请求的方式了确认是get 请求之后,先确认电脑上是否下载2个工具 requests(负责连接网站处理http 协议) 和 bs4(bs4负责将网页变成结构化数据)没有

胡小牧

2192人浏览 · 2021-04-26 17:10:41

胡小牧 · 2021-04-26 17:10:41 发布

1 先确定要爬取的小说是get 请求换是post 请求

1.1先在网站上打开一篇小说:

1.2 f12 进去开发者模式

1.3 切换到NetWork 发现有一个空白,可以点击左侧的小说内容

NetWork 中间有没有连接的,我是重新打开然后重新f12 查看

一般都是可以看到Name 下面有连接的

确认是get 请求之后,先确认电脑上是否下载2个工具 requests(负责连接网站处理http 协议) 和 bs4(bs4负责将网页变成结构化数据)

没有的话可以下载终端中使用 pip install requests , pip install beautifulsoup4 下载,或者使用其他工具easy_install 下载

准备好之后开始写代码,

下面代码都有注释,代码很少就不多说了,

# 负责连接网站处理http 协议
import requests
# bs4负责将网页变成结构化数据
from bs4 import BeautifulSoup


def getContent():
    # 定义一个url
    url = "https://read.qidian.com/chapter/tlBx1lEZoo3djrstIrF5-w2/-hwjPfM_yFT6ItTi_ILQ7A2"
    # 获取网页的url
    req_url = requests.get(url)
    # 获取网页html信息
    req_html = req_url.text
    # bs4 处理
    bs_obj = BeautifulSoup(req_html, "html.parser")
    # find_all 匹配 div 和 class
    texts = bs_obj.find_all("div", class_="read-content j_readContent")
    # 使用text属性 过滤文字
    print(texts[0].text)


if __name__ == "__main__":
    getContent()

运行效果如下

技术共进，成长同行——讯飞AI开发者社区

更多推荐

【人工智能】启发式搜索（Heuristic Search）完全入门指南

讯飞AI开发者社区

号课堂§2.2：声明范式

声明式语言——尤其是函数式语言和逻辑式语言——擅长基于数理逻辑的应用，如人工智能、符号处理、数据库、编译器等，对基于业务逻辑的、尤其是交互式或事件驱动型的应用就不那么得心应手了。命令式编程模拟电脑运算，是行动导向的，关键在于定义解法，即“怎么做”，因而算法是显性而目标是隐性的；声明式编程模拟人脑思维，是目标驱动的，关键在于描述问题，即“做什么”，因而目标是显性而算法是隐性的。”冒号娓娓道来，“除了