百度百科数据爬取及内容分类识别

最近在学习知识图谱相关内容，需要爬取一些结构化的数据。下面介绍如何爬取百度百科的数据并提取出有效数据代码实现。

CHQIUU

10630人浏览 · 2022-01-24 09:56:41

CHQIUU · 2022-01-24 09:56:41 发布

文章目录

前言
一、分析页面结构
二、使用步骤
- 1.引入库
- 2.读入数据

前言

最近在学习知识图谱相关内容，需要爬取一些结构化的数据。下面介绍如何爬取百度百科的数据并提取出有效数据代码实现。

一、分析页面结构

页面可以分为5个区域，如下图标注所示（聚丙烯介绍的页面结构）。
在这里插入图片描述
https://baike.baidu.com/wikitag/taglist?tagId=76613

二、使用步骤

1.引入库

代码如下（示例）：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.读入数据

代码如下（示例）：

data = pd.read_csv(
    'https://labfile.oss.aliyuncs.com/courses/1283/adult.data.csv')
print(data.head())

该处使用的url网络请求的数据。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

【愚公系列】《人工智能70年》050-生成式Al的辉煌与难题（ChatGPT惹来风波）

讯飞AI开发者社区

C++与人工智能框架

重新排列范围，使得指定位置的元素等于排序后的元素，并且左边的元素都不大于它，右边的元素都不小于它。算法的原理是 “覆盖” 要删除的元素，将保留的元素移到前面，返回新的逻辑尾迭代器，但。对范围内的每个元素应用一个函数，并将结果存储在另一个范围内。移除范围内连续的重复元素，返回新的逻辑结尾迭代器。旋转范围内的元素，使中间元素成为新的第一个元素。这些算法不会改变它们所操作的容器中的元素。这些算法会修改它

讯飞AI开发者社区

AI解码自动驾驶大数据，安全再升级

自动驾驶汽车每天产生海量数据，包括传感器数据、环境信息、驾驶决策日志等。这些数据通过人工智能技术分析，能够显著提升交通安全、优化驾驶策略并预防潜在风险。以下是具体方法和技术实现。自动驾驶汽车配备多种传感器如LiDAR、摄像头、雷达等，每秒生成数GB数据。通过以上技术手段，人工智能不仅提高了单车安全性，还能通过车联网实现群体智能优化，为整个交通系统带来革命性改进。某自动驾驶公司通过分析10万公里驾驶