python爬虫学习-大致框架-1

导览说明

在通过python进行信息的抓取的学习中，通过查询的B站视频整理的学习路线如下：

py第三方requests库进行HTML源文件的抓取
学习python scrape四种常用框架之一的bs4-beautifulsoup来完成对HTML中特定信息的搜集提取
logging日志记录（为方便排错）

在1 的 requests中 get（）函数、status_code函数（用法requests.get("url",headers).status_code）得到HTTP响应码判断服务器是否返回有效信息进行异常处理
在2 的 beautifulsoup 中了解字符串格式即 f'{}' 形式，与"xxx{}xxx".format() 、'%x'%() 都为python格式化字符串的方式。不过 f'{}' 形式特别于其可以在{}中进行运算最终输出的是其运算结果。
其次，了解beautifulsoup的常用函数prettify() 格式化无序的HTML文件从而找到提取所需信息的规律方法。
目前所找到代码案例，以def分为多个模块和模块嵌套兼具异常处理进行执行。

概览

爬虫入门
- python scrape的常用库
- 四种HTML scrape的方法
附录
- 正则表达式与通配符
- 格式化字符串 f'{}'
- 从字符串切片发现的py执行结果

python scrape

python scrape的常用库

requests --请求得到目标url网页的HTML源码
from bs4 import beautifulsoup --爬虫解析提取数据的四种方法之一
lxml --与beautifulsoup中的beautifulsoup（"url",xx）搭配使用，确定采用何种解析HTML代码的HTML解析器
from fake_useragent import UserAgent --请求头中useragent的随机产生向目标服务器发送而欺骗识别为用户浏览器请求
openpyxl --excel读写扩展库

四种HTML scrape的方法

beautifulsoup
正则表达式
PyQuery
Xpath

附录

正则表达式与通配符

通配符 ：替换计算机特殊符号的符号表达形式，/n 代表换行符 /t 代表tab键作用

从字符串切片发现的py执行结果

在字符串切片中：

name = "jack"
print(name[::-1])
#输出 kcaj

在倒序字符串中[x:y:z] x:起点 y：终点 z：步长（-1代表reversed）
注意：x从0开始

而无论正倒序，y所代表的终点总是要截止到序列y-1的，即：

name = "jack"
print(name[:-1:-1])
#输出为空
name = "jack"
print(name[:-2:-1])
#输出 k

而-1这个值在终点时：

name = "jack"
print(name[:-1])
#输出 jac

posted @ 2024-07-13 23:12:00 solity_top 阅读(99) 评论(0)

发表评论

昵称

邮箱

网址

python-scrape学习

python爬虫学习-大致框架-1

导览说明

概览

python scrape

python scrape的常用库

四种HTML scrape的方法

附录

正则表达式与通配符

从字符串切片发现的py执行结果

搜索

最新随笔

随笔分类

随笔档案

我的标签

阅读排行榜

推荐排行榜

评论排行榜

最新评论