python-scrape学习
python爬虫学习-大致框架-1
导览说明
在通过python进行信息的抓取的学习中,通过查询的B站视频整理的学习路线如下:
- py第三方requests库进行HTML源文件的抓取
- 学习python scrape四种常用框架 之一的bs4-beautifulsoup来完成对HTML中特定信息的搜集提取
- logging日志记录(为方便排错)
在1 的 requests中 get()函数、status_code函数(用法requests.get("url",headers).status_code)得到HTTP响应码判断服务器是否返回有效信息 进行异常处理
在2 的 beautifulsoup 中了解字符串格式即 f'{}' 形式,与"xxx{}xxx".format() 、'%x'%() 都为python格式化字符串的方式。不过 f'{}' 形式特别于其可以在{}中进行运算最终输出的是其运算结果。
其次,了解beautifulsoup的常用函数prettify() 格式化无序的HTML文件从而找到提取所需信息的规律方法。
目前所找到代码案例,以def分为多个模块和模块嵌套兼具异常处理进行执行。
概览
爬虫入门
- python scrape的常用库
- 四种HTML scrape的方法
附录
- 正则表达式与通配符
- 格式化字符串 f'{}'
- 从字符串切片发现的py执行结果
python scrape
python scrape的常用库
- requests --请求得到目标url网页的HTML源码
- from bs4 import beautifulsoup --爬虫解析提取数据的四种方法之一
- lxml --与beautifulsoup中的beautifulsoup("url",xx)搭配使用,确定采用何种解析HTML代码的HTML解析器
- from fake_useragent import UserAgent --请求头 中useragent的随机产生 向目标服务器发送而欺骗识别为用户浏览器请求
- openpyxl --excel读写 扩展库
四种HTML scrape的方法
- beautifulsoup
- 正则表达式
- PyQuery
- Xpath
附录
正则表达式与通配符
通配符 :替换计算机特殊符号的符号表达形式,/n 代表换行符 /t 代表tab键作用
从字符串切片发现的py执行结果
在字符串切片中:
name = "jack"
print(name[::-1])
#输出 kcaj
在倒序字符串中[x:y:z] x:起点 y:终点 z:步长(-1代表reversed)
注意:x从0开始
而无论正倒序,y所代表的终点总是要截止到序列y-1的,即:
name = "jack"
print(name[:-1:-1])
#输出为空
name = "jack"
print(name[:-2:-1])
#输出 k
而-1这个值在终点时:
name = "jack"
print(name[:-1])
#输出 jac