python-scrape学习

python爬虫学习-大致框架-1

导览说明

在通过python进行信息的抓取的学习中,通过查询的B站视频整理的学习路线如下:

  1. py第三方requests库进行HTML源文件的抓取
  2. 学习python scrape四种常用框架 之一的bs4-beautifulsoup来完成对HTML中特定信息的搜集提取
  3. logging日志记录(为方便排错)

在1 的 requests中 get()函数、status_code函数(用法requests.get("url",headers).status_code)得到HTTP响应码判断服务器是否返回有效信息 进行异常处理
在2 的 beautifulsoup 中了解字符串格式即 f'{}' 形式,与"xxx{}xxx".format() 、'%x'%() 都为python格式化字符串的方式。不过 f'{}' 形式特别于其可以在{}中进行运算最终输出的是其运算结果。
其次,了解beautifulsoup的常用函数prettify() 格式化无序的HTML文件从而找到提取所需信息的规律方法。
目前所找到代码案例,以def分为多个模块和模块嵌套兼具异常处理进行执行。

概览

  • 爬虫入门

    • python scrape的常用库
    • 四种HTML scrape的方法
  • 附录

    • 正则表达式与通配符
    • 格式化字符串 f'{}'
    • 从字符串切片发现的py执行结果

python scrape

python scrape的常用库

  • requests --请求得到目标url网页的HTML源码
  • from bs4 import beautifulsoup --爬虫解析提取数据的四种方法之一
  • lxml --与beautifulsoup中的beautifulsoup("url",xx)搭配使用,确定采用何种解析HTML代码的HTML解析器
  • from fake_useragent import UserAgent --请求头 中useragent的随机产生 向目标服务器发送而欺骗识别为用户浏览器请求
  • openpyxl --excel读写 扩展库

四种HTML scrape的方法

  • beautifulsoup
  • 正则表达式
  • PyQuery
  • Xpath

附录

正则表达式与通配符

通配符 :替换计算机特殊符号的符号表达形式,/n 代表换行符 /t 代表tab键作用

从字符串切片发现的py执行结果

在字符串切片中:

name = "jack"
print(name[::-1])
#输出 kcaj

在倒序字符串中[x:y:z] x:起点 y:终点 z:步长(-1代表reversed)
注意:x从0开始

而无论正倒序,y所代表的终点总是要截止到序列y-1的,即:

name = "jack"
print(name[:-1:-1])
#输出为空
name = "jack"
print(name[:-2:-1])
#输出 k

而-1这个值在终点时:

name = "jack"
print(name[:-1])
#输出 jac
posted @ 2024-07-13 23:12:00 solity_top 阅读(38) 评论(0)
发表评论
昵称
邮箱
网址