抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

正则表达式(regular expression,regex,RE)

  • 正则表达式是一种用来简洁表达一组字符串的表达式
  • 正则表达式是一种通用的字符串表达框架
  • 正则表达式是一种针对字符串表达“简洁”和“特征”思想的工具
  • 正则表达式可以用来判断某字符串的特征归属

定向爬虫:仅对输入URL进行爬取,不扩展爬取
中国大学排名2018

信息标记的三种形式

  • XML(eXtensible Markup Language)
  • YAML(YAML Ain’t Markup Language)
  • JSON(JaveScript Object Notation)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
import requests
from bs4 import BeautifulSoup #引入BeautifulSoup类

url = "https://python123.io/ws/demo.html"

r = requests.get(url)

print(r.status_code)

print("\n")

#demo = r.text #html格式信息

#soup = BeautifulSoup(demo,"html.parser")#使用html.parser对demo进行html解析
soup = BeautifulSoup(open(r"C:\Users\Administrator\Desktop\beautifulsoup\demo.html"))
print(soup.prettify())

BeautifulSoup官方文档

requests库入门实操

  • 京东商品页面爬取
  • 亚马逊商品页面的爬取
  • 百度/360搜索关键字提交
  • IP地址归属地查询
  • 网络图片的爬取和储存

Requests库入门

Requests库的7个主要方法

方法 说明
requests.request() 构造一个请求,支撑以下各方法的基本方法
requests.get() 获取HTML网面的方法
requests.head() 获取HTML网页头部信息的方法
requests.post() 向HTML网页提交POST请求的方法
requests.put() 向HTML页面提交PUT请求的方法
requests.patch() 向HTML网页提交局部修改请求
requests.delete() 向HTML网页提交删除请求