Web 实验

在大致清楚 Web 的原理之后,我们通过一些实验来加深对它的印象,为之后的爬虫和服务器搭建做准备。

修改 HTML

请发挥创意,魔改一个网页,例子如下:

展示自己的列表

请用以下 Python 代码下载豆瓣电影 top250 页面 https://movie.douban.com/top250

import requests

# 这是要爬的页面的地址
url = "https://movie.douban.com/top250"

# 这一条 header 把自己伪装成了一个浏览器,这样豆瓣才会理你。各位可以试试不加 header 会发生什么。
# 具体原理,我们在之后的 `HTTP 协议和伪装` 里会讲。
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
} 

# 发送请求,带上 header 的伪装
result = requests.get(url, headers=headers)

# 把服务器返回的消息拿出来
print(result.text)

然后,你要把网页保存到本地:

with open("./website.html", "w") as f:
    f.write(result.text)

然后,你可以双击打开这个 html。它就在你的本地打开了(只不过排版有点点不对)。

请用之前的销售记录 sales.csv,把页面里每个电影的名字换成 sales.csv 数据里的人名(用前50个人名就行),效果如图所示。

请搜索 beautiful soup,并阅读文档。这是一个非常好用的处理 HTML 文件的第三方库。可以使用 pip install beautifulsoup4 进行安装。

信息汇总

请把电影的信息汇总成一个 csv 或者 excel 表格。