Web 实验

在大致清楚 Web 的原理之后，我们通过一些实验来加深对它的印象，为之后的爬虫和服务器搭建做准备。

修改 `HTML`

请发挥创意，魔改一个网页，例子如下：

展示自己的列表

请用以下 Python 代码下载豆瓣电影 top250 页面 https://movie.douban.com/top250

import requests

# 这是要爬的页面的地址
url = "https://movie.douban.com/top250"

# 这一条 header 把自己伪装成了一个浏览器，这样豆瓣才会理你。各位可以试试不加 header 会发生什么。
# 具体原理，我们在之后的 `HTTP 协议和伪装` 里会讲。
headers = {
    "User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
} 

# 发送请求，带上 header 的伪装
result = requests.get(url, headers=headers)

# 把服务器返回的消息拿出来
print(result.text)

然后，你要把网页保存到本地：

with open("./website.html", "w") as f:
    f.write(result.text)

然后，你可以双击打开这个 html。它就在你的本地打开了（只不过排版有点点不对）。

请用之前的销售记录 sales.csv，把页面里每个电影的名字换成 sales.csv 数据里的人名（用前50个人名就行），效果如图所示。

请搜索 beautiful soup，并阅读文档。这是一个非常好用的处理 HTML 文件的第三方库。可以使用 pip install beautifulsoup4 进行安装。

信息汇总

请把电影的信息汇总成一个 csv 或者 excel 表格。

Keys	Action
`?`	Open this help
`n`	Next page
`p`	Previous page
`s`	Search

Web 实验

修改 HTML

展示自己的列表

信息汇总

修改 `HTML`