最近“20条出台”大家应该都有所了解吧?其中,没有发生疫情的地区严格按照第九版防控方案确定的范围对风险岗位、重点人员开展核酸检测,不得扩大核酸检测范围。一般不按行政区域开展全员核酸检测,只在感染来源和传播链条不清、社区传播时间较长等疫情底数不清时开展。制定规范核酸检测的具体实施办法,重申和细化有关要求,纠正“一天两检”、“一天三检”等不科学做法。

大家都在各个社交平台上发表了关于取消区域全员核酸检测的评论,有人持续,有人反对。今天我们就使用python技术来探究下,针对这个措施大家整体是支持还是反对。现在抖音是最大的社交平台,也是使用人数最多的,那么我们就获取抖音平台上关于这个措施的评论数据,首先通过关键词获取所有“20条”相关视频,然后再获取大家发表的评论数据,因为抖音出了 web 版,抓取数据方便了很多。

滑到网页评论区,在浏览器网络请求里过滤包含comment的请求,不断刷新评论就可以看到评论的接口。

有了接口,就可以写 Python 程序模拟请求,获取评论数据。因为我们请求的数据比较多,而且抖音的风控一直都很严,所以在爬取前先做了应对措施。其中最重要的就是爬虫代理IP的添加,因为现在IP属性功能的出现,网站多IP的要求更高,经过一圈测试对比最后选择了亿牛云代理,接下来就是使用亿牛云代理爬取数据的实现过程:

#! -*- encoding:utf-8 -*-

import requests
import random

# 要访问的目标页面
targetUrl = “http://httpbin.org/ip”

# 要访问的目标HTTPS页面
# targetUrl = “https://httpbin.org/ip”

# 代理服务器(产品官网 www.16yun.cn)
proxyHost = “t.16yun.cn”
proxyPort = “31111”

# 代理验证信息
proxyUser = “username”
proxyPass = “password”

proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % {
“host” : proxyHost,
“port” : proxyPort,
“user” : proxyUser,
“pass” : proxyPass,
}

# 设置 http和https访问都是用HTTP代理
proxies = {
“http” : proxyMeta,
“https” : proxyMeta,
}

# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {“Proxy-Tunnel”: str(tunnel)}

 

resp = requests.get(targetUrl, proxies=proxies, headers=headers)

print resp.status_code
print resp.text

通过获取的数据分析可以看出,这种防疫措优缺点并存,每个人的看法不一样,但健康是生存的第一要素,只有人人尊守防控疫情规定,充分理解疫情期间的得与失,才能更好的一起抗击疫情。
 
 

 

 

原文地址:http://www.cnblogs.com/mmz77-aa/p/16889500.html

1. 本站所有资源来源于用户上传和网络,如有侵权请邮件联系站长! 2. 分享目的仅供大家学习和交流,请务用于商业用途! 3. 如果你也有好源码或者教程,可以到用户中心发布,分享有积分奖励和额外收入! 4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务请大家谅解! 5. 如有链接无法下载、失效或广告,请联系管理员处理! 6. 本站资源售价只是赞助,收取费用仅维持本站的日常运营所需! 7. 如遇到加密压缩包,默认解压密码为"gltf",如遇到无法解压的请联系管理员! 8. 因为资源和程序源码均为可复制品,所以不支持任何理由的退款兑现,请斟酌后支付下载 声明:如果标题没有注明"已测试"或者"测试可用"等字样的资源源码均未经过站长测试.特别注意没有标注的源码不保证任何可用性