大众闲谈

先知:评论的数据目前没有采集,要采集也能实现。

打开开发者工具找到加密字体

image-20220822232904562

再去找到这个字体的font-family

image-20220822233048352

把鼠标放到css结尾的链接上面,你可以看到,这个链接

image-20220822233311427

通过这个链接下载这个woff字体文件并且保存到同层文件夹

分析Html文件

Html文件head标签里面会有链接,通过正则表达式提取出来,前面加上http通过request模块把它下载到本地

image-20220822235316175

name&&id&&class

通过字典的关系实现相互映射(font.xml文件),最后通过正则表达式替换源码中的加密字体

1
2
3
4
# 替换列表页面的字体反爬内容
sub_old = '<d class="num">&#{};<'.format(info)
sub_new = '<d class="num">{}<'.format(v)
self.list_html = re.sub(sub_old, sub_new, self.list_html)

最后就是常规的提取了,就这么简单,需要源码私信我

结果展示

image-20220823000440773