首页 » 标签存档: 火车头

Tag Archives: 火车头

火车头真的是太厉害了-采集58同城电话规则

 

最近被调岗拉去做app运营了。。所以好久都没来更新。。毕竟学习新项目了。但一直学习不产出也是个不好的习惯。决定还是更新一些内容吧。更新的内容基本就是日常生活里面学习到的知识的整理 思路和流程:58同城的电话是明文可采集的,所以只需要将url爬取后就可以采集。 … 阅读全文

seo前线公开课讨论群记录

 

zero: 赶集:正文出现http,收录急剧下降 百度的301非常诡异 有些词就一定要某种页面才能覆盖,所以需要多种页面覆盖同一个词。。 自适应会有些问题,知乎遇到过直接移动全消失的情况 采集内容就是要解决采集源的问题。 伪原创,不同来源的同类文章拼在一起,容 … 阅读全文

采集b站全网站视频播放量

 

采集b站全网站视频播放量原理: 因为b站的url都是比较有规律的,所以直接可以直接生成所有视频的url(大概700多万条),然后用火车头直接抓取播放数据就可以了。 采集b站全网站视频播放量所遇到的问题: 采集b站全网站视频播放量问题1:数据量太大,一个表格无法 … 阅读全文

python解密百度加密链接的脚本

 

发个脚本吧。因为一般百度的超链接爬下来都是未解密的,导致数据用处不大,解密后就有很多用处了 下面是代码:做了两个版本。第二个速度和稳定性更好 1、 import requests zhen = open('zhen.txt','w') for i in ope … 阅读全文