首页 » 标签存档: 数据采集

Tag Archives: 数据采集

python采集b站弹幕逻辑及python脚本

 

-0-受brave or 皮卡丘的启发,想试试采集b站的弹幕,因为以前采集过b站的700万基础数据,所以这次觉得应该也很简单 然而。 先说逻辑:找到b站弹幕调用方式->找出调用文件或者数据接口->采集数据入库。 第一步耗费的时间最多,因为我翻了好多 … 阅读全文

火车头真的是太厉害了-采集58同城电话规则

 

最近被调岗拉去做app运营了。。所以好久都没来更新。。毕竟学习新项目了。但一直学习不产出也是个不好的习惯。决定还是更新一些内容吧。更新的内容基本就是日常生活里面学习到的知识的整理 思路和流程:58同城的电话是明文可采集的,所以只需要将url爬取后就可以采集。 … 阅读全文

怎么抓取百度结果

 

抓百度结果,最难得就是抓取到真实的url链接 这个问题以前使用python解决过,详见:python解密百度加密链接的脚本 现在又有人提出来一个新的方法,就是利用百度json的返回值,抓取真实url。参考下面的地址: https://www.baidu.com … 阅读全文

爬百度知道的话怎么跳过它自动变图片的效果

 

问题链接后面加上?device=mobile就可以出现手机版的内容了。并不会用图片来代替文字防止采集。(访问过多会直接403要注意) 恰逢道全君给了套url,测试后发现火车头并不会出现403错误。不过目前发现个问题,就是回答展示的是不全的。要全部的回答的话,就 … 阅读全文

东方同人曲收集

 

想法就是把所有东方幻想乡的原曲和同人曲都分类收集好。这样自己以后想听歌就比较方便了。目前还没有什么技术上的想法,只是先记录下来。说不定哪天就实现了呢╮(╯▽╰)╭ 收集:各大论坛平台,比如东方夜华录的资源。贴吧上的收集归类。百度搜索xxx原曲等方式,可以找到一 … 阅读全文

采集b站全网站视频播放量

 

采集b站全网站视频播放量原理: 因为b站的url都是比较有规律的,所以直接可以直接生成所有视频的url(大概700多万条),然后用火车头直接抓取播放数据就可以了。 采集b站全网站视频播放量所遇到的问题: 采集b站全网站视频播放量问题1:数据量太大,一个表格无法 … 阅读全文

python解密百度加密链接的脚本

 

发个脚本吧。因为一般百度的超链接爬下来都是未解密的,导致数据用处不大,解密后就有很多用处了 下面是代码:做了两个版本。第二个速度和稳定性更好 1、 import requests zhen = open('zhen.txt','w') for i in ope … 阅读全文