首页 » [停更]数据采集分析

python采集b站弹幕逻辑及python脚本

 

-0-受brave or 皮卡丘的启发,想试试采集b站的弹幕,因为以前采集过b站的700万基础数据,所以这次觉得应该也很简单 然而。 先说逻辑:找到b站弹幕调用方式->找出调用文件或者数据接口->采集数据入库。 第一步耗费的时间最多,因为我翻了好多 … 阅读全文

seo前线培训知识点:百度排名采集方法

 

1.自己想的:直接采源码,百度id显示了排名。只需要解密百度链接即可。解密方法可以见以前的文章 表示采集1万个词,会有几百个出验证码导致空白结果。 2.z大分享的json.(密码群里问)

火车头真的是太厉害了-采集58同城电话规则

 

最近被调岗拉去做app运营了。。所以好久都没来更新。。毕竟学习新项目了。但一直学习不产出也是个不好的习惯。决定还是更新一些内容吧。更新的内容基本就是日常生活里面学习到的知识的整理 思路和流程:58同城的电话是明文可采集的,所以只需要将url爬取后就可以采集。 … 阅读全文

爬百度知道的话怎么跳过它自动变图片的效果

 

问题链接后面加上?device=mobile就可以出现手机版的内容了。并不会用图片来代替文字防止采集。(访问过多会直接403要注意) 恰逢道全君给了套url,测试后发现火车头并不会出现403错误。不过目前发现个问题,就是回答展示的是不全的。要全部的回答的话,就 … 阅读全文

东方同人曲收集

 

想法就是把所有东方幻想乡的原曲和同人曲都分类收集好。这样自己以后想听歌就比较方便了。目前还没有什么技术上的想法,只是先记录下来。说不定哪天就实现了呢╮(╯▽╰)╭ 收集:各大论坛平台,比如东方夜华录的资源。贴吧上的收集归类。百度搜索xxx原曲等方式,可以找到一 … 阅读全文

采集b站全网站视频播放量

 

采集b站全网站视频播放量原理: 因为b站的url都是比较有规律的,所以直接可以直接生成所有视频的url(大概700多万条),然后用火车头直接抓取播放数据就可以了。 采集b站全网站视频播放量所遇到的问题: 采集b站全网站视频播放量问题1:数据量太大,一个表格无法 … 阅读全文

python解密百度加密链接的脚本

 

发个脚本吧。因为一般百度的超链接爬下来都是未解密的,导致数据用处不大,解密后就有很多用处了 下面是代码:做了两个版本。第二个速度和稳定性更好 1、 12345import requests zhen = open('zhen.txt','w') for i i … 阅读全文

[摘]如果有人问你数据库的原理,叫他看这篇文章

 

注:这篇文章是我在刷掘金的时候看到的,原文地址请点这里 由于并没有获得转载授权,所以这里就摘录一小段文字,以及写点自己的感悟,想看全文的还是去原文那里看吧 以下是摘录的内容 一提到关系型数据库,我禁不住想:有些东西被忽视了。关系型数据库无处不在,而且种类繁多, … 阅读全文

mysql学习第一课

 

发现很多课程的第一课都是胡吹海吹这个行业是有多么的牛。。真不愧是免费的。。   课程地址:http://www.wyzc.com/play/8640/1513/#5672 另。我学习mysql基本都用阿里云的centos7 我在安装的时候。。下了80 … 阅读全文