「Python3爬虫」统计博客代码量

2015年11月24日5,86912

好奇了一下,一年多的OI生涯自己写了多少代码,就写个了爬虫统计

做法很暴力,直接枚举文章的编号,由于wordpress编号不连续,爬了很多404页面,以后要考虑遍历sitemap

因为我文章的代码都是用Crayon Syntax Highlighter实现高亮的,都是以</textarea>结束,比较容易能用正则匹配出来

运行了几小时,结果如下:

跟我估计的差不多,加上基础题大概只有14w的样子,与神犇们相距甚远,自然滚粗

avatar
9 Comment threads
3 Thread replies
0 Followers
 
Most reacted comment
Hottest comment thread
8 Comment authors
hzwerkyeremalprimesirnaldiwtwiioi蒟蒻 Recent comment authors
  Subscribe  
提醒
二价氢
二价氢

140k行给跪……我Github里记录的一共是28k行……

kyeremalprime

跪跪跪..不过我感觉可以先从mysql里获取有效的文章id..然后统计..因为post_id这个东西是版本控制+有效文章+草稿+媒体..但是在phpmyadmin里很好统计..

刘光哲

黄学长,请问网络流24题第八道机器人路径规划怎么搞?急求,大家都没有想法,谢谢了!

sirnald
sirnald

有论文http://wenku.baidu.com/view/ec2c5a7616fc700abb68fc8f

iwtwiioi
iwtwiioi

跪orzzzzzzzz
(另强力安利黄学长用requests库写…不要用urllib这种落后的东西了…

蒟蒻
蒟蒻

Orz……

ImGenius
ImGenius

140k嘛,实际上写个应用这都不算什么的。。。OI就是天文数字了

DQSSSSS菌

Orz

lyHHH

跪跪跪

朱子昊

跪烂