【Python3爬虫】统计博客代码量

2015年11月24日2,83912

好奇了一下,一年多的OI生涯自己写了多少代码,就写个了爬虫统计

做法很暴力,直接枚举文章的编号,由于wordpress编号不连续,爬了很多404页面,以后要考虑遍历sitemap

因为我文章的代码都是用Crayon Syntax Highlighter实现高亮的,都是以</textarea>结束,比较容易能用正则匹配出来

运行了几小时,结果如下:

跟我估计的差不多,加上基础题大概只有14w的样子,与神犇们相距甚远,自然滚粗

  • 朱子昊2015年11月25日 下午1:20 回复

    跪烂

    #1  
  • lyHHH2015年11月25日 下午6:46 回复

    跪跪跪

    #2  
  • DQSSSSS菌2015年11月25日 下午6:54 回复

    Orz

    #3  
  • ImGenius2015年11月25日 下午9:04 回复

    140k嘛,实际上写个应用这都不算什么的。。。OI就是天文数字了

    #4  
  • 蒟蒻2015年11月26日 下午1:11 回复

    Orz……

    #5  
  • iwtwiioi2015年11月28日 下午12:38 回复

    跪orzzzzzzzz
    (另强力安利黄学长用requests库写…不要用urllib这种落后的东西了…

    #6  
    • hzwer2015年11月28日 下午5:26 回复
      admin

      下次注意QAQ

      #61
  • 刘光哲2015年11月30日 下午1:57 回复

    黄学长,请问网络流24题第八道机器人路径规划怎么搞?急求,大家都没有想法,谢谢了!

    #7  
    • sirnald2015年12月1日 上午9:45 回复

      有论文http://wenku.baidu.com/view/ec2c5a7616fc700abb68fc8f

      #71
  • kyeremalprime2015年12月2日 下午8:32 回复

    跪跪跪..不过我感觉可以先从mysql里获取有效的文章id..然后统计..因为post_id这个东西是版本控制+有效文章+草稿+媒体..但是在phpmyadmin里很好统计..

    #8  
    • hzwer2015年12月2日 下午9:16 回复
      admin

      对。。。

      #81
  • 二价氢2015年12月18日 下午6:32 回复

    140k行给跪……我Github里记录的一共是28k行……

    #9