【Python3爬虫】统计博客代码量

2015年11月24日1,52512

好奇了一下,一年多的OI生涯自己写了多少代码,就写个了爬虫统计

做法很暴力,直接枚举文章的编号,由于wordpress编号不连续,爬了很多404页面,以后要考虑遍历sitemap

因为我文章的代码都是用Crayon Syntax Highlighter实现高亮的,都是以</textarea>结束,比较容易能用正则匹配出来

运行了几小时,结果如下:

跟我估计的差不多,加上基础题大概只有14w的样子,与神犇们相距甚远,自然滚粗

  1. 跪跪跪..不过我感觉可以先从mysql里获取有效的文章id..然后统计..因为post_id这个东西是版本控制+有效文章+草稿+媒体..但是在phpmyadmin里很好统计..