苏莉安 - 几件小事 - 知乎

都是以前提过的,但也没承诺过什么时候做。现在总算是抽出时间搞好了,跟大家说一声。

1、看知乎网站搬回国内

凭心而论我也不愿意换,但网站和爬虫一起搬回国内应该是长久稳定访问的最佳方案了。而网站在国内就要备案,备案过程中域名必须保持二十几天的不可访问状态(鬼知道什么规矩),于是我索性换了个新的,原来的http://kanzhihu.com也直接跳了过来(更新,经过长达一个多月的新备案时间之后,现在可以用原域名了)。

不知道大家现在访问速度怎么样,有没有比以前稳定些。有情况随时告知我就行。

2、开源爬虫

https://github.com/atonasting/zhihuspider

这估计是好多人垂涎很久的东西,就是「看知乎」网站后台自动每日更新的爬虫源码,用node.js编写,附带数据库初始化脚本。按照里面的操作步骤你也可以复制一个「看知乎」,或者单纯地抓取数据,假以时日,就能有足够的数据进行分析了。

具体方法还是去看README吧,里面不仅有部署的步骤和一些技巧,还有原理讲述。通过阅读源码(虽然质量不怎么高),自己改造或重写爬虫估计也不是什么难事。

3、开放API

有许多人询问我看知乎有没有手机APP,其实是有的,但版本很旧了,而且也并不是我开发的。我只是做了一套简易的API。最近对这套API进行了简单的优化,估计暂时能承受稍多的访问量了,于是开放给大家使用。

API文档:http://www.kanzhihu.com/api-document

其中既有「看知乎」官网文章发布相关的API,也有用户排行和用户信息相关,就算不做APP,对单纯的数据分析也是很有帮助的。辅以用户动态,应该能做很多事了。

这套API暂时不做身份验证和访问限制(因为懒),甚至不必使用POST,直接GET访问即可。但最好有节制些,免得把网站搞垮了,大家都没得玩。

就这些,有什么疑问就在下面交流吧。

来到知乎这两年也没有什么别的,大概三件事:一个,在各领域写了几百个长短不一但都很用心的答案;第二个,搞了几次分析报告,激发了不少人对数据的兴趣;第三个,就是「看知乎」。如果说还有一点成绩就是打击揭露了一些劣质营销与僵尸粉,对影响知乎的整体氛围有一定的关系。后来又搞了个点赞关系查看,等于变相参与了一些热点事件。还有上半年的微信转载维权,但这些都是次要的。我主要的贡献就是上面三件事情,很惭愧,就做了一点微不足道的小事,谢谢大家。


Original url: Access
Created at: 2018-11-23 15:32:25
Category: default
Tags: none

请先后发表评论
  • 最新评论
  • 总共0条评论