Nova Kwok's Awesome Blog

可视化你的 GitHub 仓库数据,发掘更多的细节——GitHub Insights

GitHub 用的久了,偶尔看到一些爆款仓库(Star 数量非常多)总会有一些想要对其中数据进行分析的冲动,最早一次是在 996ICU 仓库发布的时候进行的一个小小的分析(相关博文:对 996.icu 仓库 Stargazers 的一些小的分析),当时在完成了那个仓库的分析之后便感觉——这种分析的操作应该是通用的,我们应该需要有能力可以对任意 GitHub Stargazer 进行一些分析,然而由于各种原因没有成功完成,在看到 timquan 的 timqian/star-history 之后,不禁感慨,大家手速都好快呀(跑~

Stargazer Register Times

其实对于一个 GitHub 仓库而言,除了 Stargazer 数量以外,还有很多可以用来作统计和可视化的指标,我们从一个简单的问题开始吧:

给我们仓库点 Star 的用户都是什么样子的人呢?

要回答这个问题,我们可以首先看看他们都是什么时候注册的,我们以两个仓库进行对比吧:「d3/d3」和「996icu/996.ICU」,在「d3/d3」中,用户的「注册时间-注册数量」的图是这样的:

相比较之下「996icu/996.ICU」仓库的「注册时间-注册数量」图是这样的:

对比一下可以发现 Star 「996icu/996.ICU」 仓库的用户普遍注册时间比 「d3/d3」 的要晚一些,而且在 2019 年的时候注册时间还出现了一个非常突出的点,让我们回忆一下这个仓库的上线时间同时标记一下这个仓库的 Star 数量和时间曲线图:

会发现这个项目在刚刚上线的时候有非常多的 Star,之后都比较倾向于平缓,那么那段陡增的 Star 有没有可能与这段用户有关呢?

Stargazer Avatars

有的时候,我会好奇:

给这些仓库点 Star 的人,他们的头像是怎样分布的呢?

继续用「d3/d3」和「996icu/996.ICU」作为对比,首先我们把他们的 Stargazer 数据全部拉下来,然后按照用户的 Follower 数量从小到大进行排序,并从左到右,从上到下拼接到一张图片中,就有了如下的情况,首先还是 「d3/d3」:

然后是 「996icu/996.ICU」

怎么样,有没有发现 「996icu/996.ICU」 的图片中有一个非常明显的分层?从差不多 50% 的位置,以上的部分使用 GitHub 默认头像的用户较多。

除此之外,我们是不是还可以把 Stargazer 们的 Company 生成词云,了解一下他们所在公司的信息,或者根据他们留的邮箱情况来统计一下他们的邮件服务商分布呢?

其实有很多数据等待我们去发掘,为此,我专门做了一个站点,叫 GitHub Insights,地址是 https://github.re,欢迎来参观.

由于 GitHub 仓库众多,目前的爬取策略是每天更新一次 GitHub Trending 的所有仓库并生成相关的可视化图表,后续可能会根据大家的搜索结果相关做一个分析队列,并逐渐加入更多的分析数据项,目前如果你对某个仓库感兴趣,或者希望我收录某个仓库的话,暂时可以邮件联系我进行添加~

希望你会喜欢这个工具.

#Chinese #GitHub