AI在线 AI在线

CMU等曝光GitHub「地下产业链」!450万个Star都是刷的

什么? Github的star居然都能是假的了,甚至数量达到了惊人的450万! 大多数的研究人员都会将自己的项目发布到Github中,以增加曝光度。

什么?Github的star居然都能是假的了,甚至数量达到了惊人的450万!

大多数的研究人员都会将自己的项目发布到Github中,以增加曝光度。项目的star也一直被大家视作是用来检验项目热度的关键指标。

但是CMU团队新近研究StarScout却实锤了Github中疑似有450万star全都是假的!

很多项目存在恶意账户去刷star,以来吸引注意,甚至在对应的项目中注入恶意代码,以攻击那些想要复现项目的研究人员。

现在有15%的可能性,一个获得50个star的仓库涉及star造假。

图片

论文链接:https://arxiv.org/abs/2412.13459

就像著名美国心理学家Donald T. Campbell所说,「任何量化社会指标在社会决策中用得越多,它就越容易腐败,就越容易扭曲和腐败它打算监测的社会进程」。

Github里高star项目这种足以风靡全球的吸引力,自然也逃不过如此规律。

如下关于GitHub仓库star数据的图表,展示了从2019年8月到2024年8月期间,每月获得至少50颗星的仓库数量(蓝色折线)以及每月疑似存在虚假星级活动的仓库数量(橙色柱状图)的变化情况。

  • 蓝色折线(#Repos>=50 star):代表每月获得至少50颗star的GitHub仓库数量。
  • 橙色柱状图(#Repos w. Suspected Campaigns):表示每月疑似存在虚假star活动的仓库数量。

图片

从图表中可以看出,虽然获得至少50颗star的仓库数量总体较为稳定,但疑似存在虚假star活动的仓库数量在近年来呈现明显上升趋势,尤其是在24年。

如果你在谷歌中搜索「buy GitHub star」,就会显示出众多这方面的服务商。其中每个star的价格,最低购买数量,star到项时间都如下表一样,明码标价。

而更令人匪夷所思的是,很多服务商甚至宣称可以在数小时之内,甚至立刻就能让项目具有足够的star。

图片

因此,GitHub库可以通过购买star来用于黑客攻击、发送垃圾邮件、求职简历造假,甚至去传播恶意软件而非法营利等有安全威胁的恶性事件。

例如这个拥有111颗star的项目,但其中109颗实际都是假的。项目的README文件(左上图)建议使用区块链应用程序,但如果执行,其代码(底部图)会使用隐藏的spawn函数来调用远程文件去执行脚本(名称为看似合法的JavaScript包)来窃取你的加密货币。

令人哭笑不得的是,项目有唯一的一个issue,大概是由受害者创建的,他警告这里隐藏着恶意软件。

图片

而真正的开发者则对这种现象十分的不理解与抵触。

「我很困惑为什么有人会想买假的GitHub star。我的意思是,有这么多假账户而不是真实的人关注你又有什么意义。」

图片

如何判定star是假的?

下述两幅图展示了涉及到假star的GitHub库对应的名称数据,分别为已删除的库和仍然存在的库。

图片

图片

可以发现,auto、bot、2024、telegram、free等都是涉嫌star欺诈的常见库名称。

而大多数已被删除的库似乎都是关于盗版软件的(加密货币机器人pixel-wallet-bot-free、Solana-Sniper-Bot)或游戏作弊(GTA5-cheat)。

下表描述了参与star欺诈活动的GitHub账户主要有哪些特征,可以看出其中没有GitHub组织、没有公司关系和没有个人网站的帐户所占比例最高。

也就是说,如果一个账户具有默认头像,也不属于GitHub上的组织,并且在其个人资料中没有任何从属关系或网站,他的项目仓库名还涉及到了上面两个词云图中的高频词的话,那么这个账户对应的仓库很大概率涉嫌star欺诈活动,甚至意图进行恶意欺诈和黑客攻击。

图片

而就star交易来讲,从以往研究文献中可知,GitHub star黑市至少以三种不同方式运作:

  • 商家可以在自己的网站、即时通讯应用程序或淘宝等电子商务平台上公开出售GitHub star。
  • GitHub用户可能会组建交换平台(如GitStar或即时通讯群组),然后对彼此的GitHub仓库进行互star操作。
  • 一个GitHub仓库可能会直接用礼物激励其广告活动的受众为仓库加star(如OceanBase所发生的情况)。

所有这些运作方式似乎都违反了GitHub的可接受使用政策,该政策禁止以下行为:

  • 不真实的互动,如虚假账户和自动的不真实活动
  • 排名滥用,如自动加星或关注
  • 由加密货币、代币、积分、礼物或其他赠品等奖励所激励的活动

在上述讨论的所有三种情况下,研究者认为这些购买、交换或受激励而获得的 GitHub star是虚假的,因为它们是人为抬高的,并不真正代表真实GitHub用户对仓库的任何真实赞赏、使用或收藏。

StarScout设计

图片

StarScout的概述图

从整体上看,StarScout在GHArchive上应用分布式算法,以从GitHub历史中定位两种异常star行为的特征:低活动特征和同步特征,这两者很可能与虚假star相关。

具体来说,低活动特征用于识别那些对一个或几个代码仓库star后便不再活跃的账户的stars;而同步特征识别来自n个账户集群的stars,这些账户在短的∆t时间窗口内反复一起对另一个包含m个仓库的集群进行star。

在虚假star与真实star之间划定明确边界并不容易,某些特殊情况,例如一个GitHub教程仓库要求读者为其点star作为教程的一部分,会增加这种区分的复杂性。

StarScout使用一个由用户和代码仓库组成的双向图(Stargazer Bipartite Graph)来处理这些特征的检测。

在低活动特征的检测中,StarScout会识别仅有一个WatchEvent(即只为一个GitHub仓库点star)以及在同一天最多一个附加事件(如ForkEvent)的账户。

尽管被检测的账户可能是由虚假star商控制的一次性机器人账户,但也可能是误判的真实用户,例如某人本来是合法注册的真实账户,但是在为一个仓库点star后就将自己的GitHub搁置了。

为了缓解这一问题,StarScout只考虑那些至少拥有50个被怀疑为虚假star的代码仓库。

这种行为是GitHub star商无法规避的,因为无论他们采用何种混淆方法,这些账户通常都是新注册的一次性账户,或者是在短时间内为多个仓库点star以满足交付承诺。

从数学角度来看,GitHub上的所有star可被建模为一个二分图:每个用户和代码仓库是一个节点,它们的star关系构成边,而star时间则作为边的属性。

如果一个虚假star商控制了一组n个账户,在承诺的交付时间内为m个代码仓库点star,那么它们将在star双向图中留下所谓的<n, m, ∆t, ρ>时间上连贯的近似二分核。

之前的一些研究也已表明,这种近似二分核于在线社交网络中很难自然形成,并且与欺诈活动高度相关。

然而,找到最大二分核的问题是NP难的。

因此,StarScout重新实现了CopyCatch,这是一种最先进的分布式局部搜索算法,曾用于Facebook检测虚假点赞。通过该算法,StarScout检测GitHub star双向图中的近似二分核。

CopyCatch从一组种子仓库(所有具有≥50颗star的仓库)开始;然后它迭代地生成一个时间中心,并增加n和m,为每个种子仓库在该时间中心内找到一个局部最大的近似二分核。最后,大于预定义n和m阈值的二分核将被视为虚假star。

虽然处理低活动特征和同步特征的两种启发式方法能够识别GitHub star数据中的显著异常模式,但并不能假定每个获得虚假star的代码仓库都是主动去获取这些star的。

例如,对于非常受欢迎的代码仓库,虚假star可能显得毫无意义。但免不了虚假账户可能故意为流行代码仓库点star,以规避平台检测。因此,后处理步骤旨在仅保留那些因虚假star激增而受益显著的代码仓库。

为此,StarScout汇总了每月的star数,并寻找符合以下条件的代码仓库:

(1) 至少有一个月获得超过50个虚假star,且虚假star比例超过50%;

(2) 所有时间段的虚假star比例(相对于所有star)超过10%。

StarScout将这些代码仓库视为发起虚假star的代码仓库,并将激增月份中点star的账户标记为参与虚假star活动的账户。

最终,StarScout在22,915个代码仓库中检测到453万个虚假star,这些star由132万个账户创建。

图片

截至2024年10月,StarScout检测到并已在GitHub上删除的仓库/账户的百分比

与基准删除比例(仓库为5.84%,用户为4.43%)相比,已检测的仓库和账户的删除比例异常较高:虚假star活动中大约91%的仓库和62%的疑似虚假账户已被删除。

图片

通过对GitHub事件分布的比较分析,研究人员发现,存在虚假star活动的仓库和账户往往更倾向于单一的star操作,其他类型活动事件的数量相较于普通仓库明显更少。

而且就算是在star活动数量上两者相近,但存在虚假star活动的账户和仓库通常仅有少量的Fork、Push和Create活动,而几乎没有Issue、PR和Comment活动。这主要是因为后三种活动相较于前三种活动更难以伪造。

假star真能以假乱真,提高热度吗?

研究者也对于假star是否能够像真star一样拥有「马太效应」进行了研究。

研究的目的探索假stars是否也能通过提高热度,以假乱真来吸引更多的用户去给出真实的star。

他们针对GitHub stars的影响制定了以下两个假设:

  • H1:积累真实的GitHub星级将有助于GitHub仓库在未来获得更多真实的 GitHub 星级。
  • H2:积累虚假的GitHub星级将有助于GitHub仓库在未来获得更多真实的GitHub星级,但效果不如真实星级强。

为了检验这两个假设,研究者通过向模型添加固定效应或随机效应项,稳健地估计了自变量对未观测到的异质性(即可能影响结果变量但未在模型中测量的因素)的纵向影响。

图片

从上表中可以看出,H1假设得到了明确支持:根据固定效应模型,在保持所有其他变量不变的情况下,月t-1真实stars增加1%与月t真实星级预期增加0.36%相关。

类似地,也可以预测出从月t到月t+1真实stars能够增加0.36%。而该效应在月t+2则降至0.15%,在随后的所有月份降至0.11%,但效应始终为正。

换句话说,拥有更多真实stars的仓库在未来往往也会获得更多真实stars,这与社交网络中普遍存在的「富者愈富」现象相呼应。

另一方面,H2假设仅得到部分支持:在保持所有其他变量不变的情况下,月t虚假stars增加1%与月t+1真实stars预期增加0.08%以及月t+2真实stars预期增加0.04%相关。

换句话说,虚假stars在接下来的两个月内对吸引真实星级确实具有统计学上显著且纵向递减的正向效应,但该效应比真实星级的效应小三到四倍。

然而,月t虚假stars增加1%与月t+2及之后所有月份真实星级平均预期减少0.05%相关。

总的来讲,购买假star可能在短期内(即两个月以内)能够帮助一个仓库获得真实的关注,但其效果比真实的star小3到4倍。而且从长期来看,这种做法无疑也会产生深远的负面影响。

最后,研究者强调,GitHub库的star指标并不是一个可靠的高质量指标,所以至少不能是高风险决策的单一参考指标。

同时,研究者也建议开发者不要为推广自己的项目而去伪造star,因为这其实无济于事。

相反,他们建议在开源领域工作的存储库维护者和初创公司创始人应该战略性地专注于促进实际项目的进步,而不是表面上夸大star的数量。也就是说如果项目实际上并不是高质量的和维护良好的,那么即使高star可能会在短期内增加项目的可见度,也终究会迅速被大家排斥。

相关资讯

GitHub代码一键转VS Code:只需+1s

被微软收购后的 GitHub,正在变得越来越易用,现在又有人把它和「宇宙第一 IDE」VS Code 紧密联系起来了。
2/9/2021 3:44:00 PM
机器之心

十大最酷的开源 Node.js AI 项目

大家好! JavaScript AI = 纯粹的疯狂。 以前总觉得做 AI 必须得进 Python 世界……没想到 Node.js 也在迅速崛起,简直逆天。
6/3/2025 12:00:01 AM
前端小智

从现在起,GitHub上超1亿开发者可直接访问全球顶级大模型,构建AI应用

GitHub 推出的全新功能「GitHub Models」将有望加快 AI 工程师时代的到来。什么?大家熟悉的代码托管平台 GitHub 又进化了!该平台也开始提供 AI 大模型的 Playgroud 了。所有你能叫得上名字的业界流行大模型,包括微软的 Phi-3、OpenAI 的 GPT-4o、Meta 的 Llama 3.1、Cohere 的 Command R 、Mistral AI 的 Mistral Large,都可以在一个交互式沙盒中试用。在未来几个月,Github 也将添加更多语言、视觉以及其他类型的
8/4/2024 9:48:00 AM
机器之心

GitHub Copilot 推出视觉功能:图片可秒变代码

GitHub 宣布了其 AI 编程助手 Copilot 的一系列重大更新,此次更新中最引人注目的功能之一是 Copilot 的“Vision”功能。该功能允许用户在聊天中上传截图、照片或图表,Copilot 将基于这些图像生成相应的界面、代码以及替代文本(alt text),从而将用户的视觉想法转化为实际的编程成果。
2/8/2025 9:30:22 AM
远洋

微软 GitHub 推出 AI 编程智能体,可自动修复漏洞和优化代码

GitHub在微软Build大会上宣布推出AI编程智能体,集成在GitHub Copilot中,可自动修复漏洞、添加功能和优化文档。该工具已向Copilot企业版和Plus用户开放。#AI编程# #GitHubCopilot#
5/20/2025 12:23:51 AM
远洋

还在为玩不了ChatGPT苦恼?这十几个开源平替也能体验智能对话

本文将为大家盘点一下 ChatGPT 的开源平替项目。
3/19/2023 1:30:00 PM
机器之心

“DeepSeek出了一个昏招!”

前两天和几个朋友聚会,有个朋友说:“DeepSeek这么厉害,为什么要开源? 美国人都知道了,那着高端显卡一练,一下子就把你超了,开源就是昏招,你看人家OpenAI就不开源。 ”我虽然当了很久的码农,也知道开源的巨大好处,但是他突然这么一说,我一时还不好反驳。
2/11/2025 9:17:57 AM
liuxin

无需邀请码,免费下载!中国五人团队三小时攻破Manus壁垒,如何做到的?

出品 | 51CTO技术栈(微信号:blog51cto)五人小团队3小时复刻出一个开源版的Manus项目,通用Agent的门槛在哪里呢? 这里为大家梳理一下OpenManus的情况,enjoy:1. 项目背景与开源情况OpenManus是一个开源项目,由国内团队仅用三小时开发完成。
3/7/2025 5:11:11 PM

告别「偏科」,UniVid实现视频理解与生成一体化

在视频生成与理解的赛道上,常常见到分头发力的模型:有的专注做视频生成,有的专注做视频理解(如问答、分类、检索等)。 而最近,一个开源项目 UniVid,提出了一个「融合」方向:把理解 生成融为一体 —— 他们希望用一个统一的模型,兼顾「看懂视频」 「生成视频」的能力。 这就像把「看图识物」和「画图创作」两件事,交给同一个大脑去做:理解一段文字 理解已有视频内容 → 再「画」出新的、连贯的视频 —— 这在技术上挑战极大。
10/21/2025 8:57:00 AM

微软放大招!VS Code转型开源AI编辑器,狙击Cursor与Windsurf

微软在Build2025大会上宣布了一项震撼举措:旗下广受欢迎的代码编辑器Visual Studio Code(VS Code)将转型为全球首款开源AI编辑器,并将GitHub Copilot Chat扩展完全开源,遵循MIT许可证。 这一战略不仅深化了微软对开源社区的承诺,还通过整合AI功能重塑开发者工具生态,对Cursor、Windsurf等竞品形成强力挑战。 AIbase综合最新动态,深入解析这一里程碑式发布的技术亮点与行业影响。
5/20/2025 9:00:55 AM
AI在线

VS Code 宣布开源 GitHub Copilot Chat 扩展,加速 AI 编程

微软在 Build2025大会上宣布了一项重大举措:Visual Studio Code(VS Code)将开源 GitHub Copilot Chat 扩展,并以 MIT 许可证发布。 这一决定标志着 VS Code 在 AI 驱动开发领域的进一步开放与创新,旨在通过社区协作打造一个透明、高效的 AI 代码编辑平台。 开源 GitHub Copilot Chat 扩展:社区驱动的 AI 创新根据最新消息,VS Code 团队计划将 GitHub Copilot Chat 扩展的代码以 MIT 许可证开源,并逐步将其核心 AI 功能整合到 VS Code 的核心架构中。
5/20/2025 10:01:11 AM
AI在线

微软开源适用于 VS Code 的 GitHub Copilot Chat 扩展,助推 AI 编程自动化

这意味着开发社区可以深入了解和洞察聊天式编码助手的完整实现,包括“智能体模式”的实现细节、发送给大型语言模型(LLM)的上下文数据以及系统提示的设计。
7/2/2025 1:37:36 PM
故渊

Anthropic发布开源代码安全审查工具,集成Claude AI模型

人工智能公司Anthropic近日在GitHub上发布了一款名为“Claude Code Security Reviewer”的开源工具。 这款工具利用其Claude AI模型,旨在帮助开发者自动检查代码中的安全漏洞,并已在GitHub上以MIT许可证开源。 根据项目描述,该工具是一款GitHub Action,能够自动扫描拉取请求(pull requests),以发现潜在的安全问题。
8/8/2025 7:34:19 AM
AI在线

刷题太遭罪怎么办?这个算法基地专为小白量身打造,还带动画

如何有效地刷算法题?刷题小白最新打卡地。算法很重要,但算法也是学起来最难,最令人生畏的。算法千千万,不知该如何下手?经常看到有人抱怨:刚开始刷题时,自己很迷茫,不知道从何刷起,也看不懂别人写的题解。思路飞来飞去,有时候以为是这个知识点重要,但有时又认为自己走错了路,结果学了半天,越刷越乱,时间、经历都白白浪费。其实,学算法,刷题蛮干是不行的,需要遵循科学的方法。学习算法可能并不只是拼智商,可以通过后天的学习进行掌握,这就需要讲究技巧。方法找对了,可以起到事半功倍的效果。近日,在 Github 上就有人开源了一个项目
3/25/2021 2:18:00 PM
机器之心

每月1万美元,OpenAI提供资助和导师,这些年轻学者在研究什么?

半年来,9 位「毕业生」完成了从转行、入门到精通的研究旅程。
5/11/2021 2:44:00 PM
机器之心

有人总结了70多个Python精选项目:再也不用去GitHub、Reddit大海捞针了

学习一门编程语言比较好的方式是听人讲课吗?还是自己钻研书本?都算是。但阅读项目和亲手实现项目绝对是进步最快的方式。
6/12/2021 12:33:00 PM
机器之心

受ChatGPT启发,10天完成能和数据聊天APP,回答问题不输本科生

现在,当你面对一堆数据再也不用感到头疼了!今天我们将要介绍的这个应用程序,它可以让你用英语和你的数据聊天,然后出结果!
12/20/2022 2:51:00 PM
机器之心

爆火Llama 2一周请求下载超15万,有人开源了Rust实现版本

前些天,Meta 发布的免费可商用版本 Llama 2,可谓在 AI 界引起了巨大的轰动。
8/1/2023 3:13:00 PM
机器之心
  • 1