SciHub|SciHub下载量成论文影响力指标:能被下载的论文被引次数高出72%
鱼羊 发自 凹非寺
量子位 报道 | 公众号 QbitAI
嗑盐的你 , 用过Sci-hub吗?
作为一个能免费看论文的学术搜索引擎 , Sci-hub是科研人员的秘宝 , 同时 , 却也是学术出版商眼中的大毒瘤 。
现在 , 有人站出来 , 用统计数据为Sci-hub正名:
能通过Sci-hub下载的文章的被引次数 , 是Sci-hub上下不到的文章的1.72倍 。
也就是说 , Sci-hub的下载量 , 已经成为论文影响力的重要指标 。
本文插图
这个结果一公布 , 立刻引发了网友的共鸣:
我总要先能看文章 , 然后才能引用啊 。
本文插图
Sci-hub , 让文章更具影响力
这项针对Sci-hub影响力的研究 , 被研究人员们公开放在了arXiv上 。
研究人员认为 , Sci-hub作为一个闻名全球的项目 , 对于学术体系中的所有人都影响深远 。
因为它能绕过大多数学术出版商的付费墙 , 实际上增强了论文的潜在影响力 。
他们希望通过数据证明 , Sci-hub的下载量与论文未来的引用量是正相关的 。
本文插图
数据集
研究人员为此准备了两个数据集 , 其中包含Nature、Science在内的12种顶级期刊上发表的文章信息 , 横跨神经科学、经济学等多个领域 。
第一个数据集包含2015年9月至2016年2月这段时间内 , 能从Sci-hub上下载到的所有文章 。
第二个数据集则来自传统的Scopus数据库 , 包含同一时段内 , 在选定期刊上发表的所有文章 。
并且 , 通过跟第一个数据集的对照 , 研究人员筛掉了其中能在Sci-hub上下载的文章 , 使其仅包括无法通过Sci-hub免费获取的论文 。
对于每一篇论文 , 研究人员都统计了其中图表的数量 。 另外 , 还统计了每篇论文第一作者和通讯作者的H-index、每本期刊的影响因子 , 以及每个作者所属国家的研究资源等数据 。
本文插图
研究结果
根据引文统计分布 , 文章引用次数超过2000次的论文被视作离群值 。
研究人员通过最小二乘法、离群值影响、带有工具变量的稳健回归、异方差校正等等一系列广义加成模型来评估关系的敏感性 。
在控制了所有的偏差来源之后 , 结果显示 , 能从Sci-hub下载的论文的被引次数 , 是不能从Sci-hub下载的论文的1.72倍(p
本文插图
并且 , Sci-hub下载量越高 , 论文的被引次数也越高 。
在所有选定的期刊和涉及的学科中 , Sci-hub的影响都很明显 。
另外 , 结果也表明 , 图表丰富的论文更容易被引用 。
本文插图
研究人员认为 , 这样的Sci-hub效应具有多重意义 。
第一 , 除了作为一个面对全球开放存取的「线上图书馆」 , Sci-hub的下载量也可以作为一个重要的参考数据 , 用以预测论文未来的引用量 。
第二 , Sci-hub效应的存在 , 表明论文的版权限制 , 很可能会阻碍科研人员的工作 。
在过去的几十年里 , 不仅通过像Sci-hub这样的途径「盗版」的科学论文越来越多 , arXiv这样的开放预印本论文平台也越来越受到科研人员的认可 。
不过 , 矛盾的是 , Sci-hub的存在也可能反过来维护了当前的出版系统——当人们有途径能获取免费论文时 , 对封闭出版系统带来的限制感知就没有那么强烈了 。
推荐阅读
- 电脑使用技巧|写论文要注意什么问题?
- 青年|ICML 2020论文贡献榜排名出炉:Google单挑斯坦福、MIT、伯克利;清华进TOP 20
- 学术桥|高中生获得全国科创大赛一等奖的项目,竟与硕士毕业论文高度雷同
- 中年|机器学习必读TOP 100论文清单:高引用、覆盖面广丨GitHub 21.4k星
- 互联网|下载量第一+收入全球第三,网友:现在就属它最挣钱
- |北理工研二一作获杰出论文,大陆论文量前三,ICML 2020各奖项出炉
- 学术|从“第一篇论文”到“最后一篇论文”,走好AI产研融合创新之路
- 行业互联网|从“第一篇论文”到“最后一篇论文”,走好AI产研融合创新之路
- |专访ACL2020最佳论文二作:全新NLP模型评测方法论,思路也适用于CV
- 中年|ACL 2020:微软最佳论文,Bengio论文获时间检验奖,大陆论文量第二