论文总字数:18875字
目 录
1研究背景及其意义: 6
1.1研究背景 6
1.1.1国外研究现状 6
1.1.2国内研究现状 6
1.2研究意义 7
2.研究方法和数据: 7
2.1 数据采集 7
2.2研究思路和方法 9
3 数据分析模型 10
3.1线性相关分析 10
3.2多重共线性分析和多元线性回归分析及预测 10
3.2.1多重共线性 10
3.2.2多元线性回归 10
3.3逐步回归分析模型——重要影响因素筛选 11
4.结果分析 11
4.1基于二元相关的论文零被引影响因素分析 11
4.2基于多元回归的论文零被引影响因素分析 12
4.3论文零被引论文数量的预测分析 15
5.结论 17
参考文献: 18
致谢 19
普赖斯获得者论文零被引的影响因素及预测分析
蒋璐
,China
Abstract:At present,with the continuous improvement of the ability of subject research, the number of scientific papers also increased. However, not every piece of paper will be of the reference, so the zero cited also can be the inevitable phenomenon. Firstly, get the number of zero cited papers and the factors affecting it from the web of science. Then take correlation analysis based on the data and Select the five influence factors of high: Total number of documents, citation rates, reference by others, the average cited of article, h index. Secondly, take multiple linear regression analysis on the relationship between the number of zero cited papers and the factors affecting it to select the key influencing factors through spss, also forecast analysis. The analysis results show that: the goodness of fit of the regression reached 92% which shows that total number of documents, citation rates, reference by others, the average cited of article, h index are main factors and total number of documents, citation rates are the most factors.
Keywords: The Price;multiple linear regression;Multiple linear regression;Zero cited;influencing factors
1研究背景及其意义:
1.1研究背景
1.1.1国外研究现状
1948年,科学计量学之父普赖斯(Price)开始了关于物理学论文数量增长现象的研究,并且绘制了著名的普赖斯曲线,揭示了科学文献增长规律。紧接着,发表了一篇关于科学论文的零被引率估计的论文,其中他清晰指出论文在出版后给定的引用年内,35%的论文未受到任何引用的现象是比较常见的,在论文出版后10年时间内,仍然会有10%的论文未受到任何引用。从而得出结论“任何学科或任何地方出版的论文中,总会有一些从未受到任何引用的论文”[1]。20世纪70年代,国外学者开始逐步发表关于论文零被引现象的文献,例如Garfield,E的Importance of Not Being,GHOSH J.S的 Uncitedness of articles in nature等都详细描述了零被引现象,由此开启了零被引研究的时代。1991年,当零被引现象被大众认可时,美国西顿霍尔大学(Seton Hall University)Richard E. Stern开始了关于零被引的影响因素的研究,在他发表的“Uncitedness in the Biomedical Literature”的论文中,以354篇文献为基础,分析了被引文献和零被引文献在文献作者数量、标题词数量、关键词数量、参考文献数量、期刊年龄等特征值的平均值之间的区别,从而得出结论:参考文献数量对论文能否被引的影响最大,而其它特征对其影响较小。20世纪90年代开始,国外关于零被引的文献逐渐增多,2011年,Leo Egghe与其他研究者进行了一个关于75 位诺贝尔奖和菲尔兹奖得主的论文及其引用数据的实证研究,该研究结论表明,即使是在科学界有很高造诣的科学家们,他们的论文也会存在10%的论文没有被引用的情况。也得出了其H指数与论文零被引数量之间的正相关关系,然而它们采用的是最直观的图像法,没有定量也没有模型构建。此外还有一个小遗憾就是他们采用H指数的数据和零被引论文数量的测算时间存在一点差异性,对结论或多或少也产生了一丝影响。从20世纪90年代开始发表的文献已经是从50年代至80年代发表的文章总数量的4倍之多,这数据的快速增长,也可足够说明零被引现象开始受到了国外学者的重视[2]。
1.1.2国内研究现状
20世纪90年代中山大学罗式胜发表了一篇文章“引证分析的几个计量指标及其应用”[6],在文中,他提出了新的指标,比如相对被引率,未被因论文占有率,而且新颖地提出了“无”的概念,无形中提醒了我们“无”所存在的价值,从而提出了“未被引用文献是否具有价值”这样一个令人深思的问题。
尽管国内的研究比国外晚了将近40年,但是近年来国内也出现了很多研究零被引影响因素的案例,例如徐晓芹学者曾经发表过《零被引论文产生的原因分析》——以《植物营养与肥料学报》为例,它最后得出“稿件质量问题会严重影响到零被引论文的数量”的结论[9]。其结论类似于2012年职桂叶等人发表的一篇名为“《中国水稻科学》发表后两年零被引论文分析”,该文章最后也表明零被引论文的出现是有多种原因的,而其根本原因则是论文的质量问题,论文的总引用的次数和下载次数能较客观地衡量论文的质量[7]。这两位学者的共同点是,他们都在单独的一个领域开始研究,并且其研究因素是定性因素,并非直接用数据来清晰说明。而后国内的学者付晓霞等人(2012)基于数据也对此进行了研究,他们以2000~2009年SCI收录中国科技论文的期刊数据为基础,对不同影响因子区段期刊文章的零被引数据进行了统计与分析,从而得出了零被引率并未随期刊IF的增高而降低的结论[10]。然而这个结果与国外学者得出的结论并不一致,经由再一步的分析后,将原因总结为:作者当时未明确区分文献类型,零被引时间界定不清晰,以及中外差异(如语言风格、文章阅读和引用人群等)。2015年,魏瑞斌发表了一篇文章,“学术期刊零被引现象的实证研究”——以图书情报学期刊为例,它提出了关于计算期刊零被引率的方法,然后进行了实证研究,提出了很多零被引的影响因素,例如,论文选题,论文发表期刊名望,作者知名度,还有期刊H指数等因素[8],所以在进行分析过程中,我将这些影响因素也作为了重点考虑的部分。
1.2研究意义
在这个知识就是财富的时代,很多学者不仅会进一步加深对已知领域的探索,而且也会迈出其他领域的研究步伐,而其中最为有效方法就是寻找关于研究领域的文献然后进行阅读和分析。然而在数以万计的文献中,必然会出现从未被引用过的论文,这些论文有的可能是因为质量不佳,有的可能是因为内容复杂,引用者不能深入理解其含义,有的可能只是因为众所周知而没有被引用,当然还有可能论文的隐藏价值未被发现等等其他因素。零被引在科学研究中是一个十分普遍的问题,对它的研究势必不可能视而不见。该研究是在之前的文献基础上总结规律的基础上,构建零被引模型,利于以后对零被引现象的讨论,也解决了为了查找零被引论文数量一个一个页面查找的问题,简单而易行。
本文是关于普赖斯奖获得者论文零被引的研究,是从单独的一类人群中,放大到总体,研究论文零被引的影响因素。以上所提到的论文大多都是以某个领域为主要研究又或者是某一类期刊作为研究目标,然而并不具有普遍性。所以我希望本文的研究是从一个普遍性的角度入手给大家一个研究方向,不再是用一个定性的方法去描述这样一个影响因素,而是在以明确可靠的数据为基础建立一个科学的、合理性高的定量化的影响因素分析与预测模型,对零被引率影响因素进行定量化分析和预测。我认为零被引现象与经济学中的长尾效应有着惊人的相似。长尾是指那些分布在尾部的需求,它们是一些零散的,少量的,个性化的要求。而正是因为这些个体需求,往往就会在需求曲线上面形成一条长长的“尾巴”,即使这些个体需求较低,但是当这些非流行的市场全部累加之后就会形成一个与流行市场相当甚至比流行市场还大的市场。所以这些零被引论文就是那些“个性化的,零散的小量的想法”,而这些个性化的想法往往以后的发展中可能创造出更多的科学价值。所以我认为本文的价值就是为了在未来的研究中也可以根据其他因素更快地估计出论文零被引的数量,而不必依次在数据库中进行检索然后计算,在一定程度上节约了时间与人力。
2.研究方法和数据:
基于研究其他文献的基础上,我们将普莱斯获得者论文零被引数量定为分析和预测的研究对象,通过对以上所提文献的分析,初步将影响因素选定为以下几个,文献数量,被引频次总计,他引次数,篇均被引,H指数,学术生涯,合作影响力合作论文的篇均被引,所选作者作为第一作者时的合作影响力(剔除自引),作者合作偏好和零被引论文数量。
2.1 数据采集
在数据采集方面,我主要采用的是文献研究和网络调查的定性分析方法,寻找其可能的影响因素并且将它们罗列出来。然后分析相关文献梳理出了其中主要的九个因素。它们分别是文献数量,被引频次总计,他引次数,篇均被引,学术生涯,H指数,合作影响力合作论文的篇均被引,所选作者作为第一作者时的合作影响力(剔除自引),作者合作偏好等因素。 文献数量,被引频次总计,他引次数,篇均被引,学术生涯这五个因素,是通过数据库搜索即可直接得出的数据,而H指数,合作影响力合作论文的篇均被引,所选作者作为第一作者时的合作影响力(剔除自引),作者合作偏好等因素,是在获取了前几年的相关数据的基础上经过预测分析得出的。零被引论文数量该指标,是通过外文数据库web of science,经由检索式搜索而出。例如,要找出普赖斯奖获得者Moravcsik MJ的零被引论文数量,检索式为AU=("Moravcsik MJ") AND AD=("OR 97403 USA" OR “OR USA”),又或者要找出VLACHY, J的零被引论文数量,检索式设定为AU=("VLACHY J*”) AND AD=(“Czech Republic" OR “Czechoslovakia”)其他检索式都是以此类推,一一检索查找得出。在整理表格的时候,为了保证数据的一致以及清晰度,篇均被引,合作影响力(合作论文的篇均被引,剔除自引),所选作者作为第一作者时的合作影响力(剔除自引),作者合作偏好该四个因素的数据值统一设为小数点后两位,(下图是查找并且经过整理的普莱斯奖获得者论文零被引影响因素的数据表格)。
表1(1) 普赖斯奖获得者零被引影响因素数据
文献数量 | 被引频次总计 | 他引 | 篇均被引 | H指数 | 学术生涯 | |
Garfield E*(2012-6-26) | 532 | 3345 | 2591 | 6.29 | 38 | 30 |
Moravcsik MJ | 74 | 497 | 451 | 6.72 | 12 | 14 |
Braun T | 259 | 3547 | 3064 | 13.69 | 29 | 38 |
Braun T(as a scientometricor) | 83 | 1662 | 1481 | 20.02 | 22 | 29 |
Braun T(as a chemistriors) | 176 | 1913 | 1630 | 10.87 | 22 | 38 |
Small H | 47 | 1454 | 1374 | 30.94 | 17 | 37 |
Narin F | 28 | 1268 | 1218 | 45.29 | 18 | 18 |
Brookes BC | 36 | 213 | 210 | 5.92 | 7 | 21 |
VLACHY, J | 13 | 67 | 56 | 5.15 | 5 | 33 |
Schubert A | 165 | 3095 | 2838 | 18.76 | 28 | 40 |
van Raan AFJ | 56 | 1280 | 1194 | 22.86 | 20 | 14 |
Merton RK | 16 | 899 | 890 | 56.19 | 10 | 70 |
Irvine John | 33 | 673 | 608 | 20.39 | 15 | 12 |
Martin Ben | 52 | 743 | 669 | 14.29 | 15 | 33 |
Belver C. Griffith | 14 | 497 | 493 | 35.5 | 9 | 15 |
GLANZEL,Wolfgang | 168 | 3271 | 2727 | 19.47 | 30 | 29 |
Moed H F | 71 | 1768 | 1691 | 24.9 | 24 | 26 |
Rousseau R | 187 | 1929 | 1629 | 10.32 | 24 | 36 |
Egghe L | 166 | 1669 | 1322 | 10.05 | 19 | 34 |
Leydesdorff L | 174 | 3004 | 2276 | 17.26 | 29 | 31 |
Ingwersen P | 67 | 1394 | 1294 | 20.81 | 17 | 30 |
Howard D. White (USA) | 55 | 1575 | 1452 | 28.64 | 17 | 34 |
Katherine W. McCain (USA) | 62 | 1582 | 1460 | 25.52 | 18 | 28 |
Péter Vinkler (Hungary) | 64 | 847 | 663 | 13.23 | 18 | 38 |
合作影响力(合作论文的篇均被引,剔除自引) | 所选作者作为第一作者时的合作影响力(剔除自引) | 作者合作偏好(与一个或多个作者合作的论文数占总论文数的比例 | 0被引论文数量 | |
Garfield E*(2012-6-26) | 12.08 | 6.78 | 0.05 | 190 |
Moravcsik MJ | 10.52 | 5.33 | 0.31 | 29 |
Braun T | 18.00 | 5.33 | 0.81 | 43 |
Braun T(as a scientometricor) | 18.63 | 14.11 | 0.87 | 43 |
Braun T(as a chemistriors) | 9.08 | 10.76 | 0.80 | 43 |
Small H | 44.82 | 64.82 | 0.36 | 9 |
Narin F | 42.85 | 36.31 | 0.96 | 0 |
Brookes BC | 6.00 | 0.00 | 0.06 | 13 |
VLACHY, J | 3.50 | 0.00 | 0.15 | 7 |
Schubert A | 20.43 | 21.27 | 0.73 | 30 |
van Raan AFJ | 15.31 | 14.20 | 0.58 | 9 |
Merton RK | 98.25 | 11.00 | 0.24 | 0 |
Irvine John | 18.23 | 13.69 | 0.94 | 2 |
Martin Ben | 15.29 | 26.33 | 0.73 | 4 |
Belver C. Griffith | 62.57 | 34.00 | 0.50 | 1 |
GLANZEL,Wolfgang | 14.61 | 18.95 | 0.86 | 28 |
Moed H F | 20.66 | 33.00 | 0.79 | 8 |
Rousseau R | 7.96 | 6.42 | 0.74 | 42 |
Egghe L | 9.04 | 7.49 | 0.33 | 28 |
Leydesdorff L | 12.65 | 10.00 | 0.67 | 40 |
Ingwersen P | 14.30 | 5.80 | 0.64 | 16 |
Howard D. White (USA) | 38.81 | 56.81 | 0.47 | 7 |
Katherine W. McCain (USA) | 26.48 | 9.25 | 0.44 | 21 |
Péter Vinkler (Hungary) | 10.73 | 17.00 | 0.23 | 8 |
Michel Zitt (France) | 13.97 | 17.43 | 0.91 | 9 |
表1(2) 普赖斯奖获得者零被引影响因素数据
剩余内容已隐藏,请支付后下载全文,论文总字数:18875字
该课题毕业论文、开题报告、外文翻译、程序设计、图纸设计等资料可联系客服协助查找;