更新时间:2016-11-18
百度百科是基于百度平台,一种新型的、内容开放的、自由的网络百科全书,是人人都可以编辑的一种网络群体协作书写方式。学术研究中经常能看到对百度百科的引用,随着百度百科的发展壮大,这种趋势越来越明显。但是由于百度百科的弊端,学术研究对其的引用要慎之又慎。
百度百科虽然是2006年(测试版)诞生的新鲜事物,但由于其发展的迅速性、影响的显著性,对其的研究从2009年开始到今天短短的五年内,已经产生诸多的研究成果,涉及百度百科的各个方面。本文主要阐述百度百科是否科学到足以被学术研究频繁引用。笔者所说的“引用”不只是列在参考文献中这种狭义的引用,还包括将百度百科中的观点作为重要参考。学术研究对百度百科的引用,笔者所见甚多,很多专著、论文都有不同程度的引用,由于涉及隐私等问题,这里不再举例。
百度百科号称全球最大的中文百科全书,所言非虚。百度百科从2006年4月20日上线,第一个百万词条诞生的时间是2008年1月16日,2010年2月8日词条总量突破200万,2011年1月12日,词条总数突破了300万大关,2012年6月13日,第500万个词条诞生。截止2015年6月21日,已有5473878百科注册用户,一共贡献了11811909词条。可见从2010年以后百度百科获得了狂飙式的发展,2015年已经突破千万词条大关。百度百科确实是纸质的百科全书以及维基中文百科、互动百科、搜搜百科等网络百科全书无法比拟的。网络百科中最早的维基中文百科比百度百科早上线近4年,然而目前百度百科的词条数是维基的10倍以上。百度百科仅用数年的时间就达到这样的成就,一方面归功于百度搜索引擎这个整体平台,以及与百度贴吧、百度知道三位一体;另一方面就是百度百科是人人可编辑的百科全书,由全民共建、归全民共享。
1 百度百科中的问题
人人都可以编辑,编辑的门槛很低,注册了百度账号都可以编辑(即使少部分词条有四级账号的限制,但是这个要求是很好达到的),充分调动了互联网用户的力量和积极性,强调了用户的参与和奉献精神。的确在知识的汇集、交流和分享上,百度百科意义非凡。但是,正是因为人人都可以编辑,所以百度百科中存在大量的错误,而且错误产生的速度随着词条量的增加而增多。学术研究作为一种十分严谨而科学的工作,一些观点轻率的从百度百科引用,实在是值得商榷。
早在2009年百度百科上线一年(正式版),就有人发现“百度百科词条内容的质量不佳,有些词条没有被认真编辑,而只是草草的把几个版本的文字的堆砌在一起,有些词条带有明显的感情色彩,有一些词条的内容明显是从其它的网站复制过来,却不注明出处,构成版权侵权。”[1]百度百科的准确性早期就存在严重的问题,随着词条数量的迅速膨胀,越来越明显。有人根据大量的样本研究发现:“百度百科中存在着大量不成熟的词条,即没有经过一定数量用户协作写作的词条,意味着这些词条的质量很难保证。同样,百度百科少量的用户集中贡献了大量的内容,大量分散的用户贡献率较低。”[2]编辑次数越多的词条往往质量较高,大部分百科词条在创建后就无人过问或编辑次数很少;此外,极少的用户贡献了大多数的词条,原则上每个人掌握的知识量有限,存在贡献集中的情况说明词条贡献的盲目性,也就是为了创建、编辑而贡献,既是为了获得积分又是虚荣心在作祟(创建者的ID在词条页展示),而不是因为对知识的掌握和贡献,这些问题都是百度百科的硬伤。
笔者所见,不仅是学术研究一般的观点和基础理论,甚至有部分学术研究的核心观点,也是引自百度百科,作为重要的论据,长此以往,学术研究必将产生大量以讹传讹的错误,为后人所诟病。中山大学杨海文教授因研究需要查阅词条“海瑞杀女”时,发现词条中不仅“男女大防的礼教和父权就这样杀死了一个幼女”这种书说法不合理且内容又误以为《万历野获编》和《野获编外补遗》记载过此事,也没有提到记载过此事的《茶香室续钞》、《见只编》,作者深刻的指出:“现在人们求知大多依赖于网络,网络一旦错漏,就会贻害无穷。因此,网络上的“百科”需要精心编辑,以真正起到提供知识、启发智慧、造福后人的作用。”[3]又如清华大学学生发现百度百科词条中对PX的描述竟是“剧毒”,对恶意篡改行为进行客观更正,但连续几次又被人改成“剧毒”,此后,清华学生群起回应,近10人自发昼夜捍卫PX低毒属性这一科学常识,PX词条6天内被反复修改36次。[4]《北京科技报》列举了百度百科中存在的大量医疗错误,并指出“对于庞大的百度百科来说,错误的内容可能还有很多,这与创建百科的模式不无关系。百度百科属于开放性系统,用户可以注册修改条目。”[5]著名媒体人曹景行说:“百度百科搞错我的资料七年未改,建议别太依赖互联网上面搜索出来的资料。”类似的错误实际上有很多,只有极少数词条被少部分人关注并进行改正,还存在着大量的无人发现的错误一直在误导读者。
2 百度百科产生错误的原因
百度百科产生大量错误的根源一:是在百度竞价排名模式下,百度百科稳居搜索词条的第一位,必然存在各种以利益为导向的词条内容。有人指出导致百度百科出现错误的因素中,“营销账号”绝对是一个不可忽视的理由。他们可能会为了一些私利,利用百度百科人人都能撰写、修改的特点,按照自己的意愿篡改信息。[5]百度百科一方面丰富了百度社区的内容;另一方面积累了用户个性化数据,使得精确定位广告成为可能,这也能给百度带来丰厚的广告利润。[6]能通过百度百科营销推广图书[7],当然也能营销推广任何产品。
根源二:作为一个商业站点,百度百科在道义层面上存在先天劣势,所以它采取物质激励与精神激励相结合的方式。用户创建、编辑百科词条均可获得相应积分并进行荣誉升级,通过积分可以兑换奖品,还可通过参加百度百科运营官方组织的各种限时统计数量的完善词条活动,还可以展示创建者和复杂编辑者(词条变动量较大)的ID。这种机制致使很多用户依靠复制现有内容或无意义编辑来赚取积分,成就了百度百科词条数量的爆炸式增长;百度百科的很多贡献者并非知识爱好者,而仅是百度百科积分或积分奖品的爱好者,这使得百度百科的模式和百度贴吧趋于雷同。[6]
百度百科中存在大量错误的主要外在原因:审核机制。笔者是百度百科的资深用户,是其中由百度百科运营官方发起的很多团体的核心成员(包括核心用户、分类管理员、蝌蚪团、知识先锋、百科学术委员会、百科编修院、百科都察院等),对百度百科各方面的情况非常了解。很多人以为百度百科的审核是人工审核,“百度百科的审核机制则要严格得多,所有提交的编辑内容都需经过百度公司内部员工进行人工审核”[6]、“百度百科用户在提交词条和评论或编辑词条后,必须经过百度内部管理员审查才能公开内容”[1],这完全是一种想当然的想法,百度百科每天词条创建、修改的提交量如恒河沙数,日均4亿次检索,超过5万个版本,2万人参与编辑,人工审核完全不可能,百度百科作为百度中的一个一般部门,也根本没有那么多的人手,百度百科内部员工审核的只有投诉申请。
百度百科后台采用机器审核,机器审核带来的问题就是无法保证提交内容的正确性,所以我们在百度百科经常会看到“编辑战”,也就是不同观点的两个人(或两派人)围绕某一个百科词条反复的修改,争夺阵地,以致于最后百度百科运营官方不得不锁定词条。如果百度百科是人工审核,就能避免错误么?答案也是不能。即使是专家学者也不可能是百事通,更不要说百度公司的员工了,所以也不是审核是否严格的问题,每一处修改都一一核实的话,也不一定能找到正确的答案。如果没有人举报词条的错误,不会有专门人来审查,“由于百度百科有专门的后台管理人员对词条及其编辑内容进行管理和审核,其真实可靠性和学术性得到了保证”[8],也是一种误解。百度百科内容真实可靠性唯一的保障就是制造了大量错误的用户。
除了机器审核之外,最大的弊端就是百科词条内容的来源问题。百度百科从2006年开始到2012年,审核通过的主要标准就是不通过违反国家法律、色情暴力等不良内容(涉及一些敏感问题的词条内容通常会被屏蔽,在中立性和客观性上有所欠缺),其他基本上很好通过。毕竟百科在初创时期,不可能十分严格,所以就混入了许多广告宣传内容、个人自创内容等,我们也常看到一些语言不通、内容重复、内容十分简短的词条。在百度百科相对成熟之后,百度百科声明只收录有据可查的事实,从2012年之后创建词条、大篇幅的编辑词条规定必须要在对应内容后添加参考资料来源的链接。
但是一方面在2012年之前已经混入了大量没有参考资料的错误内容,已有500万词条无法保证质量,今天我们检索百度百科发现大多数词条没有参考资料就是这个原因;另一方面所谓参考资料的定义,实在是非常模糊,百度百科认为较为可靠的参考资料来源包括教科书、国家标准或公文、学术文献、权威机构的出版物、官方网站、专业网站、有广泛影响力的大众媒体等。其内容十分宽泛不说,基本上稍微正规些的网站,都可以拿来作为参考资料,而这些来源网站的内容本身可能就是错误的。绝大部分词条后面所列的参考文献不是很规范,且大多数都是网址的链接,这使得百度百科词条的原创性和质量受到很大的质疑。[9]
而且,毕竟是机器审核,如果百度百科用户弄虚作假,擅自篡改了来源网站原来的内容,参考资料列出的还是这个网站,机器也难以判断出来,一些投机的百度百科用户,为了通过个人的错误内容,采用一些与内容毫不相关的参考资料,张冠李戴,反而通过审核的情况也是比较常见的。而学术研究的引文文献即使是一个字、一个标点的错误也会导致研究结果的大相径庭。目前我们看到的百度百科参考资料,基本上都是各种网站的资料,这些网站的内容本身就是二手甚至三手资料。很多知识并不是存在于网络上的,而且存在于传统出版物上,虽然百度百科指出参考资料可以是传统出版物,但据笔者所知,百科用户中多是大段复制完成工作,真正按照传统出版物的原文摘抄到百度百科上的是凤毛麟角,即使真有这么做,也很有可能在审核无法通过,因为没有网站对照,机器无法判断所列的参考资料(传统出版物)是否是正确的。
会有人提出疑问,传统出版物的内容也不可能是百分百正确的。确实,我们从事学术研究本身就是一个探索的过程,见仁见智的情况很常见,也会导致某些错误,但毕竟比人人可以编辑的网络百科要正规的多。百度百科由于参与者的众多及人员素质参差不齐,所以其文章不可能有像传统出版物那样经过严格把关后的质量。[10]而且,百度百科的版本经常变换,没有专人维护,也没有知识产权可言,很难保证一个正确版本的延续性。学术研究某一研究方向的研究人员众多,但某一特定的研究内容均是出自一人之手。所以百度百科才会在每个百科词条内容页面添加免责说明。但由于百度百科的大量复制抄袭,侵犯他人知识产权,版权纷争是不可避免的,如百度百科与互动百科的诉讼特别引人注目。而且其开放性平台也可能成为某些别有有心者进行恶意中伤,散布他人隐私的“安全途径”。[11]
3 结语
虽然全民协同写作受到了全球网络用户的欢迎,但在百度百科充斥大小错误的情况下,学术研究对其的引用实在要慎重。笔者的建议是对百度百科中的内容,可以作为研究的线索,但切忌奉为金科玉律,盲从引用。对待其他网络百科亦是如此,百度百科的情况最为典型而已。与维基百科相比,百度百科的条目内容更通俗易懂,注重实用性,而维基百科则注重权威性和全面性,扩展性也很好,百度百科适用于一般非专业性需求用户,对于专业型用户,适宜采用中文维基百科的参考条目、扩展阅读来获得更全面的信息。[12]维基百科的可信度更高。百度百科容易出错和误导用户,对一些专业化问题或生僻知识点也可能会出现无力回答的局面;随着其影响力的增大,必然会吸引一些政治经济利益集团对其进行操控。[11]
当然百度百科做出了一定的改进工作还是值得肯定的,比如投诉系统、下放部分权力到精英团队、创办学术委员会监督词条、联合全国科技名词委推广规范的科技名词、优质词条任务等,但依然是治标不治本。投诉系统,为不少网友所诟病,投诉处理的进度非常之缓慢,而且往往得不到满意的答案。下放部分权力到精英团队,只是一些无关痛痒的权利,“109 名分类管理员负责百度百科词条的日常管理与发展建设”[13],完全是不了解百度百科运作的说法,分类管理员的权力只是推荐优秀词条到百度百科首页上而已,最关键的词条审核权利,始终把持在百度百科运营官方手中。学术委员会,是广泛联合各学科、各领域的专家学者的措施,笔者就是其中的一员,但是我们人数有限,目前一共六百余人,平摊到每个领域专家就很少了,且挂名没有实际行动的不占少数。面对数量庞大的词条库,与专业机构进行合作、依靠专家进行校对不过是杯水车薪,“院士专家编撰百度百科医疗词条”[14]的例子毕竟是少数。科技名词的政策,只实行了一段时间囊括了部分科技名词,又不了了之了。优质词条,是具有较强的知识性和专业性,且用词规范、排版美观、阐释适度、通俗易懂、符合互联网阅读习惯的词条,但往往无人核实词条知识性和专业性,判断的标准就是来源网站是否正规,排版美观、阐释适度等反而成了优质词条的重要标准,笔者编辑过一些优质词条,并不是笔者擅长的领域,但只要抓住窍门,成为优质词条并不难。
总之,百度百科还有很长的路要走,中国妇产科网创始人龚晓明先生认为“作为一个有社会责任感的企业,应该要从机制上杜绝这些事情发生,否则就成为误导老百姓的一个平台,搞技术的人没错,搞产品制定规则的人有错。”[5]学术研究更是不能轻易引用之,“只能作为入门级的参考源”[1]。
参考文献:
[1]何宇杰.开放的百科全书——百度百科评价[J].科技信息,2009(31).
[2]黄令贺,朱庆华.百科词条特征及用户贡献行为研究——以百度百科为例[J].中国图书馆学报,2013(1).
[3]杨海文.“海瑞杀女”与“百度百科”[J].社会科学论坛,2014(12).
[4]马龙.我们为什么捍卫一个词条[N].人民日报,2014-4-14.
[5]王夕.警惕百度百科中的医疗谬误[N].北京科技报,2013-5-27.
[6]罗志成,关婉湫,张勤.维基百科与百度百科比较分析[J].情报理论与实践,2009(4).
[7]张青.通过百度百科营销推广图书[J].出版参考,2011(15).
[8]杨瑞仙.Web2.0环境下的链接关系研究——以博客和百度百科为例[J].情报杂志,2013(9).
[9]夏火松,王瑞新.百度百科词条特性对知识共享意愿影响的实证研究[J].科学学研究,2010(12).
[10]刘福祥.百度百科与网络图书馆刍议[J].科技情报开发与经济,2007(20).
[11]许冠宁.“协作型”网络百科全书科技传播展望[J].科技传播,2010(4).
[12]贾君枝,李艳.中文维基百科和百度百科类目组织系统的比较分析[J].情报理论与实践,2013(6).
[13]王娜,杨建梅,李志宏.百度百科词条生产效率的评价[J].华南理工大学学报(社会科学版),2013(2).
[14]谭嘉.院士专家编撰百度百科医疗词条[N].健康报,2013-5-22.
————————————————————————————
作者:李昕升(科学网博客)
链接:http://blog.sciencenet.cn/home.php?mod=space&uid=1183006&do=blog&id=994933