Loading...

我从黑客新闻那里学到的东西

Original

2009年2月

黑客新闻两周年了。它最初是一个副业项目——一个用来提高 Arc 编程语言的应用程序,以及现有和未来 Y Combinator 创 始人交流信息的地方。它的规模比我预期的更大,也占用了更多 的时间,但我并不后悔这一点,因为我从中学到了很多东西。

增长

我们在 2007 年 2 月推出时,工作日的流量约为 1600 个独立用 户。它已经增长到 约 22,000 个。这个增长率有点高于我希望的。我希望这个网站能 够增长,因为一个没有至少缓慢增长的网站可能已经死亡了。但我 不希望它像 Digg 或 Reddit 那样大规模增长,主要是因为这会稀 释这个网站的性格,而且我也不想花所有时间来处理扩展的问题。

我已经有足够的问题了。记住,HN 的最初动机是测试一种新的编程 语言,而且这个语言更关注于语言设计的实验,而不是性能。每当网 站变慢时,我都会坚持 McIlroy 和 Bentley 的名言

"性能的关键在于优雅,而不是特殊情况的大军。"

并寻找可以用最少的代码消除的瓶颈。到目前为止,我一直能够跟上, 性能一直保持中等水平,尽管增长了 14 倍。我不知道下一步会怎么 做,但我可能会想出办法。

这就是我对这个网站的整体态度。黑客新闻是一个实验,而且是一个 非常年轻领域的实验。这种类型的网站只有几年的历史。互联网对话 总的来说也才几十年的历史。所以我们可能只发现了最终会发现的一 小部分。

这就是为什么我对 HN 如此乐观。当一项技术如此年轻时,现有的解 决方案通常很糟糕;这意味着最终一定能做得更好;这意味着许多看起 来无法解决的问题实际上是可以解决的。包括我希望能解决的一个问 题:被增长破坏。

稀释

用户从这个网站几个月大的时候就一直担心这个问题。到目前为止这些 警报都是虚假的,但可能不会一直如此。稀释是一个难题。但可能是可 以解决的;这并不意味着开放式对话"一直"被增长所破坏,因为"一直" 只等于 20 次实例。

但重要的是要记住,我们正试图解决一个新问题,这意味着我们将不得 不尝试新的事物,其中大部分可能行不通。两周前,我尝试用橙色显示 平均评论分数最高的用户名。[1]这是一个错误。突然之间,一个 本来大致统一的文化变成了有和没有的。我没有意识到这个文化有多统 一,直到我看到它被分裂了。这让人痛心。[2]

所以橙色用户名不会回来了。(对不起。)但未来会有同样令人不安的 想法,而最终证明有效的想法可能会和那些无效的一样令人不安。

我学到的最重要的一课可能就是,稀释是通过行为而不是用户来衡量的。 你更想阻挡的是不良行为而不是坏人。用户行为原来是出奇的容易被改 变的。如果人们被期望 良好行为,他们往往会表现良好;反之亦然。

当然,禁止不当行为确实倾向于阻挡坏人,因为他们在一个必须良好行 为的地方会感到不自在。但这种方式保留他们的方式更温和,可能也更 有效。

现在很清楚,破窗理论也适用于社区网站。这个理论认为,轻微的不良 行为会鼓励更严重的行为:一个到处有涂鸦和破窗户的邻里会变成一个 发生抢劫的地方。当朱利亚尼引入让这个理论出名的改革时,我正居住 在纽约,这种转变是神奇的。当相反的情况发生在 Reddit 上时,转变 同样戏剧性。

我并不是在批评 Steve 和 Alexis。发生在 Reddit 上的事并不是由于 疏忽。从一开始,他们就有一个只审查垃圾信息的政策。另外,Reddit 与 Hacker News 有不同的目标。Reddit 是一家初创公司,而不是一个 副业项目;它的目标是尽快增长。将快速增长和零审查结合起来,结果 就是一片混乱。但我不认为他们如果再做一遍会有太大不同。从流量来 衡量,Reddit 要比 Hacker News 成功得多。

但 Reddit 遭遇的情况不会不可避免地发生在 HN 上。有几个局部最大 值。既可以有一片混乱,也可以有更有思考的地方,就像现实世界一样; 人们会根据他们所处的环境而表现不同,就像在现实世界一样。

我在野外观察到了这一点。我看到在 Reddit 和 Hacker News 上交叉 发帖的人,他们实际上费心写了两个版本,一个是为 Reddit 提供的煽 动性版本,另一个是为 HN 提供的更温和的版本。

投稿

一个像黑客新闻这样的网站需要避免的两个主要问题是:糟糕的新闻和 糟糕的评论。到目前为止,糟糕新闻的危险似乎较小。主页上的新闻大 致与 HN 刚开始时的新闻相同。

我曾经认为我需要对投票加权,以保持前页上的内容不那么糟糕,但到 目前为止我还没有这样做。我没有预料到前页会如此经得起考验,也不 太确定原因是什么。也许只有更有思考的用户才够热情去提交和顶帖, 所以一个随机新用户的边际成本接近于零。或者也许是前页保护了自己, 广告显示了期望的投稿类型。

对于首页来说,最危险的就是那些很容易获得upvote的内容。如果有人证明了一个新定理,读者需要一些工作才能决定是否upvote。一个有趣的漫画就需要更少的工作。一篇标题写着呼吁口号的言论只需要零工作,因为人们会在没有读过的情况下就upvote。

因此,我称之为"浮华原则":在一个用户投票的新闻网站上,最容易判断的链接将占据主导地位,除非你采取特定措施来阻止它。

黑客新闻有两种防护浮华的方法。最常见的浮华链接被列为与主题无关而被禁止。小猫的图片、政治演讲等被明确禁止。这可以排除大部分浮华,但并非全部。有些链接虽然很短,但也符合主题。

这没有单一的解决方案。如果一个链接只是一篇空洞的言论,编辑有时会将其删除,即使它符合"黑客"这一主题,因为它不符合唤起读者智力好奇心的标准。如果一个网站上的帖子大多如此,我有时会禁止它,这意味着来自该网址的新内容会被自动删除。如果一篇文章的标题有"点击诱饵"的性质,编辑有时会将其改写为更中性的措辞。当标题带有呼吁口号的性质时,这尤其必要,因为否则它们会变成隐性的"如果你相信某某,就upvote"的帖子,这是最极端形式的浮华。

处理链接的技术必须不断演进,因为链接本身也在不断变化。内容聚合器的存在已经影响了它们所聚合的内容。作者现在会有意识地写一些内容,以吸引来自聚合器的流量--有时甚至是针对特定的聚合器。(不,我没有忽视这一陈述的讽刺意味。)还有更阴险的变种,如链接劫持--发布某人文章的parapha,并提交这个而不是原文。这些可能会获得很多upvote,因为文章中的精华部分通常还会存在;事实上,paraph越接近剽窃,存留的内容就越多。 [3]

我认为,一个会删除提交内容的网站,应该为用户提供一种方式,让他们能看到被删除的内容(如果他们想看的话)。这可以保持编辑的诚实,也同样重要的是,让用户有信心知道,如果编辑不再诚实,他们也能发现。HN用户可以通过切换个人资料中的"showdead"开关来做到这一点。 [4]

评论

糟糕的评论似乎是一个比糟糕的投稿更难解决的问题。尽管HN首页的链接质量没有太大变化,但中位数评论的质量可能有所下降。

评论中的糟糕主要有两种:恶意和愚蠢。它们之间存在很多重叠--恶意评论往往也更容易是愚蠢的--但应对它们的策略是不同的。恶意更容易控制。你可以制定规则,禁止人们恶意,如果执行得当,似乎就可以抑制住恶意。

抑制愚蠢就更难,也许是因为愚蠢不太容易区分。恶意者更有可能知道自己在恶意,而愚蠢者不一定知道自己在愚蠢。

最危险的愚蠢评论不是错误的长论点,而是无谓的笑话。长篇错误论点实际上非常罕见。评论质量和长度之间有很强的相关性;如果你想比较社区网站上的评论质量,平均长度会是一个不错的预测指标。这可能源于人性,而不是评论线程的特点。也许就是因为愚蠢更多地表现为缺乏思想,而不是错误思想。

无论原因如何,愚蠢的评论往往比较短。而且,由于很难用简短的评论来体现信息量,人们就试图通过幽默来区分自己。最诱人的愚蠢评论形式是所谓的妙语,可能是因为贬低别人是最容易的幽默形式。 [5] 所以禁止恶意的一个好处就是,也可以减少这些。

糟糕的评论就像kudzu一样:它们会迅速占据主导地位。评论对新评论的影响要远大于投稿对新投稿的影响。如果有人提交了一篇劣质文章,其他投稿并不会因此全部变差。但如果有人在一个线程上发了一条愚蠢的评论,那就会影响周围的评论。人们会用愚蠢的笑话回复愚蠢的笑话。

也许解决的办法是,在人们回复评论之前加上一个延迟,并根据对评论质量的预测,使延迟时间成反比。这样愚蠢的线程就会增长得更慢。 [6]

人物

我注意到,我描述的大多数技术都是保守的:它们旨在保护网站的特性,而不是增强它。我不认为这是我的偏见。这是由于问题的形状决定的。黑客新闻幸运地一开始就很不错,所以在这种情况下,这确实是一个保护的问题。但我认为,这一原则也适用于起源不同的网站。

社区网站的优点主要来自于人,而不是技术;在预防坏东西方面,技术才会发挥作用。技术当然可以增强讨论。嵌套评论就是一个例子。但我宁愿使用原始功能但用户很聪明和友好的网站,而不是使用更先进但用户是白痴或网络骚扰者的网站。

所以,社区网站最重要的就是吸引它想要的那种人。一个想要尽可能大的网站,想吸引所有人。但一个瞄准特定用户群的网站,必须吸引那些人--同样重要的是,排斥其他人。我在HN上有意这样做。图形设计尽可能简单,网站规则也抑制了夸张的链接标题。目标是,对于第一次来到HN的人,唯一能引起他们兴趣的就是那里表达的想法。

吸引特定人群到网站的缺点是,对于这些人来说,网站可能过于吸引人。我深知黑客新闻(Hacker News)有多么上瘾。对我和许多用户来说,它就像一个虚拟广场。当我想休息一下工作时,我就会走进这个广场,就像在哈佛广场或大学大道那样。

但是在线广场比实体广场更危险。如果我在大学大道上闲逛半天,我会注意到。我得走一英里才能到那里,在咖啡馆里坐着感觉与工作完全不同。但访问一个在线论坛只需要一次点击,感觉上非常像工作。你可能在浪费时间,但你并没有闲着。互联网上有人错了,你正在解决这个问题。

黑客新闻确实很有用。我从HN上读到的东西中学到了很多东西。我写的几篇文章最初都是HN上的评论。所以我不希望这个网站消失。但我希望确保它不会成为生产力的负担。那将是一场大灾难,吸引数千名聪明人到一个让他们浪费大量时间的网站上。我希望能百分之百确定这不是HN的情况。

我觉得游戏和社交应用的成瘾性仍然是一个大多数未解决的问题。现在的情况就像上世纪80年代的可卡因毒品:我们发明了非常上瘾的新东西,但我们还没有找到保护自己的方法。我们最终会做到,这也是我希望下一步关注的问题之一。

注释

[1] 我尝试根据用户的平均和中位数评论得分进行排名,平均得分(去掉最高分)似乎是更准确的高质量预测指标。不过中位数可能是更准确的低质量预测指标。

[2] 从这个实验中我还学到了一件事,就是如果你要区分不同的人,你最好确保做得正确。这是一个问题,快速原型制作并不起作用。

事实上,这是不区分不同类型的人的知识性论点。不这样做的理由不是每个人都一样,而是做错了是不好的,做对却很难。

[3] 当我发现严重的链接劫持帖子时,我会用他们抄袭的内容的URL替换掉。经常链接劫持的网站会被禁。

[4] Digg以缺乏透明度而臭名昭著。问题的根源并非Digg的运营者特别狡猾,而是他们使用了错误的算法来生成首页。与Reddit上从底部冒上来的故事一样,在Digg上故事是从顶部开始,被新的条目推下去。

这种差异的原因在于,Digg源于Slashdot,而Reddit源于Delicious/热门。Digg是Slashdot加上投票而非编辑,而Reddit是Delicious/热门加上投票而非书签。(你仍然可以在他们的图形设计中看到它们起源的化石。)

Digg的算法非常容易被操纵,因为进入首页的任何故事都是新的头条新闻。这反过来又迫使Digg采取极端的对策。许多初创公司都有某种秘密,关于他们不得不在早期采取的欺骗手段,我猜Digg的秘密就是头条故事实际上是由人工编辑选出来的程度。

[5] Beavis和Butthead的对话大部分都是这样的,当我读到真的很糟糕的网站上的评论时,我就能听到他们的声音。

[6] 我怀疑大多数抑制愚蠢评论的技术还未被发现。Xkcd在它的IRC频道实施了一个特别聪明的方法:不允许重复说同样的东西。一旦有人说了"失败",就再也没人能说它了。这会特别惩罚短评论,因为它们在避免碰撞上的空间更小。

另一个有希望的想法是愚蠢过滤器,它就像一个概率性的垃圾邮件过滤器,但是训练的语料库是愚蠢和非愚蠢的评论。

你可能不需要杀死坏评论就能解决问题。在一个很长的线程的底部的评论很少被人看到,所以在评论排序算法中加入质量预测可能就够了。

[7] 大多数郊区如此令人沮丧的原因是没有可以步行到的中心。

感谢 Justin Kan、Jessica Livingston、Robert Morris、Alexis Ohanian、Emmet Shear和Fred Wilson阅读了本文的草稿。

评论这篇文章。