CE QUE J'AI APPRIS DE HACKER NEWS

Février 2009

Hacker News a eu deux ans la semaine dernière. Initialement, il était censé être un projet secondaire—une application pour aiguiser Arc, et un endroit pour les fondateurs actuels et futurs de Y Combinator pour échanger des nouvelles. Il a pris de l'ampleur et a pris plus de temps que prévu, mais je ne le regrette pas car j'ai beaucoup appris en travaillant dessus.

Croissance

Lorsque nous avons lancé en février 2007, le trafic en semaine était d'environ 1600 uniques quotidiens. Il a depuis augmenté à environ 22 000. Ce taux de croissance est un peu plus élevé que je ne le voudrais. J'aimerais que le site se développe, car un site qui ne se développe pas au moins lentement est probablement mort. Mais je ne voudrais pas qu'il devienne aussi grand que Digg ou Reddit—principalement parce que cela diluerait le caractère du site, mais aussi parce que je ne veux pas passer tout mon temps à gérer l'évolutivité.

J'ai déjà assez de problèmes avec ça. Rappelez-vous, la motivation originale pour HN était de tester un nouveau langage de programmation, et de plus un langage qui se concentre sur l'expérimentation de la conception des langages, pas sur les performances. Chaque fois que le site devient lent, je me fortifie en me rappelant la célèbre citation de McIlroy et Bentley

La clé des performances est l'élégance, pas les bataillons de cas spéciaux.

et je cherche le goulot d'étranglement que je peux supprimer avec le moins de code possible. Jusqu'à présent j'ai pu suivre, dans le sens où les performances sont restées constamment médiocres malgré une croissance de 14x. Je ne sais pas ce que je vais faire ensuite, mais je vais probablement trouver quelque chose.

C'est mon attitude envers le site en général. Hacker News est une expérience, et une expérience dans un domaine très jeune. Les sites de ce type n'ont que quelques années. La conversation sur Internet en général n'a que quelques décennies. Nous n'avons donc probablement découvert qu'une fraction de ce que nous découvrirons finalement.

C'est pourquoi je suis si optimiste quant à HN. Lorsqu'une technologie est aussi jeune, les solutions existantes sont généralement terribles ; ce qui signifie qu'il doit être possible de faire beaucoup mieux ; ce qui signifie que de nombreux problèmes qui semblent insolubles ne le sont pas. Y compris, j'espère, le problème qui a affligé tant de communautés précédentes : être ruinées par la croissance.

Dilution

Les utilisateurs s'inquiètent de cela depuis que le site a quelques mois. Jusqu'à présent, ces alarmes ont été fausses, mais elles ne le seront peut-être pas toujours. La dilution est un problème difficile. Mais probablement soluble ; cela ne signifie pas grand-chose que les conversations ouvertes ont "toujours" été détruites par la croissance lorsque "toujours" équivaut à 20 instances.

Mais il est important de se rappeler que nous essayons de résoudre un nouveau problème, car cela signifie que nous allons devoir essayer de nouvelles choses, dont la plupart ne fonctionneront probablement pas. Il y a quelques semaines, j'ai essayé d'afficher les noms des utilisateurs ayant la moyenne des scores de commentaires la plus élevée en orange. [1] C'était une erreur. Soudain, une culture qui avait été plus ou moins unie a été divisée en ayants droit et non-ayants droit. Je ne me suis pas rendu compte à quel point la culture avait été unie jusqu'à ce que je la voie divisée. C'était douloureux à regarder. [2]

Donc les noms d'utilisateurs orange ne seront pas de retour. (Désolé pour ça.) Mais il y aura d'autres idées qui semblent tout aussi cassées à l'avenir, et celles qui finiront par fonctionner sembleront probablement tout aussi cassées que celles qui ne fonctionnent pas.

Probablement la chose la plus importante que j'ai apprise sur la dilution est qu'elle se mesure davantage dans le comportement que dans les utilisateurs. C'est le mauvais comportement que vous voulez empêcher plus que les mauvaises personnes. Le comportement des utilisateurs s'avère être étonnamment malléable. Si les gens sont attendus pour se comporter bien, ils ont tendance à le faire ; et vice versa.

Bien sûr, interdire les mauvais comportements a tendance à éloigner les mauvaises personnes, car elles se sentent mal à l'aise dans un endroit où elles doivent se comporter bien. Mais cette façon de les empêcher est plus douce et probablement aussi plus efficace que les barrières ouvertes.

Il est maintenant assez clair que la théorie des fenêtres brisées s'applique également aux sites communautaires. La théorie est que les formes mineures de mauvais comportements encouragent les pires : qu'un quartier avec beaucoup de graffitis et de fenêtres brisées devient un quartier où des vols se produisent. Je vivais à New York lorsque Giuliani a introduit les réformes qui ont rendu célèbre la théorie des fenêtres brisées, et la transformation a été miraculeuse. Et j'étais un utilisateur de Reddit lorsque le contraire s'est produit là-bas, et la transformation a été tout aussi spectaculaire.

Je ne critique pas Steve et Alexis. Ce qui est arrivé à Reddit ne s'est pas produit par négligence. Dès le départ, ils avaient une politique de censure de rien sauf le spam. De plus, Reddit avait des objectifs différents de Hacker News. Reddit était une startup, pas un projet secondaire ; son objectif était de croître aussi vite que possible. Combinez une croissance rapide et zéro censure, et le résultat est une libre circulation. Mais je ne pense pas qu'ils feraient grand-chose différemment s'ils recommençaient. Mesuré par le trafic, Reddit est beaucoup plus réussi que Hacker News.

Mais ce qui est arrivé à Reddit ne se produira pas forcément à HN. Il y a plusieurs maxima locaux. Il peut y avoir des endroits qui sont des libres circulations et des endroits qui sont plus réfléchis, tout comme il y en a dans le monde réel ; et les gens se comporteront différemment selon l'endroit où ils se trouvent, tout comme ils le font dans le monde réel.

J'ai observé cela dans la nature. J'ai vu des gens faire des cross-postings sur Reddit et Hacker News qui ont réellement pris la peine d'écrire deux versions, une flamme pour Reddit et une version plus sobre pour HN.

Soumissions

Il existe deux principaux types de problèmes qu'un site comme Hacker News doit éviter : les mauvaises histoires et les mauvais commentaires. Jusqu'à présent, le danger des mauvaises histoires semble plus petit. Les histoires sur la page d'accueil maintenant sont toujours à peu près celles qui auraient été là au début de HN.

J'ai pensé un jour que je devrais pondérer les votes pour empêcher les déchets de figurer sur la page d'accueil, mais je n'ai pas encore eu à le faire. Je n'aurais pas prédit que la page d'accueil tiendrait si bien, et je ne suis pas sûr de la raison. Peut-être que seuls les utilisateurs les plus réfléchis se soucient suffisamment de soumettre et de voter pour les liens, de sorte que le coût marginal d'un nouvel utilisateur aléatoire se rapproche de zéro. Ou peut-être que la page d'accueil se protège elle-même, en faisant de la publicité pour le type de soumission attendu.

La chose la plus dangereuse pour la page d'accueil est ce qui est trop facile à voter. Si quelqu'un prouve un nouveau théorème, il faut un certain travail de la part du lecteur pour décider s'il faut voter ou non. Une caricature amusante prend moins de temps. Une diatribe avec un cri de ralliement comme titre prend zéro, parce que les gens votent pour elle sans même la lire.

D'où ce que j'appelle le principe du Fluff : sur un site d'actualité voté par les utilisateurs, les liens qui sont les plus faciles à juger prendront le dessus à moins que vous ne preniez des mesures spécifiques pour l'empêcher.

Hacker News a deux types de protections contre le fluff. Les types les plus communs de liens fluff sont interdits comme hors sujet. Les photos de chatons, les diatribes politiques, etc. sont explicitement interdites. Cela empêche la plupart des fluff, mais pas tous. Certains liens sont à la fois du fluff, au sens où ils sont très courts, et aussi sur le sujet.

Il n'y a pas de solution unique à cela. Si un lien n'est qu'une diatribe vide, les éditeurs le supprimeront parfois même s'il est sur le sujet au sens où il porte sur le piratage, car il n'est pas sur le sujet selon la vraie norme, qui est de stimuler sa curiosité intellectuelle. Si les messages sur un site sont généralement de ce type, je l'interdis parfois, ce qui signifie que les nouveaux messages à cette URL sont automatiquement supprimés. Si un message a un titre de lienbait, les éditeurs le reformulent parfois pour qu'il soit plus factuel. Ceci est particulièrement nécessaire avec les liens dont les titres sont des cris de ralliement, car sinon ils deviennent implicitement des messages "votez si vous croyez en telle ou telle chose", qui sont la forme la plus extrême de fluff.

Les techniques pour traiter les liens doivent évoluer, car les liens le font. L'existence des agrégateurs a déjà affecté ce qu'ils agrègent. Les écrivains écrivent maintenant délibérément des choses pour attirer le trafic des agrégateurs—parfois même des agrégateurs spécifiques. (Non, l'ironie de cette déclaration ne m'échappe pas.) Ensuite, il y a les mutations plus sinistres, comme le linkjacking—poster une paraphrase de l'article de quelqu'un d'autre et soumettre cela au lieu de l'original. Ces derniers peuvent obtenir beaucoup de votes, car une grande partie de ce qui est bon dans un article survit souvent ; en effet, plus la paraphrase est proche du plagiat, plus elle survit. [3]

Je pense qu'il est important qu'un site qui supprime des soumissions fournisse un moyen pour les utilisateurs de voir ce qui a été supprimé s'ils le souhaitent. Cela permet aux éditeurs d'être honnêtes, et tout aussi important, cela donne aux utilisateurs la confiance qu'ils sauraient si les éditeurs cessaient d'être honnêtes. Les utilisateurs de HN peuvent le faire en basculant un interrupteur appelé showdead dans leur profil. [4]

Commentaires

Les mauvais commentaires semblent être un problème plus difficile que les mauvaises soumissions. Alors que la qualité des liens sur la page d'accueil de HN n'a pas beaucoup changé, la qualité du commentaire médian a peut-être légèrement diminué.

Il existe deux principaux types de méchanceté dans les commentaires : la méchanceté et la stupidité. Il y a beaucoup de chevauchement entre les deux—les commentaires méchants sont disproportionnellement susceptibles d'être aussi stupides—mais les stratégies pour les traiter sont différentes. La méchanceté est plus facile à contrôler. Vous pouvez avoir des règles disant qu'on ne devrait pas être méchant, et si vous les appliquez, il semble possible de mettre un frein à la méchanceté.

Mettre un frein à la stupidité est plus difficile, peut-être parce que la stupidité est pas si facilement discernable. Les gens méchants sont plus susceptibles de savoir qu'ils sont méchants que les gens stupides de savoir qu'ils sont stupides.

La forme la plus dangereuse de commentaire stupide n'est pas le long argument erroné, mais la blague stupide. Les longs arguments erronés sont en fait assez rares. Il existe une forte corrélation entre la qualité des commentaires et la longueur ; si vous vouliez comparer la qualité des commentaires sur les sites communautaires, la longueur moyenne serait un bon prédicteur. La cause est probablement la nature humaine plutôt que quelque chose de spécifique aux fils de commentaires. C'est probablement simplement que la stupidité prend plus souvent la forme d'avoir peu d'idées que d'idées fausses.

Quelle que soit la cause, les commentaires stupides ont tendance à être courts. Et comme il est difficile d'écrire un commentaire court qui se distingue par la quantité d'informations qu'il véhicule, les gens essaient de les distinguer au lieu de cela en étant drôles. Le format le plus tentant pour les commentaires stupides est la mise au point censée être spirituelle, probablement parce que les mises au point sont la forme d'humour la plus facile. [5] Donc un avantage d'interdire la méchanceté est qu'elle réduit également ces dernières.

Les mauvais commentaires sont comme le kudzu : ils prennent le dessus rapidement. Les commentaires ont beaucoup plus d'effet sur les nouveaux commentaires que les soumissions n'en ont sur les nouvelles soumissions. Si quelqu'un soumet un article nul, les autres soumissions ne deviennent pas toutes nulles. Mais si quelqu'un poste un commentaire stupide sur un fil, cela donne le ton à la région qui l'entoure. Les gens répondent aux blagues stupides par des blagues stupides.

Peut-être que la solution est d'ajouter un délai avant que les gens puissent répondre à un commentaire, et de faire en sorte que la durée du délai soit inversement proportionnelle à une prédiction de sa qualité. Alors les fils stupides se développeraient plus lentement. [6]

Personnes

Je remarque que la plupart des techniques que j'ai décrites sont conservatrices : elles visent à préserver le caractère du site plutôt qu'à l'améliorer. Je ne pense pas que ce soit un biais de ma part. C'est dû à la forme du problème. Hacker News a eu la chance de bien commencer, donc dans ce cas, il s'agit littéralement d'une question de préservation. Mais je pense que ce principe s'appliquerait également aux sites ayant des origines différentes.

Les bonnes choses dans un site communautaire viennent plus des gens que de la technologie ; c'est principalement dans la prévention des mauvaises choses que la technologie entre en jeu. La technologie peut certainement améliorer la discussion. Les commentaires imbriqués le font, par exemple. Mais je préférerais utiliser un site avec des fonctionnalités primitives et des utilisateurs intelligents et gentils qu'un site plus avancé dont les utilisateurs seraient des idiots ou des trolls.

Donc la chose la plus importante qu'un site communautaire puisse faire est d'attirer le type de personnes qu'il veut. Un site qui essaie d'être aussi grand que possible veut attirer tout le monde. Mais un site qui vise un sous-ensemble particulier d'utilisateurs doit attirer uniquement ceux-ci—et tout aussi important, repousser tout le monde. J'ai fait un effort conscient pour le faire sur HN. La conception graphique est aussi simple que possible, et les règles du site découragent les titres de liens dramatiques. Le but est que la seule chose qui puisse intéresser quelqu'un qui arrive sur HN pour la première fois soit les idées qui y sont exprimées.

L'inconvénient de régler un site pour attirer certaines personnes est que, pour ces personnes, il peut être trop attrayant. Je suis trop conscient de la façon dont Hacker News peut être addictif. Pour moi, comme pour de nombreux utilisateurs, c'est une sorte de place publique virtuelle. Lorsque je veux faire une pause dans mon travail, je me promène sur la place, tout comme je le ferais sur Harvard Square ou University Ave dans le monde physique. [7] Mais une place en ligne est plus dangereuse qu'une place physique. Si je passais la moitié de la journée à flâner sur University Ave, je le remarquerais. Je dois marcher un kilomètre pour y aller, et s'asseoir dans un café est différent de travailler. Mais visiter un forum en ligne ne prend qu'un clic, et ressemble superficiellement beaucoup à travailler. Vous perdez peut-être votre temps, mais vous n'êtes pas inactif. Quelqu'un a tort sur Internet, et vous êtes en train de résoudre le problème.

Hacker News est certainement utile. J'ai beaucoup appris des choses que j'ai lues sur HN. J'ai écrit plusieurs essais qui ont commencé comme des commentaires là-bas. Donc je ne voudrais pas que le site disparaisse. Mais j'aimerais être sûr qu'il ne soit pas un frein net à la productivité. Quel désastre ce serait, d'attirer des milliers de personnes intelligentes sur un site qui les amènerait à perdre beaucoup de temps. J'aimerais pouvoir être sûr à 100 % que ce n'est pas une description de HN.

J'ai l'impression que l'addiction aux jeux et aux applications sociales est toujours un problème en grande partie non résolu. La situation actuelle est comme celle qui prévalait avec le crack dans les années 1980 : nous avons inventé de nouvelles choses terriblement addictives, et nous n'avons pas encore développé de moyens de nous protéger contre elles. Nous le ferons un jour, et c'est l'un des problèmes sur lesquels j'espère me concentrer ensuite.

Notes

[1] J'ai essayé de classer les utilisateurs par la moyenne et la médiane des scores de commentaires, et la moyenne (avec le score le plus élevé éliminé) semblait être le prédicteur le plus précis de la haute qualité. La médiane peut être le prédicteur le plus précis de la faible qualité cependant.

[2] Une autre chose que j'ai apprise de cette expérience est que si vous allez faire la distinction entre les gens, vous feriez mieux d'être sûr de le faire correctement. C'est un problème où le prototypage rapide ne fonctionne pas.

En effet, c'est l'argument intellectuellement honnête pour ne pas discriminer entre différents types de personnes. La raison de ne pas le faire n'est pas que tout le monde est pareil, mais qu'il est mauvais de faire le mal et difficile de faire le bien.

[3] Lorsque j'attrape des messages linkjackés de manière flagrante, je remplace l'URL par celle de ce qu'ils ont copié. Les sites qui linkjackent habituellement sont bannis.

[4] Digg est connu pour son manque de transparence. La racine du problème n'est pas que les gars qui dirigent Digg sont particulièrement sournois, mais qu'ils utilisent le mauvais algorithme pour générer leur page d'accueil. Au lieu de remonter du bas vers le haut au fur et à mesure qu'ils obtiennent plus de votes, comme sur Reddit, les histoires commencent en haut et sont poussées vers le bas par les nouvelles arrivées.

La raison de cette différence est que Digg est dérivé de Slashdot, tandis que Reddit est dérivé de Delicious/popular. Digg est Slashdot avec des votes au lieu d'éditeurs, et Reddit est Delicious/popular avec des votes au lieu de favoris. (Vous pouvez toujours voir des fossiles de leurs origines dans leur conception graphique.)

L'algorithme de Digg est très vulnérable au gaming, car toute histoire qui arrive sur la page d'accueil est la nouvelle histoire principale. Ce qui à son tour oblige Digg à répondre avec des contre-mesures extrêmes. Beaucoup de startups ont un secret sur les subterfuges auxquels elles ont dû recourir dans les premiers jours, et je soupçonne que celui de Digg est l'étendue à laquelle les histoires principales étaient de facto choisies par des éditeurs humains.

[5] Le dialogue sur Beavis et Butthead était composé en grande partie de ces derniers, et lorsque je lis des commentaires sur des sites vraiment mauvais, je peux les entendre dans leurs voix.

[6] Je soupçonne que la plupart des techniques pour décourager les commentaires stupides n'ont pas encore été découvertes. Xkcd a mis en œuvre une technique particulièrement intelligente dans son canal IRC : ne pas autoriser la même chose deux fois. Une fois que quelqu'un a dit "fail", personne ne peut plus jamais le dire. Cela pénaliserait particulièrement les commentaires courts, car ils ont moins de place pour éviter les collisions.

Une autre idée prometteuse est le filtre stupide, qui est comme un filtre anti-spam probabiliste, mais entraîné sur des corpus de commentaires stupides et non stupides à la place.

Vous n'avez peut-être pas besoin de supprimer les mauvais commentaires pour résoudre le problème. Les commentaires en bas d'un long fil sont rarement vus, il peut donc suffire d'intégrer une prédiction de la qualité dans l'algorithme de tri des commentaires.

[7] Ce qui rend la plupart des banlieues si démoralisantes, c'est qu'il n'y a pas de centre où aller à pied.

Merci à Justin Kan, Jessica Livingston, Robert Morris, Alexis Ohanian, Emmet Shear, et Fred Wilson pour avoir lu les brouillons de ceci.

Commentaire sur cet essai.