CE QUE J'AI APPRIS DE HACKER NEWS

Février 2009

Hacker News a eu deux ans la semaine dernière. À l'origine, il devait s'agir d'un projet secondaire - une application pour affûter Arc et un endroit où les fondateurs actuels et futurs de Y Combinator pourraient échanger des nouvelles. Il a pris de l'ampleur et a pris plus de temps que je ne l'avais prévu, mais je ne le regrette pas car j'ai beaucoup appris en y travaillant.

Croissance

Lorsque nous l'avons lancé en février 2007, le trafic en semaine était d'environ 1 600 visiteurs uniques par jour. Depuis, il a atteint environ 22 000 visiteurs. Ce taux de croissance est un peu plus élevé que je ne le souhaiterais. J'aimerais que le site se développe, car un site qui ne croît pas au moins lentement est probablement mort. Mais je ne voudrais pas qu'il devienne aussi grand que Digg ou Reddit, principalement parce que cela diluerait le caractère du site, mais aussi parce que je ne veux pas passer tout mon temps à m'occuper de la mise à l'échelle.

J'ai déjà suffisamment de problèmes avec cela. Rappelez-vous, la motivation initiale pour HN était de tester un nouveau langage de programmation, et de plus un langage axé sur l'expérimentation avec la conception de langages, pas sur les performances. Chaque fois que le site ralentit, je me fortifie en me rappelant la célèbre citation de McIlroy et Bentley :

"La clé de la performance est l'élégance, pas les bataillons de cas particuliers."

et je cherche le goulot d'étranglement que je peux supprimer avec le moins de code possible. Jusqu'à présent, j'ai réussi à suivre, dans le sens où les performances sont restées constamment médiocres malgré une croissance de 14 fois. Je ne sais pas ce que je ferai ensuite, mais je penserai probablement à quelque chose.

C'est mon attitude générale envers le site. Hacker News est une expérience, et une expérience dans un domaine très jeune. Les sites de ce type n'ont que quelques années. La conversation sur Internet n'a que quelques décennies. Nous n'avons donc probablement découvert qu'une fraction de ce que nous finirons par découvrir.

C'est pourquoi je suis si optimiste quant à HN. Lorsqu'une technologie est aussi jeune, les solutions existantes sont généralement terribles ; ce qui signifie qu'il doit être possible de faire beaucoup mieux ; ce qui signifie que de nombreux problèmes qui semblent insolubles ne le sont pas. Y compris, je l'espère, le problème qui a affligé tant de communautés précédentes : être ruiné par la croissance.

Dilution

Les utilisateurs s'en sont inquiétés depuis que le site a quelques mois. Jusqu'à présent, ces alarmes se sont avérées fausses, mais elles ne le seront peut-être pas toujours. La dilution est un problème difficile. Mais probablement soluble ; cela ne signifie pas grand-chose que les conversations ouvertes aient "toujours" été détruites par la croissance quand "toujours" équivaut à 20 instances.

Mais il est important de se rappeler que nous essayons de résoudre un nouveau problème, car cela signifie que nous allons devoir essayer de nouvelles choses, dont la plupart ne fonctionneront probablement pas. Il y a quelques semaines, j'ai essayé d'afficher les noms des utilisateurs ayant les meilleurs scores de commentaires moyens en orange. [1] C'était une erreur. Soudain, une culture qui avait été plus ou moins unie s'est divisée en nantis et en démunis. Je ne réalisais pas à quel point la culture était unie jusqu'à ce que je la voie divisée. Ce fut douloureux à regarder. [2]

Donc les noms d'utilisateurs en orange ne reviendront pas. (Désolé pour cela.) Mais il y aura d'autres idées tout aussi cassées à l'avenir, et celles qui s'avéreront fonctionner sembleront probablement tout aussi cassées que celles qui ne fonctionneront pas.

Probablement la chose la plus importante que j'ai apprise sur la dilution, c'est qu'elle se mesure davantage dans le comportement que dans le nombre d'utilisateurs. Ce sont les mauvais comportements que vous voulez tenir à l'écart plus que les mauvaises personnes. Le comportement des utilisateurs s'avère étonnamment malléable. Si on s'attend à ce qu'ils se comportent bien, ils ont tendance à le faire ; et vice versa.

Bien sûr, interdire les mauvais comportements a tendance à éloigner les mauvaises personnes, car elles se sentent inconfortablement contraintes dans un endroit où elles doivent bien se comporter. Mais cette façon de les tenir à l'écart est plus douce et probablement aussi plus efficace que les barrières explicites.

Il est maintenant assez clair que la théorie des fenêtres cassées s'applique également aux sites communautaires. La théorie veut que les formes mineures de mauvais comportement encouragent des comportements pires : qu'un quartier avec beaucoup de graffitis et de fenêtres cassées devient un endroit où se produisent des vols. Je vivais à New York quand Giuliani a introduit les réformes qui ont rendu célèbre la théorie des fenêtres cassées, et la transformation a été miraculeuse. Et j'étais un utilisateur de Reddit quand le contraire s'est produit là-bas, et la transformation a été tout aussi spectaculaire.

Je ne critique pas Steve et Alexis. Ce qui est arrivé à Reddit ne s'est pas produit par négligence. Dès le début, ils avaient une politique de ne censurer que le spam. De plus, Reddit avait des objectifs différents de Hacker News. Reddit était une startup, pas un projet secondaire ; son but était de croître le plus rapidement possible. Combiner une croissance rapide et une censure zéro, et le résultat est une libre-à-tous. Mais je ne pense pas qu'ils feraient beaucoup différemment s'ils le refaisaient. Mesuré par le trafic, Reddit est beaucoup plus réussi que Hacker News.

Mais ce qui est arrivé à Reddit n'arrivera pas inévitablement à HN. Il y a plusieurs maxima locaux. Il peut y avoir des endroits qui sont des libres-à-tous et des endroits qui sont plus réfléchis, tout comme dans le monde réel ; et les gens se comporteront différemment selon celui dans lequel ils se trouvent, comme dans le monde réel.

J'ai observé cela dans la nature. J'ai vu des gens qui postaient sur Reddit et Hacker News qui avaient pris la peine d'écrire deux versions, une enflammée pour Reddit et une plus sobre pour HN.

Soumissions

Il y a deux types majeurs de problèmes qu'un site comme Hacker News doit éviter : les mauvaises histoires et les mauvais commentaires. Jusqu'à présent, le danger des mauvaises histoires semble plus faible. Les histoires à la une sont toujours à peu près celles qui y auraient été quand HN a commencé.

J'ai déjà pensé que je devrais pondérer les votes pour garder la crotte hors de la une, mais je n'ai pas encore eu à le faire. Je n'aurais pas prédit que la une tiendrait aussi bien, et je ne suis pas sûr de la raison. Peut-être que seuls les utilisateurs les plus réfléchis se soucient assez pour soumettre et voter des liens, de sorte que le coût marginal d'un nouvel utilisateur aléatoire s'approche de zéro. Ou peut-être que la une se protège elle-même, en annonçant le type de soumission attendu.

La chose la plus dangereuse pour la une est ce qui est trop facile à voter. Si quelqu'un prouve un nouveau théorème, cela demande un certain travail de la part du lecteur pour décider s'il faut le voter ou non. Une bande dessinée amusante en demande moins. Une diatribe avec un cri de ralliement comme titre n'en demande aucun, car les gens la votent sans même la lire.

D'où ce que j'appelle le Principe de la Fluff : sur un site d'actualités à vote d'utilisateurs, les liens les plus faciles à juger prendront le dessus à moins que vous ne preniez des mesures spécifiques pour l'empêcher.

Hacker News a deux types de protections contre la fluff. Les types les plus courants de liens fluff sont interdits comme hors-sujet. Les photos de chatons, les diatribes politiques, etc. sont explicitement interdites. Cela élimine la plupart de la fluff, mais pas tout. Certains liens sont à la fois de la fluff, dans le sens d'être très courts, et aussi dans le sujet.

Il n'y a pas de solution unique à cela. Si un lien n'est qu'une rant vide, les rédacteurs le tueront parfois même s'il est dans le sujet dans le sens d'être sur le piratage, car il n'est pas dans le sujet selon le vrai critère, qui est d'engager la curiosité intellectuelle de quelqu'un. Si les messages sur un site sont caractéristiquement de ce type, je l'interdis parfois, ce qui signifie que les nouveaux trucs à cette url sont automatiquement tués. Si un message a un titre racoleur, les rédacteurs le reformulent parfois de manière plus factuelle. Cela est particulièrement nécessaire avec les liens dont les titres sont des cris de ralliement, car autrement ils deviennent des messages implicites "votez si vous croyez à telle et telle chose", qui sont la forme la plus extrême de fluff.

Les techniques de gestion des liens doivent évoluer, car les liens évoluent. L'existence d'agrégateurs a déjà affecté ce qu'ils agrègent. Les auteurs écrivent maintenant délibérément des choses pour attirer le trafic des agrégateurs - parfois même des agrégateurs spécifiques. (Non, l'ironie de cette déclaration ne m'échappe pas.) Ensuite, il y a les mutations plus sinistres, comme le linkjacking - la publication d'une paraphrase d'un article d'une autre personne et la soumission de celle-ci au lieu de l'original. Ceux-ci peuvent obtenir beaucoup de votes positifs, car une grande partie de ce qui est bon dans un article survit souvent ; en effet, plus la paraphrase se rapproche du plagiat, plus il en survit. [3]

Je pense qu'il est important qu'un site qui supprime des soumissions fournisse un moyen aux utilisateurs de voir ce qui a été supprimé s'ils le souhaitent. Cela garde les rédacteurs honnêtes et, tout aussi important, donne aux utilisateurs la certitude qu'ils sauraient si les rédacteurs cessaient d'être honnêtes. Les utilisateurs de HN peuvent faire cela en activant un interrupteur appelé "showdead" dans leur profil. [4]

Commentaires

Les mauvais commentaires semblent être un problème plus difficile que les mauvaises soumissions. Bien que la qualité des liens sur la page d'accueil de HN n'ait pas beaucoup changé, la qualité du commentaire médian a peut-être quelque peu diminué.

Il y a deux types principaux de mauvais commentaires : la méchanceté et la stupidité. Il y a beaucoup de chevauchement entre les deux - les commentaires méchants sont disproportionnellement susceptibles d'être aussi stupides - mais les stratégies pour y faire face sont différentes. La méchanceté est plus facile à contrôler. Vous pouvez avoir des règles disant qu'on ne doit pas être méchant, et si vous les appliquez, il semble possible de garder un couvercle sur la méchanceté.

Garder un couvercle sur la stupidité est plus difficile, peut-être parce que la stupidité n'est pas si facilement distinguable. Les gens méchants sont plus susceptibles de savoir qu'ils sont méchants que les gens stupides de savoir qu'ils sont stupides.

La forme la plus dangereuse de commentaire stupide n'est pas le long argument erroné, mais la blague stupide. Les longs arguments erronés sont en fait assez rares. Il y a une forte corrélation entre la qualité des commentaires et leur longueur ; si vous vouliez comparer la qualité des commentaires sur les sites communautaires, la longueur moyenne serait un bon prédicteur. Probablement que la cause est la nature humaine plutôt que quelque chose de spécifique aux fils de discussion. Probablement, c'est simplement que la stupidité prend plus souvent la forme d'avoir peu d'idées que d'avoir des idées fausses.

Quelle que soit la cause, les commentaires stupides ont tendance à être courts. Et comme il est difficile d'écrire un commentaire court qui se distingue par la quantité d'informations qu'il transmet, les gens essaient de les distinguer à la place en étant drôles. Le format le plus tentant pour les commentaires stupides est la soi-disant répartie spirituelle, probablement parce que les réparties sont la forme d'humour la plus facile. [5] Donc un avantage d'interdire la méchanceté est que cela réduit également ces commentaires.

Les mauvais commentaires sont comme le kudzu : ils prennent le contrôle rapidement. Les commentaires ont beaucoup plus d'effet sur les nouveaux commentaires que les soumissions n'en ont sur les nouvelles soumissions. Si quelqu'un soumet un article médiocre, les autres soumissions ne deviennent pas toutes médiocres. Mais si quelqu'un publie un commentaire stupide dans un fil, cela donne le ton pour la région autour de lui. Les gens répondent à des blagues stupides par des blagues stupides.

Peut-être que la solution est d'ajouter un délai avant que les gens ne puissent répondre à un commentaire, et de faire en sorte que la longueur du délai soit inversement proportionnelle à une prédiction de sa qualité. Alors les fils stupides grandiraient plus lentement. [6]

Personnes

Je remarque que la plupart des techniques que j'ai décrites sont conservatrices : elles visent à préserver le caractère du site plutôt qu'à l'améliorer. Je ne pense pas que ce soit un biais de ma part. C'est dû à la forme du problème. Hacker News a eu la chance de bien commencer, donc dans ce cas, c'est littéralement une question de préservation. Mais je pense que ce principe s'appliquerait également aux sites ayant des origines différentes.

Les bonnes choses dans un site communautaire viennent plus des gens que de la technologie ; c'est principalement dans la prévention des mauvaises choses que la technologie entre en jeu. La technologie peut certainement améliorer la discussion. Les commentaires imbriqués le font, par exemple. Mais je préférerais utiliser un site avec des fonctionnalités primitives et des utilisateurs intelligents et agréables qu'un site plus avancé dont les utilisateurs seraient idiots ou trolls.

Donc la chose la plus importante qu'un site communautaire puisse faire est d'attirer le type de personnes qu'il souhaite. Un site essayant d'être aussi grand que possible veut attirer tout le monde. Mais un site visant un sous-ensemble particulier d'utilisateurs doit attirer juste ceux-là - et tout aussi important, repousser tout le monde d'autre. J'ai fait un effort conscient pour faire cela sur HN. La conception graphique est aussi simple que possible, et les règles du site découragent les titres de liens dramatiques. L'objectif est que la seule chose qui devrait intéresser quelqu'un arrivant sur HN pour la première fois, ce sont les idées qui y sont exprimées.

L'inconvénient de régler un site pour attirer certaines personnes est que, pour ces personnes, il peut être trop attrayant. Je suis trop conscient à quel point Hacker News peut être addictif. Pour moi, comme pour de nombreux utilisateurs, c'est une sorte de place publique virtuelle. Quand je veux faire une pause du travail, je me promène sur la place, tout comme je pourrais le faire dans Harvard Square ou University Ave dans le monde physique. [7] Mais une place en ligne est plus dangereuse qu'une place physique. Si je passais la moitié de la journée à traîner sur University Ave, je le remarquerais. Je dois marcher un mile pour y arriver, et s'asseoir dans un café se sent différent du travail. Mais visiter un forum en ligne ne nécessite qu'un clic, et se sent superficiellement très similaire au travail. Vous pouvez perdre votre temps, mais vous n'êtes pas inactif. Quelqu'un a tort sur Internet, et vous résolvez le problème.

Hacker News est définitivement utile. J'ai beaucoup appris des choses que j'ai lues sur HN. J'ai écrit plusieurs essais qui ont commencé sous forme de commentaires là-bas. Donc je ne voudrais pas que le site disparaisse. Mais j'aimerais être sûr qu'il n'est pas une charge nette sur la productivité. Ce serait un désastre, d'attirer des milliers de gens intelligents sur un site qui les ferait perdre beaucoup de temps. J'aimerais pouvoir être à 100% sûr que ce n'est pas une description de HN.

J'ai l'impression que l'attrait des jeux et des applications sociales est encore un problème en grande partie non résolu. La situation actuelle est comme c'était avec le crack dans les années 1980 : nous avons inventé de nouvelles choses terriblement addictives, et nous n'avons pas encore développé de moyens de nous en protéger. Nous le ferons éventuellement, et c'est l'un des problèmes sur lesquels j'espère me concentrer ensuite.

Notes

[1] J'ai essayé de classer les utilisateurs à la fois par score de commentaire moyen et médian, et la moyenne (avec le score le plus élevé rejeté) semblait être le meilleur prédicteur de la haute qualité. La médiane peut être le meilleur prédicteur de la faible qualité cependant.

[2] Une autre chose que j'ai apprise de cette expérience est que si vous allez faire la distinction entre les gens, vous feriez mieux d'être sûr de le faire correctement. C'est un problème où le prototypage rapide ne fonctionne pas.

En effet, c'est l'argument intellectuellement honnête pour ne pas faire de discrimination entre les différents types de personnes. La raison de ne pas le faire n'est pas que tout le monde est le même, mais que c'est mauvais de le faire mal et difficile de le faire bien.

[3] Quand je repère des publications excessivement linkjackées, je remplace l'url par celle de ce qu'ils ont copié. Les sites qui ont l'habitude de linkjacker se font bannir.

[4] Digg est réputé pour son manque de transparence. La racine du problème n'est pas que les gars qui dirigent Digg sont particulièrement rusés, mais qu'ils utilisent le mauvais algorithme pour générer leur page d'accueil. Au lieu de remonter du bas à mesure qu'ils obtiennent plus de votes, comme sur Reddit, les histoires commencent en haut et sont repoussées par de nouvelles arrivées.

La raison de cette différence est que Digg dérive de Slashdot, tandis que Reddit dérive de Delicious/populaire. Digg est Slashdot avec un vote au lieu d'éditeurs, et Reddit est Delicious/populaire avec un vote au lieu de bookmarking. (Vous pouvez encore voir les fossiles de leurs origines dans leur conception graphique.)

L'algorithme de Digg est très vulnérable aux manipulations, car toute histoire qui atteint la page d'accueil devient la nouvelle histoire principale. Ce qui, à son tour, oblige Digg à réagir avec des contre-mesures extrêmes. De nombreuses start-ups ont un certain secret sur les subterfuges auxquels elles ont dû recourir dans les premiers jours, et je soupçonne que celui de Digg est l'étendue avec laquelle les histoires les plus populaires étaient de facto choisies par des rédacteurs humains.

[5] Les dialogues de Beavis et Butt-Head étaient en grande partie composés de ceux-ci, et quand je lis des commentaires sur des sites vraiment mauvais, je peux les entendre dans leurs voix.

[6] Je soupçonne que la plupart des techniques pour décourager les commentaires stupides restent à découvrir. Xkcd a mis en œuvre une idée particulièrement astucieuse dans son canal IRC : ne pas autoriser la même chose deux fois. Une fois que quelqu'un a dit "fail", personne ne peut plus jamais le dire à nouveau. Cela pénaliserait surtout les courts commentaires, car ils ont moins de place pour éviter les collisions.

Une autre idée prometteuse est le filtre stupide, qui est tout simplement comme un filtre anti-spam probabiliste, mais entraîné sur des corpus de commentaires stupides et non stupides.

Vous n'aurez peut-être pas à tuer les mauvais commentaires pour résoudre le problème. Les commentaires au bas d'un long fil de discussion sont rarement vus, il peut donc suffire d'incorporer une prédiction de la qualité dans l'algorithme de tri des commentaires.

[7] Ce qui rend la plupart des banlieues si démoralisantes, c'est qu'il n'y a pas de centre où se rendre à pied.

Merci à Justin Kan, Jessica Livingston, Robert Morris, Alexis Ohanian, Emmet Shear et Fred Wilson d'avoir lu les brouillons de cet essai.

Commentaire sur cet essai.