Cette semaine, je voudrais me focaliser sur les plateformes de diffusion des ces bêbêtes étranges que sont les œuvres générées par intelligence artificielle (IA). Pour le rappel, elles sont conçues à partir de trois éléments complémentaires, qui participent de l’auctorialité du produit texte proposé, et dont l’IA n’est qu’une des composantes. Une œuvre artificielle, c’est donc :

  • Une intention d’auteur (le programmeur)
  • Un algorithme (l’IA en question)
  • Une base de données (qui peut être composée de l’ensemble des ressources du projet Gutenberg comme d’une encyclopédie, de tout Wikipédia ou de l’ensemble de vos échanges courriels)

Le texte qui résultera de la combinaison de ces trois éléments partagera donc son auctorialité (notion fascinante sur laquelle je reviendrai), non pas à parts égales (1/3 à chaque fois, ce serait trop simple), mais plutôt à raison de l’identité de chacun de ces éléments. Pour résumer simplement, plus l’identité d’un de ces éléments sera forte, plus son impact sera prégnant sur le texte généré. L’analyse des trois éléments vus plus haut ne réunit pas bien entendu les mêmes difficultés – a priori, rien ne semble s’opposer au fait qu’un programmeur ait une identité, il existe même des articles à ce sujet.

http://logkat.com/content/images/2016/07/39b7b5c52793c0b132fc045e373c8c1bbcfdbb4f0c3b71c1fb8f490eb11b472d.jpg

L’identité de Bill Gates transpire littéralement de cette photo (source)

L’identité de la base de donnée utilisée est une question évidemment plus complexe, puisque celle-ci peut être, assez littéralement, n’importe quoi. Dans cet article de Motherboard, l’IA Tay de Microsoft utilise la base de donnée des inputs et nous fait un magnifique rendu – raciste, néo-nazi, pro lolcats – bref, un « succès » qui a logiquement mené Microsoft a couper la bête quelques heures après sa mise en ligne. Il existe évidemment d’autres cas, Our Arrival d’Allison Parrish dont le PDF est disponible ici, et qui utilise une base de données relativement peu importante : 5 700 phrases prélevées parmi des ouvrages du projet Gutenberg (merci le libre), tirées de genres aussi divers que le western, la science-fiction, la géologie ou la physique. Contenu varié qui donne également une identité variée… J’ai également parlé dans un article précédent du texte The Adventures of Cyborg Holmes, créé par Sid Sahay, et dont la base de donnée ne recoupe que les romans de Conan Doyle traitant de Sherlock Holmes. Unicité de l’identité d’un auteur, d’un thème, qui donne cette fois évidemment un rendu bien plus proche de Sherlock Holmes que de la personnalité de Sid Sahay… Du moins a priori.

Qu’en est-il de l’identité de l’algorithme ? Une IA (l’algorithme dont on parle) peut-il revêtir une identité quelconque ? Tout dépendra bien sûr de la définition de l’identité, qui ne sera pas la même pour qualifier l’intention d’auteur ou la base de données. Si on se réfère à l’étymologie, le terme « identité » se rapporte au latin « idem« , soit « le même« . Une définition intéressante du CNRTL remonte au XIVe siècle pour la définir ainsi :

« ce qui fait qu'une chose, une personne est la même qu'une autre, 
qu'il n'existe aucune différence entre elles »

Le terme prendra une acception plus anthropocentriste en 1756, grâce à Voltaire :

« caractère de ce qui est permanent; 
conscience de la persistance du moi »

On a donc une définition qui qualifie d’abord une chose (vous me voyez venir avec mon algorithme) et un individu, avant de se focaliser par la suite seulement sur la notion d’individu. On est, ceci étant, toujours axé sur la similarité, la correspondance avec un référent. Alors que le terme d’identité est généralement associé à l’individualité (et à sa singularité), il désigne aujourd’hui surtout la permanence – en rapport avec référent antérieur (on est soi-même parce que les autres nous ont toujours connu comme tel) ou un référent extérieur (quelque chose revêt telle ou telle identité en fonction de la catégorie à laquelle elle appartient). Selon cette approche, rien ne s’oppose donc à ce qu’un algorithme, une IA, ait une identité propre du moment que ses caractères sont permanents. Est-ce que les termes d’un algorithme sont permanents ? Vaste question. Si la doctrine s’est déjà penchée sur la question de la permanence du support numérique, le merveilleux monde des OA a ses spécificités, lesquels en modifient profondément les termes.

Nous allons nous focaliser sur deux plateformes distinctes dont j’ai déjà parlé : GitHub et Literai.com. La première est loin d’être spécifiquement dédiée à notre sujet mais abrite le concours NaNoGenMo. La seconde, quant à elle, est spécifiquement dédiée à notre objet.

S’il y a bien un point commun entre les deux plateformes, c’est avant tout la collaboration qu’elles mettent en avant. Nous ne sommes pas ici en terrain inconnu. Le web et les internets au sens large sont (entre autres) définis par leur aspect participatif et collaboratif, auxquels nos deux systèmes souscrivent allégrement. Là où ils se distinguent, c’est quand ils insistent sur la nécessaire mise à disposition de la méthode qui a servi à la génération textuelle, mise à disposition qui doit spécifiquement se faire auprès de la communauté.

The Rules The only rule is that you share at least one novel and also your source code at the end. The source code does not have to be licensed in a particular way, so long as you share it. The code itself does not need to be on GitHub, either. We’re just using this repo as a place to organize the community. (Convenient because many programmers have GitHub accounts and the Issues section works like a forum with excellent syntax highlighting.)

  • Pour Literai.com, il s’agit plus d’une incitation à partager la méthode (attention, il faut être inscrit pour voir la source)

Under the Summary section describe your story and what makes it interesting. In the Story section paste the story your AI wrote and use the formatting options to style it. Under the Methods section describe how you created the story and the process behind it. The Upload Model and Upload Data sections take a .t7 and .txt file respectively and should be used if you used the tutorial or a similar process to create your story. Otherwise you can ignore these fields. All work uploaded on this site will be licensed under a Creative Commons Attribution 4.0 International License.

Qu’il s’agisse d’une incitation ou d’une exigence, les deux plateformes s’inscrivent ainsi dans une culture du libre. L’influence de la pensée de Richard Stallman (père du logiciel libre et de la Free Software Foundation) et de Lawrence Lessig (père des creative commons) se fait sentir. (N.B : Si vous cliquez sur ce lien, vous avez même un texte du premier avec une introduction faite par le second, c’est dire s’ils sont copains.)

https://upload.wikimedia.org/wikipedia/commons/7/7b/Richard_Stallman_-_F%C3%AAte_de_l'Humanit%C3%A9_2014_-_010.jpg

Richard Stallman, père du libre (source)

Cette inscription dans une culture du libre semble irriguer à peu près toute la production d’œuvres générées par intelligence artificielle, du moins en ce qui concerne la littérature. Ça peut ou pourra poser des problèmes (notamment lorsque certains utilisent des corpus dont l’auteur n’est pas encore passé dans le merveilleux monde du libre (Coucou Max Deutsch et son chapitre d’Harry Potter balancé sur Medium). Cette réalité pousse donc certaines personnes – comme l’organisateur du NaNoGenMo – à préciser qu’il est plus tenable d’utiliser des œuvres issues du domaine public sur le long terme. Le mot semble bien passer, et c’est dans cette même logique que s’inscrit la mise à disposition de tutoriels pour apprendre à générer soit même son œuvre artificielle. Citons ici au moins celui de Max Deutsch (décidément), et celui proposé par Literai.com.

Ces tutoriels sont certainement la partie « institutionnalisée » de l’iceberg en matière de libre ; la partie immergée, tout aussi importante et au moins aussi intéressante est celle qui a lieu sur les forum, qu’ils soient sur GitHub, dans les groupes de discussion des réseaux sociaux (la communauté Literai sur Facebook par exemple), mais aussi et surtout dans les flux de discussion. Ceux-ci sont parfois longs, comme celui concernant The Swallows que vous pouvez trouver ici. Ce dernier est particulièrement intéressant parce qu’il illustre parfaitement mon hypothèse selon laquelle le forum se transforme en espace de production textuelle, non pas directement du texte, mais du code informatique qui sert à générer le-dit texte.

Image associée

Lawrence Lessig, père des Creative Commons (source)

On a ainsi plusieurs paragraphes de discussion dans lesquels les contributeurs, généralement participants au concours, se saisissent du code, le modifient et le remettent dans le flux de discussion, partagent leurs impressions, leurs expériences et leurs constats quand au texte généré par le texte du code lui-même. Les échanges ont trait quant au corpus, à sa teneur, aux méthodes éventuellement pertinentes pour améliorer le résultat final.

Un exemple plus bas, mentionné par le créateur du NaNoGenMo lui-même, Darius Kazemi :

 

So I've been playing with your idea. 
I wrote my own code from scratch, and then added a bunch of 
templated language, plus my twitter-source conversation 
engine. Here's the latest result (just a sample, not a full novel):

Autre proposition, cette fois d’un certain « MichaelPaulukonis » :

I played with adding a room and some items, and it all worked well.
Although it seems there's no way to mark an item as plural 
(say "buttons") or to place an item just in a location, only 
in a Container (Treasure, otoh, can be placed [only?] in a location).

Et une dernière, de « Robsimmons » :

So @chrisamaphone and I have created an extended fan fiction of 
The Swallows of Summer as one of our storyworlds for 
Procjam 2014: http://play.typesafety.net

Toutes ces réactions sont contributives au projet The Swallows et à ses suites ; l’intérêt est ici que les discussions se placent essentiellement dans un paradigme qui se situe dans une forme d’hybridité entre la recherche et la production artistique. Le champ lexical utilisé est nettement celui d’une dialectique visant à découvrir les traits génétiques forts de ce qui compose la réalité de l’œuvre produite.

Les mêmes discussions ont d’ailleurs lieu en bas des propositions de texte de la plateforme Literai.com : l’exemple de The Adventures of Cyborg Holmes est encore une fois pertinent : les réactions de Myles O’Neill s’inscrivent clairement dans une proposition de modification qui tient plus de l’édition (co-édition) et du travail collaboratif, agissant sur l’un des trois éléments de composition de l’œuvre artificielle :

If you wanted to extend the work further, 
I think a larger dataset would give the network
a more well-rounded writing style, since 500kb is on the small side.

La réponse de l’auteur-programmeur, Sid Sahay, prouve d’ailleurs la bonne foi généralisée du phénomène, à mi-chemin entre une tentative de dévoilement de la génétique du texte et celle d’une co-production :

I actually had trained the model on a larger dataset, 
but for I closed the docker terminal by mistake before 
actually saving it back to my computer. That training was 
on a much larger dataset ~3MB, and 3 days! I just lost my patience 😛

Will definitely try a do-over with the larger dataset, and post my results!

Tout cela participe certainement à un remaniement de la dimension d’auctorialité de ces œuvres artificielles. Gageons que l’étude du phénomène devra être poussée considérablement plus loin pour en éclaircir les multiples dimensions.