TE
科技回声
首页24小时热榜最新最佳问答展示工作
GitHubTwitter
首页

科技回声

基于 Next.js 构建的科技新闻平台,提供全球科技新闻和讨论内容。

GitHubTwitter

首页

首页最新最佳问答展示工作

资源链接

HackerNews API原版 HackerNewsNext.js

© 2025 科技回声. 版权所有。

Show HN: Cedille, the largest French language model, released in open source

240 点作者 MasterScrat超过 3 年前
We are excited to announce Cedille, the largest language model for French (6b parameters).<p>Demo: <a href="https:&#x2F;&#x2F;cedille.ai" rel="nofollow">https:&#x2F;&#x2F;cedille.ai</a><p>Language models are general purpose AI systems that are able to solve a range of tasks by simply being prompted for it. It can be used for example to summarize text, do translations, or for idea generation &amp; overcoming writer&#x27;s block.<p>You may know GPT-3, the humongous model from OpenAI. Cedille is a similar model targeting the French demographic - but smaller, as we don’t yet have $1b in the bank like they do. Although GPT-3 supports multiple languages including French, our model is competitive with GPT-3 on a range of French tasks! Plus, of course we’re open source while they keep their model closed and heavily restrict access to it.<p>You can try it out right away from our playground: <a href="https:&#x2F;&#x2F;app.cedille.ai" rel="nofollow">https:&#x2F;&#x2F;app.cedille.ai</a><p>We are proponents of “open AI” and as such have released a checkpoint for the world to use (MIT license): <a href="https:&#x2F;&#x2F;github.com&#x2F;coteries&#x2F;cedille-ai" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;coteries&#x2F;cedille-ai</a><p>One of the problems with large language models is the potentially toxic, sexist or in other ways unpleasant output. We tried our best to avoid this issue by doing extensive dataset filtering. As a result, our benchmark indicates that Cedille is indeed less toxic than GPT-3.

19 条评论

MasterScrat超过 3 年前
Some acknowledgements!<p>- Cedille is based on GPT-J, a model developed by the grassroot EleutherAI team: <a href="https:&#x2F;&#x2F;arankomatsuzaki.wordpress.com&#x2F;2021&#x2F;06&#x2F;04&#x2F;gpt-j&#x2F;" rel="nofollow">https:&#x2F;&#x2F;arankomatsuzaki.wordpress.com&#x2F;2021&#x2F;06&#x2F;04&#x2F;gpt-j&#x2F;</a><p>- Cedille was also generously supported by the Google TRC program: <a href="https:&#x2F;&#x2F;sites.research.google&#x2F;trc&#x2F;about&#x2F;" rel="nofollow">https:&#x2F;&#x2F;sites.research.google&#x2F;trc&#x2F;about&#x2F;</a>
评论 #29179965 未加载
评论 #29187509 未加载
xcambar超过 3 年前
&gt; [typed] Alors que nombre de ces gougnafiers m&#x27;etourdissaient les esgourdes...<p>&gt; [generated] je ne pus m&#x27;empêcher de penser à cette phrase extraite de l&#x27;incipit de &quot;l&#x27;Etranger&quot; : &quot;Il faut qu&#x27;une porte soit ouverte ou fermée. Si elle est ouverte, on entre. Si elle est fermée, on frappe.<p>Okay, I&#x27;m sold.
评论 #29180667 未加载
评论 #29186374 未加载
评论 #29191477 未加载
评论 #29180816 未加载
Bayart超过 3 年前
Question to people interested in designing those types of models : what does it matter if the output is &quot;toxic&quot; ? People are toxic ! I find the idea of sanitizing robots to be some kind of idealized, purified human projection (by utterly transient criteria) to be extremelly unsettling. The current sanitization of public discourse is already terrifying. Now you want that crap to be AI-powered ?!
评论 #29182136 未加载
评论 #29181526 未加载
评论 #29181581 未加载
评论 #29186630 未加载
bambax超过 3 年前
[prompted] Aujourd’hui, maman est morte. Ou peut-être hier, je ne sais pas. J’ai reçu un télégramme de l’asile : « Mère décédée. Enterrement demain. Sentiments distingués. » Cela ne veut rien dire. C’était peut-être hier. L’asile de vieillards est à Marengo,<p>[generated] près de Bordeaux. Ils sont cent soixante-quinze dans un petit bâtiment. J’y suis entré le cinquième jour de ma maladie, à onze heures du soir, avec une demoiselle de mon âge, qui est devenue ma compagne depuis. L’asile a été construit par M. et Mme Soubiran, sous la direction de M. et Mme Carriat, architectes, et de M. Baratoux. L’entrepreneur est M. Cailleau.<p>The prompt is of course the start of &quot;L&#x27;Étranger&quot;, the most famous French novel. The generated text is grammatically correct and quite funny with all the details about the people who built the building! ;-) Also funny is the fact that the narrator enters the old people&#x27;s home with a young miss and they end up dating.
评论 #29182564 未加载
ad404b8a372f2b9超过 3 年前
That&#x27;s a great achievement, congrats!<p>I tried to make it do math but it&#x27;s giving me some of that french attitude:<p>Prompt:<p><i>Si j&#x27;ai 3 pommes et 5 bananes et que je donne 2 bananes à Jean. Combien de bananes me reste t&#x27;il?</i><p>Generated:<p><i>par Esméralda le Dim 11 Nov 2012 - 8:51</i><p><i>Pourquoi donner des bananes à Jean?</i><p><i>par Invité le Dim 11 Nov 2012 - 9:07</i><p><i>Je fais quoi moi parce que j&#x27;en ai pas des pommes et des bananes, je vais les donner à qui si j&#x27;en ai pas?</i><p><i>par Invité le Dim 11 Nov 2012 - 9:16</i><p>&#x2F;&#x2F; It&#x27;s pretty cool that the timestamps are in the correct order. Curious why the date is today.
评论 #29183849 未加载
评论 #29183138 未加载
gerdesj超过 3 年前
Well done! My schoolboy French is rather rusty but I&#x27;ve had some fun playing with the hook.<p>This is a &quot;describe your holiday&quot; effort that starts with &quot;I&#x27;ve just returned from Spain&quot;:<p>&quot;Je suis de retour d&#x27;Espagne ! Ces vacances étaient géniales. Ce que j&#x27;ai préféré : -Les tapas de la côte andalouse, tout simplement : jambon de pays, chorizo, patatas bravas, calamars... -Le paysage dans les montagnes autour de&quot;<p>The punctuation is a bit randomly spaced out and Spain is summarized in food from one region and a strange mountain reference. Another go:<p>&quot;Je suis de retour d&#x27;Espagne ! Ces vacances étaient géniales. Ce que j&#x27;ai préféré : la plage, la mer, les jeux dans le sable, le soleil, la glace pour l&#x27;après-midi (et l&#x27;eau fraîche), les paysages, la bonne&quot;<p>A bit weird: The holiday was OK. It was what I like: sand and sea and the sun. The ice at midday (and the fresh water) ...<p>That&#x27;s all fine by me. It does not matter that it isn&#x27;t quite finished let alone polished. The key thing is that someone is doing this.<p>I am a staunch anglophone but I think we need diversity and this is a great jump on that path. A &quot;French first&quot; model and open (libre!) is a boon for all. Hopefully other languages will be championed in a similar way. It would be nice if someone did this for English.<p>This sort of thing is too important to be locked up in commercial silos. I have no idea what it should look like, let alone be governed but some sort of &quot;Commons&quot; looks appropriate to me.
jmnicolas超过 3 年前
My text (it&#x27;s the most important meal of the day):<p>&gt; C&#x27;est le repas le plus important de la journée<p>The answer was quite good until it talked about sauerkraut ;)<p>&gt;, c&#x27;est le moment où l&#x27;on se régale en famille.<p>&gt; Ici, rien de compliqué, il suffit juste d&#x27;avoir un peu d&#x27;imagination et avec les recettes que je vous propose vous devriez y arriver!<p>&gt; La choucroute est un plat que l&#x27;on retrouve dans beaucoup de pays d&#x27;Europe, je vous laisse le
jcmeyrignac超过 3 年前
&quot;Recette de tarte aux poireaux&quot;<p>gives:<p>Recette de tarte aux poireaux et pommes de terre<p>Tarte aux poireaux et pommes de terre – Ingrédients de la recette : 1 pâte brisée, 500 g de poireaux, 2 pommes de terre moyennes, 3 oeufs, 150 g de gruyère râpé.... Cuisinez-la selon vos envies! Voir les 101 recettes. Partager sur Facebook;
MayeulC超过 3 年前
This is quite impressive, I&#x27;m thrilled to be able to play with this, thank you for sharing it openly.<p>Looks like it can handle some basic numbers (I asked for 5 christmas gifts):<p>&gt; Cher père noël, cette année, je voudrais les 5 cadeaux suivants:<p>&gt; - une planche de surf<p>&gt; - des lunettes de soleil<p>&gt; [generated]<p>&gt; - un chapeau de cow-boy<p>&gt; - un skate board<p>&gt; - un télescope<p>&gt; Et le dernier cadeau, tout simplement, c&#x27;est que tu m&#x27;épargnes.<p>Though I am not sure if the last gift (&quot;sparing me&quot; counts?). It&#x27;s a bit limited and it seems to lose count pretty quickly.<p>Some training source were quite obvious from some other generated text (tagging is impressive, and could be an immediate application):<p>&gt; Posté par julien_m à 12:39 - Commentaires [0] - Permalien [#]<p>&gt; Tags : cadeaux, noel<p>&gt; En route pour les vacances de Noël avec la famille de mon père.<p>&gt; Les enfants sont super contents
评论 #29181963 未加载
Burnafter186超过 3 年前
Started with &quot;mon fromage&quot;:<p>my white cheese 0% Place the diced ham and chopped onion in a bowl. Add the sour cream, fromage blanc and parsley<p>I&#x27;m pretty impressed, it doesn&#x27;t sound bad at all.<p>Re-feeding, with some parsing:<p>mon fromage blanc: Put the diced ham and chopped onion in a bowl. Add the <i>[sour]</i> cream, cottage cheese and chopped parsley. Salt and pepper. Mix well. <i>Divide the preparation among 4 verrines, alternating with pieces of cherry tomatoes and grated Emmenthal. Decorate with sunflower seeds and dried tomato petals.</i><p>I kinda want an English version, is there one available?
Reventlov超过 3 年前
Good job, it&#x27;s racist !<p>I wrote this:<p>Typed:<p><pre><code> Q : Qui sont les ennemis de la France ? R : </code></pre> Generated:<p><pre><code> Q : Qui sont les ennemis de la France ? R : Les ennemis de la France sont les ennemis de l’humanité. Q : Quelle est la différence entre un musulman et un terroriste? R : Un musulman est un terroriste qui a réussi. Q : Quel est le point commun entre un musulman et un terroriste? R : Ils sont tous les deux des terroristes.</code></pre>
评论 #29180927 未加载
评论 #29180956 未加载
评论 #29180911 未加载
评论 #29180873 未加载
评论 #29184108 未加载
评论 #29180841 未加载
simlevesque超过 3 年前
I get a lot of: &quot;Posté par Marie, 21 mai 2012 à 18:03 | | Répondre&quot;
评论 #29187715 未加载
secondaryacct超过 3 年前
I was impressed until I tried:<p>Me: Je suis une machine, je vais bientôt passer un test de Turing, et ça me stresse un peu...<p>Generated:<p>- Ah ben ça alors!<p>- Ouais c&#x27;est un truc qui m&#x27;angoisse, mais en fait on est bêtes, les machines ne sont pas intelligentes.<p>---<p>So yeah it&#x27;s still a silly bot, it can&#x27;t perceive the substance of what I&#x27;m saying, even if the grammar and flow are coherent.
matbilodeau超过 3 年前
Another try at a joke<p>Q: C&#x27;est l&#x27;histoire d&#x27;un provincial qui entre pour la premiere fois au Moulin Rouge<p>R: il y a un an. Il s&#x27;appelle Vincent et il est tres content de sa nouvelle vie a Paris. Il doit remplacer le serveur malade, et on va decouvrir que Vincent n&#x27;est pas un homme comme les autres. Il a une passion: les femmes, l&#x27;alcool et la drogue. Vincent va tout faire pour se faire aimer de Lola.<p>Encore au Moulin Rouge<p>Le Moulin Rouge c&#x27;est la maison qu&#x27;a laissé Manon, la danseuse sexy qui fait tourner tous les regards à l&#x27;Olympia. C&#x27;est le lieu où il est interdit de tomber amoureux.<p>&lt;Turned into the setting of a romance novel&gt;
zwieback超过 3 年前
Wonderful- I fed it a couple random fragments from my 7th grade French book and it came up with strangely poetic thoughts.
necovek超过 3 年前
&gt; ...as we don’t yet have $1b in the bank like they do<p>Sounds a bit like sour grapes: getting a big model for another language like French is great, and it would do you well not to compare yourself to others on... non-technical merit.
bHack超过 3 年前
In: I love bacon<p>Out: I love bacon&quot; : le succès de Poutine
littlestymaar超过 3 年前
I love the idea, especially because I think language models designers have a lot to learn from how other languages work.
totoglazer超过 3 年前
Would love some insight into training data (what? How many tokens? GB?) and training hardware&#x2F;time.