Fou à lier

Statistical fallacies and how to avoid them | Geckoboard

06/05/2021 11:18:28

Tous les biais & erreurs statistiques à éviter.

What Happens Next? COVID-19 Futures, Explained With Playable Simulations

07/05/2020 15:10:20

Quel boulot de dingue que ce simulateur épidémique basé sur le modèle SIR. C'est super bien expliqué, on peut voir des effets de différentes stratégies, etc.

Trop bien.

Il donne du cannabis à son chat, ça tourne mal - YouTube

10/12/2017 00:19:45

Méthodo intéressante pour les sondages sur les questions "délicates" (lorsque le répondant hésite à répondre à une question, par exemple politique ou sur l'usage de drogue) :

demander au répondant de tirer secrètement un dé ;
si il obtient 6, répondre positivement (« oui j'ai consommé du cannabis ») ;
sinon, répondre normalement.

Ainsi, impossible de savoir s'il a répondu à cause du chiffre ou honnêtement, son secret est donc partiellement protégé. De plus, le biais ainsi créé est facile à lever.

Tu bois du light ? T’es foutu ! - YouTube

17/07/2017 21:07:33

Excellente vidéo pour expliquer que corrélation n'est pas causalité. En utilisant des cas réels "d'études" et de communication de ces dernières par … la presse…

Parsing Text for Emotion Terms: Analysis & Visualization Using R | DataScience+

25/05/2017 15:50:32

Analyse de sentiment en R et représentation.

via : https://m.rweekly.org/users/rweekly/updates/438

Learn Python for Data Science - Online Course

17/05/2017 18:49:54

MOOC sur Python for Data Science, à garder sous le coude.

Politoscope |

05/05/2017 16:21:34

Intéressant : analyse de la campagne présidentielle avec les nombreuses données récoltées (notamment sur les réseaux sociaux).
Il y a aussi des analyses, interprétations, brèves. C'est sérieux, d'ailleurs c'est réalisé en partie par le CNRS.

via : https://mamot.fr/@HenriVerdier/357431

Same Stats, Different Graphs: Generating Datasets with Varied Appearance and Identical Statistics through Simulated Annealing | Autodesk Research

04/05/2017 00:14:11

Rôôô, génial : une publication qui explique comment faire des graphes de dispersion qui possèdent les mêmes caractéristiques statistiques (moyennes, écart-types, corrélation) à l'aide d'algorithme de recuit simulé.
Résultat, cette image magnifique :
mêmes statistiques, différentes dispersions

https://twitter.com/TahaYasseri/status/859084459127316480

GitHub - leehomyc/High-Res-Neural-Inpainting: High-Resolution Image Inpainting using Multi-Scale Neural Patch Synthesis

28/02/2017 17:54:55

Woké : encore du dessin / de la génération d'image assistée par du deep-learning. Cette fois, on supprime un bout de l'image, et on lui demande de compléter. Résultat juste bluffant.
résultat de génération d'image par deep-learning

via : http://sebsauvage.net/links/?d4kVJQ

Image-to-Image Demo - Affine Layer

28/02/2017 17:45:30

Woké. Avec un bon réseau de neurones profonds, on peu désormais faire un dessin au crayon et le voir devenir une sorte de photo (c'est évidemment encore du TensorFlow).
Bon, perso j'ai essayé, mais étant très mauvais dessinateur, les résultats n'étaient pas non plus dingues (sauf à considérer ce qu'il faut de technique pour arriver ne serait-ce que là).
Je serais curieux de voir le résultat de meilleurs dessinateurs.

The Data Visualisation Catalogue

22/02/2017 14:55:43

Très intéressant : un catalogue de Dataviz où l'on peut choisir sa représentation par fonction ou par type. Très bien !

via : https://www.margaux-perrin.com/serendipity/?euUl1Q

Risques, décisions et incertitudes : la théorie des perspectives

07/01/2017 11:01:07

Décidément, j'aime beaucoup ce blog / chaîne Youtube de science.
Dernière vidéo en date sur ce « crétin de cerveau » c'est-à-dire les biais cognitifs. Et cet épisode m'inspire particulièrement parce qu'il parle de probabilités et de l'impossibilité pour l'être humain de les ressentir correctement.

Regardez donc la vidéo, faites vos choix et fur et à mesure et … WTF ! J'adore :)

datamake:project | film money

04/11/2016 17:45:15

Une histoire de l'argent dans les films US (budgets, revenus, etc.).
Le sujet est intéressant, mais c'est surtout la visualisation qu'il faut voir. C'est magnifique, j'imagine pas le boulot pour faire tout ça.

À voir !

via : https://twitter.com/arnicas/status/794473485703802880

Image Synthesis from Yahoo's open_nsfw

22/10/2016 16:57:41

Que se passe-t-il quand un réseau de neurones profond (DeepLearning) adapté à la vision/reconnaissance d'images est utilisé en marche arrière (en modèle générateur) ? Des chercheurs l'avaient déjà réalisé à partir de l'outil de Google.

Cette fois, c'est sur celui de Yahoo! pour la classification d'images pornographiques. Donc, ça fait une machine à créer des rêves pornographiques totalement chelous.
Les images sont dérangeantes à souhait, mais complètement SFW.

via : http://sebsauvage.net/links/?Ev2Fkg

Cognitive bias cheat sheet

09/09/2016 17:46:56

Wow !! Un mec a fait un travail extraordinaire à partir de Wikipedia : il a recensé les biais dits "cognitifs" dans une grande carte hiérarchique. Je suis soufflé par tant de boulot.

via : https://twitter.com/Margauxlergo/status/773184663032590337

Some Intuition About the Theory of Statistical Learning | Freakonometrics

26/07/2016 14:41:45

Wow, très intéressant. Quelques bouts de codes et un peu de théorie sur la robustesse en apprentissage statistique. Voir les slides aussi, très intéressantes (bien qu'assez peu "autoporteuses" : le speech aurait été un plus)

via : https://twitter.com/dataandme/status/757648167940816896

Why Not to Trust Statistics | Math with Bad Drawings

19/07/2016 17:59:50

Les différentes métriques statistiques en dessin, et pourquoi elles ne sont jamais significatives seules :

moyenne,
médiane,
catégorie (modale),
étendues (== range),
corrélation,
variance.

Dommage que le titre soit si mal trouvé.
Il y a toujours ce dicton qui dit "il ne faut pas croire les chiffres / les statistiques" mais c'est totalement faux. C'est l'interprétation qui est fausse ou biaisée.

Ce serait comme de dire que l'ordinateur se trompe : no, it isn't. C'est le programme qui est faux par rapport à la fonction, pas l'exécution.

via : https://twitter.com/MaliciaRogue/status/754940561304551424

Announcing the Availability of the Microsoft Data Science Virtual Machine | Cortana Intelligence and Machine Learning Blog

12/07/2016 11:09:06

VM pour faire de la datascience, orientée Microsoft (& Azure)

via : https://twitter.com/FranmerMS/status/668884931519606784

MOOC on Data Science & ML Essentials – Now Available On-Demand | Cortana Intelligence and Machine Learning Blog

12/07/2016 11:07:32

Un MOOC sur le machine-learning qui semble intéressant.

via : https://twitter.com/FranmerMS/status/667034926106169344

L’effet d’ancrage — Crétin de cerveau #2

31/05/2016 15:00:18

Article et vidéo sur un biais cognitif : l'effet d'ancrage. Que je ne connaissais pas. Honte à moi.
Bien documenté.

Comparison of JavaScript charting frameworks - Wikipedia, the free encyclopedia

25/05/2016 15:36:26

Décidément, je fais bien de vider les Shaarli du patron (Seb) que j'avais mis de côté (certains datent de deux ans !)
Ici, le tableau Wikipedia des frameworks JS pour de la DataViz. Ça va bien me servir.

via : http://sebsauvage.net/links/?0TvjmQ

neural-style/README.md at master · jcjohnson/neural-style · GitHub

25/05/2016 15:32:15

Excellent : un outil de deep-mining sur des images pour reproduire des styles graphiques de peintres. Ça marche relativement bien (voir très bien).
Bluffant.

via : http://sebsauvage.net/links/?q0kjug

L’effet de halo (Crétin de cerveau #1)

23/05/2016 11:18:25

Super vidéo sur l'effet Halo (biais cognitif qui nous laisse penser que les plus grands / plus beaux, sont plus capables).

Le deep learning

09/04/2016 11:15:37

Supers vidéo et article sur le deep-learning. En particulier les exemples sous la vidéo :)

Apache Arrow Homepage

26/02/2016 16:31:08

Owwww. Un nouveau projet Apache (Top-Level s'iouplait) pour la gestion du données. Une sorte de micro-batching, mais sans sérialisation / désérialisation. Et donc, visiblement plus rapide.

À tester donc.

Le terrorisme vu par Louis T : c'est quoi le problème ?

30/12/2015 12:27:09

Une vidéo humoristique pour donner quelques statistiques à propos du terrorisme. Percutant.

David sur Twitter : "On how the way you word a question can give you a completely different answer:"Reducing" versus "Giving the right" https://t.co/qsWo1cGWq5"

21/12/2015 19:44:55

Ah, intéressant : la différence de réponse selon la forme de la question :

réduire âge de vote à 16 ans, versus
donner aux 16-17 ans le droit de vote.
Attention aux sondages, ils sont souvent synonyme de manipulation, et en France toujours.

habibi sur Twitter : "Stocks de @Velib par stations toutes les heures pendant 1 semaine à @Paris https://t.co/KMUmeh6gAW"

13/12/2015 18:17:07

Une carte montrant le déplacement des vélibs par heure à Paris. Apparemment, tout le monde commence à bosser à la même heure ! et habite à l'extérieur de Paris. En tout cas, j'aime bien ce genre de visualisation.

Using Azure ML to Build Clickthrough Prediction Models - Machine Learning - Site Home - TechNet Blogs

04/11/2015 01:00:21

« Using Azure ML to Build Clickthrough Prediction Models »

Franchement, ils m'impressionnent chez Microsoft. Je les croyais mourants, inertes, plus à la page et complètement déconnectés des innovations actuelles. Et ben avec leur Azure ML, ils envoient du gros lourd.

via : https://twitter.com/FranmerMS/status/661606891760574464

Choosing R or Python for data analysis? An infographic | Diego Marinho de Oliveira | LinkedIn

30/10/2015 11:36:17

Une comparaison de R et Python pour l'analyse de données. Ça me laisse un peu pantois : on sait déjà tous un peu ça, et les faits ne facilitent pas le choix. J'crois qu'il faut simplement apprendre les deux…

Teaching image-recognition algorithms to produce nightmarish hellscapes - Boing Boing

15/07/2015 00:54:28

Je mets ça ici : le truc de Google en deeplearning, qui « produit des images » par rapport à d'autres, et par voie de ressemblance. Dans ce cas, ce sont des réseaux neuronaux multicouches qui sont utilisés.

via : http://sebsauvage.net/links/?r2kuRQ

La force de la donnée molle | Arnaud Vincent | LinkedIn

09/07/2015 10:09:31

Très bon article sur les données “molles”. Concept qui recouvre plusieurs choses : les méta-données, la psychologie, et notamment dans la mesure, etc.

Dans un monde de data, c'est important d'avoir ça en tête, parce qu'il faut sortir de la donnée stricte qui peut être hyper trompeuse.

Googlol

03/06/2015 10:45:03

Ahah. Est-ce parce que j'ai paramétré mes appareils pour bloquer un maximum de données sur moi (Ghostery, AdBlock, DoNotTrack, verrouillage d'applis, utilisation massive de YopMail/autre, réponses aléatoires dans les questionnaires, et surtout paramétrage des applications, etc.) ou est-ce parce que Google n'est pas si bon (j'en doute) mais je me suis rendu sur la page Google dédiée aux paramètres des annonces.
En gros, ils calculent ou obtiennent certaines données sur vous, comme l'âge, le sexe etc. (c'est bon) et infèrent des centres d'intérêt. Et malgré mon utilisation importante de YouTube et une multitude de produits Google, les centres d'intérêt sont complètement faux. Presque tous.

Apparemment, j'aime la musique pop / industrie musicale, est assez friand de vêtements de sport (big lol), ou encore de mode, de films d'action, de Jeux Olympiques, de Reggae (but WTF) et de smartphones !
Ahahah. C'est tellement diamétralement opposé à mes vrais centres d'intérêt.
Pour le coup, je pense qu'Amazon en sait plus que Google.

EDIT : et évidemment, la plupart des paramètres de Google sont persistants. Mais comme de par hasard, pas le ciblage des publicités sur le web. Qui dépend donc d'un cookie.

Facebook open-sources new A.I. smarts | Computerworld

25/05/2015 23:53:17

Facebook met à disposition en open-source des outils de machine-learning ou deep-learning. Ils travaillent (évidemment) beaucoup sur le sujet actuellement.
À garder sous le coude.

via : https://twitter.com/erikbryn/status/556454800150499328

Jean-Luc Lahaye, qui a corrompu une mineure, s’en prend à Facebook

18/05/2015 15:44:55

Oula, tout ça est chaud. Et limite de partout.

J'espère en tout cas qu'on ne se dirige pas vers une police et une justice totalement opaque et privée. J'aurais préféré que, quitte à utiliser de détection automatique, ce soient des agents de l'état qui soient au monitoring. Parce qu'alors, ce n'est pas la bonne morale de Facebook, société américaine, mais de l'état, gouverné par le peuple (sic).

Bref, chaud.

Sondages honteux sur les départementales 2015

17/05/2015 16:53:19

Un bon résumé des manipulations, tromperies et mensonges des instituts de sondage français. Et encore, je pourrais rajouter une foule d'arguments, à la pelle.

via : https://twitter.com/GrablyR/status/575900326080999424

Les 231 morts fictifs de la dompéridone expliqués à ma fille

17/05/2015 03:06:01

Tiens, il me semblait l'avoir déjà publié, mais je ne le retrouve pas.

Des explications sur les notions de risque statistique, d'étude de mise sur le marché / efficacité / impactologie / etc., et du fameux problème du paradoxe de Simpson (facteur de confusion caché)
C'est vraiment très intéressant de l'expliquer comme ça : simple, efficace.

via : https://twitter.com/Dr_Stephane/status/591512248230617089

Loi renseignement : « Des dizaines de milliers de personnes vont être suspectées à tort »

17/05/2015 00:23:14

Un avis éclairé et technique de chercheurs sur les algorithmes des boîtes noires et leurs performances attendues. Je suis totalement de cet avis, avec à peu près les mêmes arguments.

(diantre, mais pourquoi, dès que des chercheurs sont interrogés, on se sent obligé de glisser ce genre de truc : « Cet entretien reflète exclusivement l'opinion de ses auteurs et n’engage en aucune façon l’Inria. » Il n'y a plus si longtemps, le corps des chercheurs était l'un des rares corps de fonctionnaires à avoir un droit et une liberté de parole totale. D'où l'absence de nécessité d'user de ce genre de truc… Ça m'agace, ça montre que même leur liberté s'effrite)

via : https://twitter.com/FlorianP123/status/595867822632361984

Laurel - Le concours (gerbant) de BIBA et Little market.

16/05/2015 22:24:10

Quand même, tout ce travail qu'on fait faire gratuitement à des « passionnés » par leur boulot, ça devient emmerdant. Tout travail mérite salaire, hein.
C'est comme (pour mon métier) ces foutues plateformes qui pullulent un peu partout : Kaggle, datascience.net, le challenge SNCF. Je vous encule, m'voyez-vous ? Oui, je vous encule. Mes compétences m'ont coûté des années d'études, alors fuck.
Voir aussi : http://foualier.gregory-thibault.com/?u_Colg

via : https://twitter.com/Bouletcorp/status/597760146308141058

Oui, l’agriculture biologique peut nourrir la planète - Rue89 - L'Obs

13/05/2015 16:08:56

Un article sur l'erreur méthodologique de comparaison des rendements en agriculture bio versus conventionnelle. C'est intéressant d'un point de vue statistique et de modélisation, mais ça reflète également des problèmes de notre système : les modes de publication scientifique, la politique agricole, etc.

« En bio, les paramètres n’ont de sens que dans leurs relations mutuelles et varient toujours de façon combinée. Par conséquent, faire varier « un unique paramètre » dans un système biologique signifie très exactement nier ce système, le détruire, le trahir. »
Autrement dit, le conventionnel c'est faire pousser une plante, et le bio, s'occuper d'un système (dans le sens technique du terme)
Encore autrement, et comme c'est dit dans l'article : « la bio, ce n'est pas le conventionnel "moins" la chimie »

Shaarli et mon travail

19/10/2014 23:52:55

Franchement, j'dois dire un grand merci à Shaarli (donc à SebSauvage et les contributeurs du projet)
J'suis -- encore -- à la bourre pour une présentation importante à mon travail. Manque d'inspiration.
Puis « tiens, si j'allais voir dans mon Shaarli si j'ai deux trois ressources pour un canevas de prés… WHAAAAT !!?? »

Parfait mon poto, tu viens d'sauver ma nuit !

Le vrai adversaire de Netflix, c’est le logiciel de streaming Popcorn

16/09/2014 13:36:18

« Enfin, dernier argument : l’algorithme de recommandation. Ce n’est pas moins de 900 ingénieurs qui travaillent en secret sur le système qui prédit tout de vos goûts, véritable cœur du réacteur de l’entreprise. Selon ses chiffres, dans 75% des cas, l’abonné regarde une vidéo qui lui a été recommandée au préalable. »

Je répète : « … 900 ingénieurs qui travaillent en secret sur le système qui prédit tout de vos goûts … véritable cœur du réacteur de l’entreprise … 75% des cas, l’abonné regarde une vidéo qui lui a été recommandée au préalable … »

On est dans l'air des données. Les données = le fric.
+1 pour cet article.

Datascience.net - Prédiction de la fréquentation des gares SNCF en Ile-de-France

07/07/2014 17:33:46

À toi qui participe à ce genre de « challenge » (façon de faire travailler gratuitement des gens à forte compétence sur des problématiques hautement stratégiques) merci de recevoir mon mépris le plus total.

Citation : « Les 3 meilleurs contributeurs recevront chacun 600 € en "chèque cadeau SNCF" » … #CQFD

Le secret du bonheur en douze graphiques - Le nouvel Observateur

06/07/2014 18:20:16

Pas mal ces infographies, pour tenter de comprendre à quoi est lié le bonheur (attention, aucune étude statistique de dépendance, juste de la stat exploratoire qui décrit l'évolution de certains critères, comme le bonheur, l'argent, etc. au cours de la vie)

Du coup, c'est un premier travail de recoupement très intéressant pour commencer des études stat' complètes dans certains pays. Et donc pouvoir ensuite "driver" la politique via des leviers (si jamais il nous prenait le malheur de s'intéresser à l'intérêt général)

10 things statistics taught us about big data analysis | Simply Statistics

04/06/2014 16:04:31

10 points d'analyse statistique à respecter. Intéressant.