Tous les biais & erreurs statistiques à éviter.
Quel boulot de dingue que ce simulateur épidémique basé sur le modèle SIR. C'est super bien expliqué, on peut voir des effets de différentes stratégies, etc.
Trop bien.
Méthodo intéressante pour les sondages sur les questions "délicates" (lorsque le répondant hésite à répondre à une question, par exemple politique ou sur l'usage de drogue) :
Ainsi, impossible de savoir s'il a répondu à cause du chiffre ou honnêtement, son secret est donc partiellement protégé. De plus, le biais ainsi créé est facile à lever.
Analyse de sentiment en R et représentation.
MOOC sur Python for Data Science, à garder sous le coude.
Intéressant : analyse de la campagne présidentielle avec les nombreuses données récoltées (notamment sur les réseaux sociaux).
Il y a aussi des analyses, interprétations, brèves. C'est sérieux, d'ailleurs c'est réalisé en partie par le CNRS.
Rôôô, génial : une publication qui explique comment faire des graphes de dispersion qui possèdent les mêmes caractéristiques statistiques (moyennes, écart-types, corrélation) à l'aide d'algorithme de recuit simulé.
Résultat, cette image magnifique :
Woké : encore du dessin / de la génération d'image assistée par du deep-learning. Cette fois, on supprime un bout de l'image, et on lui demande de compléter. Résultat juste bluffant.
Woké. Avec un bon réseau de neurones profonds, on peu désormais faire un dessin au crayon et le voir devenir une sorte de photo (c'est évidemment encore du TensorFlow).
Bon, perso j'ai essayé, mais étant très mauvais dessinateur, les résultats n'étaient pas non plus dingues (sauf à considérer ce qu'il faut de technique pour arriver ne serait-ce que là).
Je serais curieux de voir le résultat de meilleurs dessinateurs.
Très intéressant : un catalogue de Dataviz où l'on peut choisir sa représentation par fonction ou par type. Très bien !
Décidément, j'aime beaucoup ce blog / chaîne Youtube de science.
Dernière vidéo en date sur ce « crétin de cerveau » c'est-à-dire les biais cognitifs. Et cet épisode m'inspire particulièrement parce qu'il parle de probabilités et de l'impossibilité pour l'être humain de les ressentir correctement.
Regardez donc la vidéo, faites vos choix et fur et à mesure et … WTF ! J'adore :)
Une histoire de l'argent dans les films US (budgets, revenus, etc.).
Le sujet est intéressant, mais c'est surtout la visualisation qu'il faut voir. C'est magnifique, j'imagine pas le boulot pour faire tout ça.
À voir !
Que se passe-t-il quand un réseau de neurones profond (DeepLearning) adapté à la vision/reconnaissance d'images est utilisé en marche arrière (en modèle générateur) ? Des chercheurs l'avaient déjà réalisé à partir de l'outil de Google.
Cette fois, c'est sur celui de Yahoo! pour la classification d'images pornographiques. Donc, ça fait une machine à créer des rêves pornographiques totalement chelous.
Les images sont dérangeantes à souhait, mais complètement SFW.
Wow !! Un mec a fait un travail extraordinaire à partir de Wikipedia : il a recensé les biais dits "cognitifs" dans une grande carte hiérarchique. Je suis soufflé par tant de boulot.
via : https://twitter.com/Margauxlergo/status/773184663032590337
Wow, très intéressant. Quelques bouts de codes et un peu de théorie sur la robustesse en apprentissage statistique. Voir les slides aussi, très intéressantes (bien qu'assez peu "autoporteuses" : le speech aurait été un plus)
via : https://twitter.com/dataandme/status/757648167940816896
Les différentes métriques statistiques en dessin, et pourquoi elles ne sont jamais significatives seules :
Dommage que le titre soit si mal trouvé.
Il y a toujours ce dicton qui dit "il ne faut pas croire les chiffres / les statistiques" mais c'est totalement faux. C'est l'interprétation qui est fausse ou biaisée.
Ce serait comme de dire que l'ordinateur se trompe : no, it isn't. C'est le programme qui est faux par rapport à la fonction, pas l'exécution.
via : https://twitter.com/MaliciaRogue/status/754940561304551424
VM pour faire de la datascience, orientée Microsoft (& Azure)
via : https://twitter.com/FranmerMS/status/668884931519606784
Un MOOC sur le machine-learning qui semble intéressant.
via : https://twitter.com/FranmerMS/status/667034926106169344
Article et vidéo sur un biais cognitif : l'effet d'ancrage. Que je ne connaissais pas. Honte à moi.
Bien documenté.
Décidément, je fais bien de vider les Shaarli du patron (Seb) que j'avais mis de côté (certains datent de deux ans !)
Ici, le tableau Wikipedia des frameworks JS pour de la DataViz. Ça va bien me servir.
Excellent : un outil de deep-mining sur des images pour reproduire des styles graphiques de peintres. Ça marche relativement bien (voir très bien).
Bluffant.
Super vidéo sur l'effet Halo (biais cognitif qui nous laisse penser que les plus grands / plus beaux, sont plus capables).
Supers vidéo et article sur le deep-learning. En particulier les exemples sous la vidéo :)
Owwww. Un nouveau projet Apache (Top-Level s'iouplait) pour la gestion du données. Une sorte de micro-batching, mais sans sérialisation / désérialisation. Et donc, visiblement plus rapide.
À tester donc.
Une vidéo humoristique pour donner quelques statistiques à propos du terrorisme. Percutant.
Ah, intéressant : la différence de réponse selon la forme de la question :
Une carte montrant le déplacement des vélibs par heure à Paris. Apparemment, tout le monde commence à bosser à la même heure ! et habite à l'extérieur de Paris. En tout cas, j'aime bien ce genre de visualisation.
« Using Azure ML to Build Clickthrough Prediction Models »
Franchement, ils m'impressionnent chez Microsoft. Je les croyais mourants, inertes, plus à la page et complètement déconnectés des innovations actuelles. Et ben avec leur Azure ML, ils envoient du gros lourd.
via : https://twitter.com/FranmerMS/status/661606891760574464
Une comparaison de R et Python pour l'analyse de données. Ça me laisse un peu pantois : on sait déjà tous un peu ça, et les faits ne facilitent pas le choix. J'crois qu'il faut simplement apprendre les deux…
Je mets ça ici : le truc de Google en deeplearning, qui « produit des images » par rapport à d'autres, et par voie de ressemblance. Dans ce cas, ce sont des réseaux neuronaux multicouches qui sont utilisés.
Très bon article sur les données “molles”. Concept qui recouvre plusieurs choses : les méta-données, la psychologie, et notamment dans la mesure, etc.
Dans un monde de data, c'est important d'avoir ça en tête, parce qu'il faut sortir de la donnée stricte qui peut être hyper trompeuse.
Ahah. Est-ce parce que j'ai paramétré mes appareils pour bloquer un maximum de données sur moi (Ghostery, AdBlock, DoNotTrack, verrouillage d'applis, utilisation massive de YopMail/autre, réponses aléatoires dans les questionnaires, et surtout paramétrage des applications, etc.) ou est-ce parce que Google n'est pas si bon (j'en doute) mais je me suis rendu sur la page Google dédiée aux paramètres des annonces.
En gros, ils calculent ou obtiennent certaines données sur vous, comme l'âge, le sexe etc. (c'est bon) et infèrent des centres d'intérêt. Et malgré mon utilisation importante de YouTube et une multitude de produits Google, les centres d'intérêt sont complètement faux. Presque tous.
Apparemment, j'aime la musique pop / industrie musicale, est assez friand de vêtements de sport (big lol), ou encore de mode, de films d'action, de Jeux Olympiques, de Reggae (but WTF) et de smartphones !
Ahahah. C'est tellement diamétralement opposé à mes vrais centres d'intérêt.
Pour le coup, je pense qu'Amazon en sait plus que Google.
EDIT : et évidemment, la plupart des paramètres de Google sont persistants. Mais comme de par hasard, pas le ciblage des publicités sur le web. Qui dépend donc d'un cookie.
Facebook met à disposition en open-source des outils de machine-learning ou deep-learning. Ils travaillent (évidemment) beaucoup sur le sujet actuellement.
À garder sous le coude.
via : https://twitter.com/erikbryn/status/556454800150499328
Oula, tout ça est chaud. Et limite de partout.
J'espère en tout cas qu'on ne se dirige pas vers une police et une justice totalement opaque et privée. J'aurais préféré que, quitte à utiliser de détection automatique, ce soient des agents de l'état qui soient au monitoring. Parce qu'alors, ce n'est pas la bonne morale de Facebook, société américaine, mais de l'état, gouverné par le peuple (sic).
Bref, chaud.
Un bon résumé des manipulations, tromperies et mensonges des instituts de sondage français. Et encore, je pourrais rajouter une foule d'arguments, à la pelle.
Tiens, il me semblait l'avoir déjà publié, mais je ne le retrouve pas.
Des explications sur les notions de risque statistique, d'étude de mise sur le marché / efficacité / impactologie / etc., et du fameux problème du paradoxe de Simpson (facteur de confusion caché)
C'est vraiment très intéressant de l'expliquer comme ça : simple, efficace.
via : https://twitter.com/Dr_Stephane/status/591512248230617089
Un avis éclairé et technique de chercheurs sur les algorithmes des boîtes noires et leurs performances attendues. Je suis totalement de cet avis, avec à peu près les mêmes arguments.
(diantre, mais pourquoi, dès que des chercheurs sont interrogés, on se sent obligé de glisser ce genre de truc : « Cet entretien reflète exclusivement l'opinion de ses auteurs et n’engage en aucune façon l’Inria. » Il n'y a plus si longtemps, le corps des chercheurs était l'un des rares corps de fonctionnaires à avoir un droit et une liberté de parole totale. D'où l'absence de nécessité d'user de ce genre de truc… Ça m'agace, ça montre que même leur liberté s'effrite)
via : https://twitter.com/FlorianP123/status/595867822632361984
Quand même, tout ce travail qu'on fait faire gratuitement à des « passionnés » par leur boulot, ça devient emmerdant. Tout travail mérite salaire, hein.
C'est comme (pour mon métier) ces foutues plateformes qui pullulent un peu partout : Kaggle, datascience.net, le challenge SNCF. Je vous encule, m'voyez-vous ? Oui, je vous encule. Mes compétences m'ont coûté des années d'études, alors fuck.
Voir aussi : http://foualier.gregory-thibault.com/?u_Colg
via : https://twitter.com/Bouletcorp/status/597760146308141058
Un article sur l'erreur méthodologique de comparaison des rendements en agriculture bio versus conventionnelle. C'est intéressant d'un point de vue statistique et de modélisation, mais ça reflète également des problèmes de notre système : les modes de publication scientifique, la politique agricole, etc.
« En bio, les paramètres n’ont de sens que dans leurs relations mutuelles et varient toujours de façon combinée. Par conséquent, faire varier « un unique paramètre » dans un système biologique signifie très exactement nier ce système, le détruire, le trahir. »
Autrement dit, le conventionnel c'est faire pousser une plante, et le bio, s'occuper d'un système (dans le sens technique du terme)
Encore autrement, et comme c'est dit dans l'article : « la bio, ce n'est pas le conventionnel "moins" la chimie »
Franchement, j'dois dire un grand merci à Shaarli (donc à SebSauvage et les contributeurs du projet)
J'suis -- encore -- à la bourre pour une présentation importante à mon travail. Manque d'inspiration.
Puis « tiens, si j'allais voir dans mon Shaarli si j'ai deux trois ressources pour un canevas de prés… WHAAAAT !!?? »
Parfait mon poto, tu viens d'sauver ma nuit !
« Enfin, dernier argument : l’algorithme de recommandation. Ce n’est pas moins de 900 ingénieurs qui travaillent en secret sur le système qui prédit tout de vos goûts, véritable cœur du réacteur de l’entreprise. Selon ses chiffres, dans 75% des cas, l’abonné regarde une vidéo qui lui a été recommandée au préalable. »
Je répète : « … 900 ingénieurs qui travaillent en secret sur le système qui prédit tout de vos goûts … véritable cœur du réacteur de l’entreprise … 75% des cas, l’abonné regarde une vidéo qui lui a été recommandée au préalable … »
On est dans l'air des données. Les données = le fric.
+1 pour cet article.
À toi qui participe à ce genre de « challenge » (façon de faire travailler gratuitement des gens à forte compétence sur des problématiques hautement stratégiques) merci de recevoir mon mépris le plus total.
Citation : « Les 3 meilleurs contributeurs recevront chacun 600 € en "chèque cadeau SNCF" » … #CQFD
Pas mal ces infographies, pour tenter de comprendre à quoi est lié le bonheur (attention, aucune étude statistique de dépendance, juste de la stat exploratoire qui décrit l'évolution de certains critères, comme le bonheur, l'argent, etc. au cours de la vie)
Du coup, c'est un premier travail de recoupement très intéressant pour commencer des études stat' complètes dans certains pays. Et donc pouvoir ensuite "driver" la politique via des leviers (si jamais il nous prenait le malheur de s'intéresser à l'intérêt général)
10 points d'analyse statistique à respecter. Intéressant.