Décidément, je fais bien de vider les Shaarli du patron (Seb) que j'avais mis de côté (certains datent de deux ans !)
Ici, le tableau Wikipedia des frameworks JS pour de la DataViz. Ça va bien me servir.
Excellent : un outil de deep-mining sur des images pour reproduire des styles graphiques de peintres. Ça marche relativement bien (voir très bien).
Bluffant.
Super vidéo sur l'effet Halo (biais cognitif qui nous laisse penser que les plus grands / plus beaux, sont plus capables).
Supers vidéo et article sur le deep-learning. En particulier les exemples sous la vidéo :)
Owwww. Un nouveau projet Apache (Top-Level s'iouplait) pour la gestion du données. Une sorte de micro-batching, mais sans sérialisation / désérialisation. Et donc, visiblement plus rapide.
À tester donc.
Une vidéo humoristique pour donner quelques statistiques à propos du terrorisme. Percutant.
Ah, intéressant : la différence de réponse selon la forme de la question :
Une carte montrant le déplacement des vélibs par heure à Paris. Apparemment, tout le monde commence à bosser à la même heure ! et habite à l'extérieur de Paris. En tout cas, j'aime bien ce genre de visualisation.
« Using Azure ML to Build Clickthrough Prediction Models »
Franchement, ils m'impressionnent chez Microsoft. Je les croyais mourants, inertes, plus à la page et complètement déconnectés des innovations actuelles. Et ben avec leur Azure ML, ils envoient du gros lourd.
via : https://twitter.com/FranmerMS/status/661606891760574464
Une comparaison de R et Python pour l'analyse de données. Ça me laisse un peu pantois : on sait déjà tous un peu ça, et les faits ne facilitent pas le choix. J'crois qu'il faut simplement apprendre les deux…
Je mets ça ici : le truc de Google en deeplearning, qui « produit des images » par rapport à d'autres, et par voie de ressemblance. Dans ce cas, ce sont des réseaux neuronaux multicouches qui sont utilisés.
Très bon article sur les données “molles”. Concept qui recouvre plusieurs choses : les méta-données, la psychologie, et notamment dans la mesure, etc.
Dans un monde de data, c'est important d'avoir ça en tête, parce qu'il faut sortir de la donnée stricte qui peut être hyper trompeuse.
Ahah. Est-ce parce que j'ai paramétré mes appareils pour bloquer un maximum de données sur moi (Ghostery, AdBlock, DoNotTrack, verrouillage d'applis, utilisation massive de YopMail/autre, réponses aléatoires dans les questionnaires, et surtout paramétrage des applications, etc.) ou est-ce parce que Google n'est pas si bon (j'en doute) mais je me suis rendu sur la page Google dédiée aux paramètres des annonces.
En gros, ils calculent ou obtiennent certaines données sur vous, comme l'âge, le sexe etc. (c'est bon) et infèrent des centres d'intérêt. Et malgré mon utilisation importante de YouTube et une multitude de produits Google, les centres d'intérêt sont complètement faux. Presque tous.
Apparemment, j'aime la musique pop / industrie musicale, est assez friand de vêtements de sport (big lol), ou encore de mode, de films d'action, de Jeux Olympiques, de Reggae (but WTF) et de smartphones !
Ahahah. C'est tellement diamétralement opposé à mes vrais centres d'intérêt.
Pour le coup, je pense qu'Amazon en sait plus que Google.
EDIT : et évidemment, la plupart des paramètres de Google sont persistants. Mais comme de par hasard, pas le ciblage des publicités sur le web. Qui dépend donc d'un cookie.
Facebook met à disposition en open-source des outils de machine-learning ou deep-learning. Ils travaillent (évidemment) beaucoup sur le sujet actuellement.
À garder sous le coude.
via : https://twitter.com/erikbryn/status/556454800150499328
Oula, tout ça est chaud. Et limite de partout.
J'espère en tout cas qu'on ne se dirige pas vers une police et une justice totalement opaque et privée. J'aurais préféré que, quitte à utiliser de détection automatique, ce soient des agents de l'état qui soient au monitoring. Parce qu'alors, ce n'est pas la bonne morale de Facebook, société américaine, mais de l'état, gouverné par le peuple (sic).
Bref, chaud.
Un bon résumé des manipulations, tromperies et mensonges des instituts de sondage français. Et encore, je pourrais rajouter une foule d'arguments, à la pelle.
Tiens, il me semblait l'avoir déjà publié, mais je ne le retrouve pas.
Des explications sur les notions de risque statistique, d'étude de mise sur le marché / efficacité / impactologie / etc., et du fameux problème du paradoxe de Simpson (facteur de confusion caché)
C'est vraiment très intéressant de l'expliquer comme ça : simple, efficace.
via : https://twitter.com/Dr_Stephane/status/591512248230617089
Un avis éclairé et technique de chercheurs sur les algorithmes des boîtes noires et leurs performances attendues. Je suis totalement de cet avis, avec à peu près les mêmes arguments.
(diantre, mais pourquoi, dès que des chercheurs sont interrogés, on se sent obligé de glisser ce genre de truc : « Cet entretien reflète exclusivement l'opinion de ses auteurs et n’engage en aucune façon l’Inria. » Il n'y a plus si longtemps, le corps des chercheurs était l'un des rares corps de fonctionnaires à avoir un droit et une liberté de parole totale. D'où l'absence de nécessité d'user de ce genre de truc… Ça m'agace, ça montre que même leur liberté s'effrite)
via : https://twitter.com/FlorianP123/status/595867822632361984
Quand même, tout ce travail qu'on fait faire gratuitement à des « passionnés » par leur boulot, ça devient emmerdant. Tout travail mérite salaire, hein.
C'est comme (pour mon métier) ces foutues plateformes qui pullulent un peu partout : Kaggle, datascience.net, le challenge SNCF. Je vous encule, m'voyez-vous ? Oui, je vous encule. Mes compétences m'ont coûté des années d'études, alors fuck.
Voir aussi : http://foualier.gregory-thibault.com/?u_Colg
via : https://twitter.com/Bouletcorp/status/597760146308141058
Un article sur l'erreur méthodologique de comparaison des rendements en agriculture bio versus conventionnelle. C'est intéressant d'un point de vue statistique et de modélisation, mais ça reflète également des problèmes de notre système : les modes de publication scientifique, la politique agricole, etc.
« En bio, les paramètres n’ont de sens que dans leurs relations mutuelles et varient toujours de façon combinée. Par conséquent, faire varier « un unique paramètre » dans un système biologique signifie très exactement nier ce système, le détruire, le trahir. »
Autrement dit, le conventionnel c'est faire pousser une plante, et le bio, s'occuper d'un système (dans le sens technique du terme)
Encore autrement, et comme c'est dit dans l'article : « la bio, ce n'est pas le conventionnel "moins" la chimie »