Tags » Data Journalism

The new new new journalism

The chasm between data visualization and multimedia closed a bit today with the visit of Michael Grant 112 more words
Multimedia

Links (with annotation)

I’ve been heads down writing this week but I wanted to share a bunch of great stuff coming out.

  1. Here’s a great interview with machine learning expert Michael Jordan…
  2. 327 more words
Finance

Sources about innovation in Media

It is said that there are not new ideas; just only new versions of the same thing. Creating something new depends on a hard and long investigation process. 104 more words

Data Journalism

Inside the 21st Century Multi-platform Newsroom

Taking time to go and see journalism produced in the raw can be a luxury for many hackademics.

Therefore I seized the opportunity to spend a day observing the multi-platform and digital journalism operations at BBC Scotland’s Pacific Quay. 800 more words

Accuracy

翻译:【Noah Veltman的午餐会】避免数据清理时的失误

完整文章见(Full article available on):【Noah Veltman的午餐会】避免数据清理时的失误

做数据新闻项目中,一个非常重要但常常被遗忘的步骤就是清理原始数据。当你拿到刚出锅的数据(或者你觉得勉强接受的数据),数据常常还不能用。这些数据里盘根错节了很多不连贯的内容而且不会体现你想要分析的数据关系。你还没办法弄清数据里的参数。在你把它变得有趣之前,你得拆分这些数据,然后再把数据还原。

过程很危险。错的姿势很多,你摆了可能都没意识到。如果你在数据清理过程中搞砸了你的数据,浪费许多时间都还算好的,常常最坏的场景是你的最终分析会有误,因为你没有意识到你改变了数据本身。

下面是一些你在开始清理数据和重建原始数据时需要考量的准则。

不要改动原文件

要是你有一个需要清理的的大型Execl文件或者MySQL表格,别一脚踏进去开始大海捞针。保存个备份然后在备份文件上动手脚。这样你就算要重来也简单一些,而且更重要的是你可以比较在不同阶段清理、变动的数据来保证数据和你之前的清理步骤对应,而且和刚开始的数据对应。

由此可见,别在你以为不需要的情况下删除数据。脑袋灵光一点。把东西存好了,标记清楚,这样你就不会混淆文件。

抽查每个角落

一旦数据包够大,你又没办法一行一行看(其实几乎每个数据包都不能一行行去看),你就得抽查数据。所有关于数据本质和连贯性的假设都只是揣测,而且这些假设有可能是错的。SELECT * FROMTABLE(表格)ORDER BY RAND() LIMIT 5是我最常用的结构性查询语言的用句之一(对于不用非结构性查询语言的人来说就是:“show me 5 random rows from the table” 随机抽查5行数据)。百试不爽。一次好好仔细抽查一些随机的记录。看看有没有什么不对劲。抽查要尽早而且尽量频繁,才能避免低级错误。这样还有大好处:你会更加深入了解你的数据。 22 more words

A Journalist To Be

翻译:【Noah Veltman的午餐会】Excel vs. Database

完整文章见(Full article available on):【Noah Veltman的午餐会】Excel vs. Database

Excel的优势

一直以来,Excel都不被看好,但它其实是非常灵活强大多功能的软件。

  • 便于浏览数据
  • 手动输入和编辑数据很简单
  • 分享复制备份很方便
  • 你能够较好地控制它的显示
  • 结构灵活,每个单元格都是独立且唯一的
  • 能够和其他office软件集成通用
  • 可以用公式让数据文档成为实时文档
  • 内置图表、评论和拼写查错等功能
  • 相对易学

Excel的劣势

Excel也有其限制,有的时候很不好用。

  • 缺乏数据完整性,因为每个单元格都是独立的唯一的, 数据可以变得很不连贯。你看到的并不一定是底层的基本数据,数字不一定是数字,数据不一定是数据。Excel本身会猜测你的意图,但有时会猜错。
  • 25 more words
A Journalist To Be

Teen Pregnancy Rates Decline On Long Island

Teen pregnancies on Long Island have practically halved over the past 10 years according to the New York State Department of Health. In 2012, there was a total of 717 pregnancies of women aged 15-19, which was a record low for Nassau County teens in this age group; in 2003, there was a total of 1273 pregnancies of teenagers. 225 more words

Long Island