书签 分享 收藏 举报 版权申诉 / 37

类型《数据新闻概论》课件第三章.pptx

  • 文档编号:573057
  • 上传时间:2023-01-24
  • 格式:PPTX
  • 页数:37
  • 大小:1.58MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据新闻概论 数据新闻概论课件 第三章 数据 新闻 概论 课件 第三
    资源描述:

    1、查询和获取公开发表的数据第三章理解数据新闻中的“数据”第一节 “数据也会传递给我们大量的信息。一个数据点包含时间、地点、人物、事件、起因等因素,因此很容易让一个数字不再只是沧海一粟。”美邱南森:数据之美一本书学会可视化设计一、信息:“数据”之源 从事数据新闻业务的媒体从业者需要拓宽思路,理解“数据”不仅仅是一份表格记录,其源头来自背后庞大的“信息”。(一)广义的信息类型类型口语信息口语信息体语信息体语信息实物信息实物信息文献信息文献信息存在方式交谈、授课、讨论等手势、表情、姿态等文物、产品样本、模型、碑刻、雕塑等实物形式存在文字、图形、符号、音频、视频等方式记录在各种载体上特点传递快、互动性强

    2、,但稍纵即逝、久传易出差异直观性强、生动丰富、印象深刻、富有感染力直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在部分信息相对滞后,尚待证实的情况一、信息:“数据”之源(二)不同内容的信息分类 按照不同的发布特征和内容特点,可将信息细分为学术研究信息、新闻报道信息、技术专利信息、档案文献信息、行政公告信息、企业行业信息等六大类。(参见邓发云的信息检索与利用一书p18p22)学术学术研究信息研究信息指用来了解某一专业领域或话题的专门文献信息。其包括三个部分:其一是提供系统知识的教科书、专著书籍;其二是高

    3、校与科研机构提供的对专业领域进行深入研究的论文、科研报告;其三是便于对专业信息进行检索的辞典、百科全书、年鉴、手册等工具书提供的信息。新闻新闻报道信息报道信息指报纸、期刊、广播、电视、网站等媒体公开发表的提供事实性信息和观点性信息的文献信息。获取新闻报道信息既能找到最新发生的事件及涉事人物的记录,还能找到事件或人物的相关历史信息。案例:从新闻报道中发现规律露面的学问 2014年9月开始,朝鲜最高领导人在镜头前突然神秘“失踪”40天,引发了国内外诸多媒体的关注。新京报通过梳理2013年以来韩国统一部、新华社、中新网和韩联社等媒体对露面新闻的公开报道,总结了露面的规律,并于2014年10月14日在

    4、“新图纸”栏目中推出露面的学问的图片报道(见右图)。(相关报道见新京报网页:http:/ 报道中将露面的学问分为“露面场所”、“露面方式”、“露面时间”三个版块进行解读。在“露面场所”版块,该报道通过对报道信息的分析指出,自2013年开始频繁出现在工厂/农场、军事场所、在建/新建场所、文化娱乐场所等地,并将这些场所中具体出现过的地名都标注在图中。报道还统计了2013年上半年及68月所有露面场所的频次,发现较频繁地在军方活动、经济活动和社会文化活动这三项活动中露面。在“露面方式”板块,的每次露面都衣着简单,无论是发型、服装、常用的配件,甚至身边人员的表现,其形式都较为固定。报道同时指出在最近的露

    5、面中开始使用拐杖,这也呼应了媒体对于罹患腿疾的猜测。在“露面时间”版块,报道指出根据以往的经验,会不定期“失踪”,无论是2014年68月期间还是2012年以来,其均有多次从媒体报道中“失踪”的经历。报道还将此次“失踪”期间以致电、发信函等形式的露面做了统计。在这则报道中,新京报的编辑敏锐地意识到朝鲜最高领导人“失踪”话题的新闻价值,采用逆向思维方法,对其“露面学问”进行报道,从“露面”反观“失踪”,给读者以更为丰富的信息量。这则报道说明当媒体对已有的新闻报道善加利用时,也能从中找出具有新闻价值的数据,并将之转化为有趣的报道。一、信息:“数据”之源(二)不同内容的信息分类 技术技术专利信息专利信

    6、息包括两个部分:其一是技术标准、技术规格和技术规则文献提供的信息,它们是记录人们从事科学实验、工程设计、生产建设、商品流通、技术转让和组织管理时共同遵守的技术文件;其二是专利信息,是实行专利的国家、地区及国际专利组织在审批专利过程中产生的官方文件和出版物。档案档案文献信息文献信息指各级政府机构、企事业单位和个人在实践工作中形成的立卷归档、集中保管、有历史价值的文字、图表、音像等形态的原始资料。行政行政公告信息公告信息主要指各国政府部门及其设立的专门机构发表、出版的行政性文件,如法律法规、方针政策、会议决议、统计资料等。一般各国政府部门都设有专门的网站发布此类信息,人们可以登录这类网站免费下载相

    7、关文件。企业企业行业信息行业信息指企业发布的公司介绍、产品目录、样本、说明书等。它们或提供丰富的产品、企业和行业信息,或是商家常用的促销方式,或是商家针对自己的产品提供的调查信息。案例:综合多个信息源的数据论证“中国男人到底丑不丑?”2014年,互联网中一则“中国男人配不上中国女人”的帖子引发网民围观,由此引发了一场关于“中国男人长得丑不丑”的争论。壹读杂志为此于当年8月推出封面故事为毛说中国男人丑(见图36)。封面故事中的重头文章是一篇名为中国男人到底丑不丑的报道。文章开宗明义,“用数据告诉你,中国男人到底丑在哪儿”,其后分别从“中国男人的面相完美诠释了什么不立体”、“中国男人的身材富态”、

    8、“抽烟、龋齿、近视和脱发,中国男人无动于衷”、“在穿衣打扮上,男士们一点也不上心”这四个方面展开,引用了大量数据论证中国男性丑的观点。下面罗列在这期报道中所引用的各类信息源的数据:学术研究信息学术研究信息中的数据(1)2007年,罗杰鲍尔和香港理工大学的研究人员在全国六省市搜集了超过2 000名中国人头形和脸形的三维数据研究。研究显示,中国男性的头围更小,但正面宽度也就是脸,比例却偏大。中国男性面部的长宽比约为10.86,比西方人的10.74明显更宽,因此才会给人脸又大又圆的印象。(2)2009年,华中科技大学和四川大学共同完成了一次汉族人面部特征调查,他们测量了3 000名汉族人的身体数据,

    9、然后与美国数据进行对比。研究发现与美国男性相比,中国男性的脸更宽、更短,嘴更大,鼻子更“塌”。案例:综合多个信息源的数据论证“中国男人到底丑不丑?”新闻报道信息新闻报道信息中的数据(1)2013年“世界防治肥胖日”时,北京某健康论坛中一家商业公司发布的调查报告指出中国男性的超重肥胖率在十年中赶超了女性。至2012年,中青年男性超重肥胖率达48.8%,约为女性超重肥胖率的1.6倍。(2)调查显示,70%的日本男性认为修饰外表非常重要,中国男性中有2/3吸烟,平均每人有1.14颗龋齿,但他们只会修补治疗其中的0.79颗。近视率高于40%。技术技术专利信息专利信息中的数据中国成年人人体尺寸提供的是标

    10、准数据,是根据人类工学要求提供的我国成年人人体尺寸的基础数值。文中引用其中的数据与日、美相关数据做比较,论证在相同身高条件下,中国男性的肩膀比日本男性窄2厘米,比美国男性窄3厘米以上。行政公告信息行政公告信息中的数据国家体育总局通过对全国近46万人的体质监测得到的数据显示,2529岁青年平均腰围接近82厘米,男性腰围随着年龄增长,40岁以上男性的平均腰围超过85厘米。企业行业信息企业行业信息中的数据富态:腰围改变中国(浙江大学出版社,2012),文中引用该书作者提供的一组服装行业的数据:1985年中国城市男性平均腰围只有63.5厘米,到2012年已接近76.2厘米。案例:综合多个信息源的数据论

    11、证“中国男人到底丑不丑?”毋庸讳言,对于这样一个足够吸引眼球又极易引发争议的新闻选题,在实践操作中采用数据新闻的形式未尝不是一种可行的思路。这篇报道旁征博引,综合了不同种类的数据来论证话题中的判断。虽然这篇报道依然采用传统的叙事方式写作,但由于四个分章的逻辑较为清晰,从面相、身材到生活习惯和穿衣打扮无所不及,且在每个部分都能找到多种类的数据做支撑,使读者始终处于信息量丰富的阅读感受中,而不会感到索然无味。当然,报道亦有细微的缺憾,如在一些数据的引用上,未对数据来源做清晰交代,这多少会影响到部分内容的可信度,是做数据报道应该避免之处。(相关报道详见壹读杂志2014年第15期封面故事。)二、从数据

    12、存储形式看“模拟数据”和“数字数据”按照数据的载体形式和存储形式来划分数据的类型,数据可分为模拟数据和数字数据这两大类。模拟数据模拟数据也被称为“模拟量”,指的是取值范围是连续的变量或者数值,例如声音、图像、温度、压力等。模拟数据一般采用模拟信号,用一些连续变化的信号来表示。模拟数据实际上是需要具象实体作为载体的数据,它包括刻写数据、印刷数据、缩微数据、早期音像数据等。数字数据数字数据是指取值范围是离散的变量或者数值,数字数据采用数字信号表示,其与模拟信号不同。数字信号不需要用连续变化的信号来表示,而是以有限的“0”和“1”的代码来表示信息的某一个字符。相比模拟数据,数字数据便于被计算机读取和

    13、分析,是数据新闻处理的数据的主体。二、从数据存储形式看“模拟数据”和“数字数据”虽然在全球,数字数据已经逐步成为构成数据世界的主体,但是不可否认的是,我国的信息产业发展相比西方发达国家还存在一定的差距,仍有相当比重的数据是以模拟数据的形式存在的。以以报纸报道为例,在全国所有的报纸媒体中,只有人民日报社建立了完备的数字数据库,该报报纸报道为例,在全国所有的报纸媒体中,只有人民日报社建立了完备的数字数据库,该报19491949年年以来的所有报道文字都以数字数据的形式存储于数据库中,只要在购买了该数据库的电脑上查询便以来的所有报道文字都以数字数据的形式存储于数据库中,只要在购买了该数据库的电脑上查询

    14、便可调出相应的数据进行分析。可调出相应的数据进行分析。与之相比,仍有许多媒体没有对自己的历史报道进行数字化,导致在从事相关话题的研究和报道时只能靠翻阅报纸、查看缩微文献这些缺乏效率的模式去找寻早期资料。虽然近年来受市场的强烈冲击,越来越多媒体开始投身于数字出版行业,但是许多媒体用数字化解决的是当下的信息数据问题,而非早期的报道数据化。媒体尚且如此,其他机构的信息数字化工作还有更漫长的路要走。有人认为媒体应该将已有的报道进行数字化,使之成为数字数据,以便于开展数据报道,你赞同这个观点吗?三、从信息科学角度看“属性”和“数据集”在信息科学领域,数据集(datasets)是由数据组成的集合,而数据则

    15、是由属性(即统计学中的“变量”)来描述的。(一)属性 属性(attribute)是对象的性质或特性,它因对象而异,或随着时间而变化。根据对应于属性基本性质的数值的性质区别,学者将属性划分为四种类型:标称(nominal)、序数(ordinal)、区间(interval)、比率(ratio)。其中标称和序数属性被视为分类的或定性的属性,这类属性即使以数字的形式标注,也应该将其中的数字视为符号对待。而区间和比率属性则是数值的或定量的属性,这类属性用数字表示,可以将之视为数值对待。三、从信息科学角度看“属性”和“数据集”属性属性描述描述例子例子操作操作分类的(定性的)标称标称属性的值仅仅只是不同的名

    16、字,即标称值只提供足够的信息以区分对象(=,)邮政编码、雇员ID、眼球颜色、性别众数、熵、列联相关、卡方检验序数序数属性的值提供足够的信息确定对象的序()矿石硬度、成绩、街道号码中值、百分位、秩相关、游程检验、符号检验数值的(定量的)区间对于区间属性,值之间的差是有意义的,即存在测量单位(+,-)日历日期、摄氏或华氏温度均值、标准差、皮尔逊相关、t或F检验比率对于比率变量,差和比率都是有意义的(*,/)绝对温度、货币量、计数、年龄、质量、长度、电流几何评价、调和评价、百分比变差不同的属性类型三、从信息科学角度看“属性”和“数据集”(二)数据集 作为数据的集合,常见的数据集包括记录数据、基于图形的数据和有序的数据。在实际生活中,我们最常接触的是记录数据记录数据,这类数据集多以表格文件的形式存在,数据即为文件中的记录,而每个记录都对应固定的字段(属性)。有时数据集未必都以表格文件的形式存在,比如图形有时更便于展现数据对象之间的联系,因而就出现了基于图形的数据基于图形的数据。比如一些数据对象本身具有数据

    展开阅读全文
    提示  兔兜文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《数据新闻概论》课件第三章.pptx
    链接地址:https://www.tudouwenku.com/doc/573057.html

    若发现您的权益受到侵害,请立即联系客服,我们会尽快为您处理!

    copyright@2008-2023 兔兜文库 版权所有

    鲁公网安备37072502000182号  ICP备案号:鲁ICP备2021021588号-1  百度保障

    兔兜文库
    收起
    展开