本书作者为涂子沛,作者在这部著作之前的另一部著作《大数据》,我在今年三月份就有幸拜读了这本书。

本书秉承着涂子沛先生的一贯著述风格,行文流畅,论证有理有据,甚是佩服。

个人觉得,这本书是《大数据》的延伸和拓展。

作者从大数据的角度,将美国历史分割为:历史小数据(初数时代、内战时代、镀金时代、进步时代、抽样时代)、崛起大数据(开放时代、大数据时代、智慧城市)。较前一本书来说,论述更有力,自成系统。在《大数据》基础上进行了延伸和拓展,算是升级版吧!
—— 见【书单】2017-03-2017-05书单及阅读情况汇总

以下内容摘要转自:20170202《数据之巅》-jianshu/im天行


缘起

•2015年之前可能就知道这本书,而且2016年上还是2015年上还听过作者的一次线上讲课。
•2017-01-25开始看,一个番茄钟30页左右,全书370页,共需要12个左右番茄钟。
•2017-02-02全书读完。

内容

Part1 小数据之历史 27/372

chap1 初数时代:奠基共和 29/372

  • 克服民主的劣势:用数据分权
  • 1787年7月16日,大州和小州之间终于达成妥协。◦众议院的席位按人口比例在各州分配,体现了民主原则。

    • 参议院的议席每州两台,平均分配,体现了共和精神。
    • 任何一项法案,都必须在参、众两院同时以多数通过才能生效。
  • 统计学的三大重要命题

    • 1、对一个国家来说,统计什么,不统计什么,是个政治问题。
    • 2、要统计一件东西,必须要有清晰的边界。
    • 3、如何提高数据的真实性。
  • 亚拉巴马悖论: 指总议席增加反而导致某些州的议席减少。

  • 十进制在亚里士多德时代就被发明了,但美国是全世界第一个在货币体系中普及十进制的国家。几年后,法国也跟进。
  • 1831年,法国历史学家 托克维尔 《论美国的民主》
  • 其实,在整个19世纪,几乎一切数学和统计学的重大发明和进步都起源于欧州。
  • 商秧提出“强国知十三数”。现代意义上的人口普查在中国直到1900年才出现。( 但没有普查成功 )

chap2 内战时代:终结奴隶制的灯塔 65/372

  • 1860年,是第八次认可普查年,也是大选年。林肯当总统,联邦正式解体,1861年3月,南方7个州宣布独立。萨姆特要塞,南北战争爆发。
  • 既然全国的青壮年兵力都集中在北方,那南方为什么敢主动挑起战火呢?答案是棉花。
  • 谢尔曼是南北战争中的一代名将,也是北方阵营中除林肯总统、格兰特司令外的第3号人物。
  • 谢尔曼声明: “如果被提名,我不会接受;如果被选上,我不会就职”
  • 政治家必须直面和解决一个个具体的社会问题。
  • 林肯解放的只是黑奴经济上的自由权,而关于黑奴的政治权利,只字未提。
  • 美国共和党强调经济自由,民主党注重政治平等。

chap3 爆发:镀金时代的三重崛起 107/372

  • 在镀金时代的30多年间,美国的数据文化相继完成了思维、组织和技术的三重崛起。
  • 这三重崛起的起点,是1869年。国会人口普查委员会的主席加菲尔德
  • 人类的政治史,说到底,就是各种利益不断调整的斗争史。
  • 人口重心
  • 因为加菲尔德前10年没有破解当时的利益格局,等到后来当上总统后,重用了之前觉得不错的沃克同志,让统计工作有了革命性变化。然后沃克由于政治事件中,被迫辞职,去MIT当了16年的第3任校长,后来他的工作被Herman Hollerith给做成了。
  • 1883年,美国国会通过了《彭德尔顿法》,规定政治和行政两相分开。
  • 霍尔瑞斯的自己创办的公司,就是IBM的前身。(1911年,霍尔瑞斯的公司与其它公司合并,成立了CTR,请了大名鼎鼎的托马斯.沃森当职业经理人,1924年,CTR更名为IBM。)
  • 检视人类的创新史,有一点可以肯定,市场的需求才是真正的创新动力, 当需求成为越来越迫切的现实,重大的技术突破就一定会产生。
  • 136/372
  • 劳工统计局:只提供事实和数据,不提供对事实的理论解释,也不介入政策的制定。
  • 1894年,美国的工业总产值超过英国,跃居世界第一位,成为世界上最庞大的经济体。
  • 农业统计局、普查局和劳工统计局,堪称美国统计领域的三驾马车。
  • 隐私观念的成熟,数据安全管理制度的完善
  • 中国在数据可视化方面的先驱人物,是地理学家陈正祥,他的著作《大学生活四十年》需要看一看。

chap4 量化:进步时代的数据大潮 161/372

  • 通过对数学的学习,也唯有通过对数学的学习,我们才能对什么是真正的科学获得真实、深入的理解。—奥古斯特.孔德
  • 镀金时代虽然见证了经济的迅猛发展、城市的急剧膨胀,但同时也是一个问题丛生、动荡不安的时代,这也是称为“镀金”的原因,即光鲜的外表下掩盖着重生危机和大量矛盾。
  • 正因为进步主义者的杰出贡献,从19世纪90年代到20世纪20年代,这前后30多年被后人称为“进步时代”。
  • 匹兹堡调查
  • 成本收益分析方法
  • 大众因为恐惧、无知,常常做出和理性分析结果完全不同的决定。换句话说,民主的质量依赖于大众的理性思考水平。
  • 道伊调查福特公司的平托汽车情况,来进行人生命价值的量化。(本章到目前所讲的内容。)

chap5 抽样时代:统计革命的福祉 203/372

  • 直到20世纪30年代,抽样的科学性才成为学术界的共识。
  • 1939年1月,等到盖洛普的调查全部完成,《乱世佳人》电影才开机拍摄。拍摄方在重大问题决策上,几乎全部听取了盖洛普的意见。
  • 换句话说,由于调查行为的介入,被调查现象的本身将遭受扭曲。民意调查是不是存在这种“副作用”呢?
  • 戴明(物理学博士)是盖洛普(数学博士)的朋友,盖洛普曾经就如何抽样、如何设计问题,不断向他征询意见。
  • 我认识到,优秀的人才并不少见,公司最需要的,是能够不断学习、永远进步的人。—戴明回忆起在西电工作时拿到耶鲁的博士项目通知书要不要去读时,后来回忆这段时说的。
  • 1947年,在麦克阿瑟的邀请下,戴明搭乘军用飞机抵达日本。戴明的主要任务,就是利用抽样的技术,帮助日本开展战后的第一次人口普查。
  • 1950年,在日本科学与工程联盟的邀请下,戴明又来到日本。
  • 石川一郎
  • 美国人针对戴明的拍了一部记录片 《日本行,为什么我们不行》

Part2 大数据的崛起 239/372

chap6 开放时代:内开放的历程 241/372

  • 开放,主要是指信息的自由流动,广义的开放,还包括人、财、物的自由流动。
  • LEHD系统的真正强大这处,还在于其数据分析的粒度,经可以按地区,邮编,选区,学区,人口普查的片区等各层级单位对数据进行层层下钻。
  • OnTheMap 美国的网站,可以查阅数据

    • 人工合成数据(开放数据使用、同时保护数据隐私的重要方法)的两种方式:◦完全合成数据
    • 部分合成数据
  • 内开放3.0:用数据推动创新 270/372

    • data.gov(奥在台时推动的)
    • 数据开放 不等于 数据公开

chap7 大数据时代:通往计算型的智能社 281/372

  • 数据最早来源于测量。
  • 普适计算 认为:计算机发明以后,要经历三个阶段。
  • 数据挖掘已经不是大数据的前沿和热点,取而代之的是机器学习。
  • 通过计算来解决社会问题,正变得越来越普遍。
  • 3D打印:通过逐层叠加、不断增加材料的方式、一次性完成生产过程,所以被称为“加式制造”。
  • 例如,中,印,韩等国不允许谷歌在自己国家为其地图收集数据,这也意味着,谷歌的无人驾驶汽车未来根本不可能进入这些国家,因为没有数据!*
  • 算法是运用数学和统计学的方法和技巧,解决某一类问题的特定步骤,其核心是建立模型。但建模首先需要的就是数据。
  • 下一代人机交互界面的核心技术是自然语言处理、语音识别、声音合成等,即实现文本和声音这两种数据之间的转换。

chap8 智慧城市:正在拍打世界的浪潮 329/372

  • 2008年11月,IBM提出“smart city”这个概念。

    • 政策配套
    • 市场参与
    • 技术支持
  • 中国已经有了不少电子商务的平台,但还没有一个城市生活、公共服务的平台。—神州数码郭为。

  • SeeClickFix.com是个公益网站,Nextdoor.com是个商业网站。◦本质都是让大众来发现并解决城市生活的问题;(众包技术)

  • 346

  • 作者认为:物联网(普适计算)、云、大数据是智慧城市的三大核心技术。

结语:把握后发优势:把科技符号变成文化符号 361/372

  • 人类知识的唯一来源,是对过去经验的记录和整理。

后记:蝴蝶振翅 367/372

  • 2013年5月,接到中信银行信用卡中心的大数据方面的培训。
  • 纵观世界名国的历史,我相信有一条真理颠扑不破,那就是学习改变命运。
  • 作者意识到要追求工作中的使命感,又要保持个人生活的平衡,我还需要修炼–很多人都需要。
  • 2014年3月18日,写完。

收获

  • 2017-01-30看了2个番茄钟
  • chap5讲的是盖洛普和戴明的故事。
  • chap4讲的是道伊调查福特公司的平托汽车情况,来进行人生命价值的量化,以及不保局的和其它机构的成本收益分析方法,最重要的概念就是量化。

  • 2017-02-02看了2个番茄钟◦两个番茄钟大多数时间给了chap3,美帝的各种数据技术,而国内的一片空白。

  • chap2只是进行了补充阅读。

  • Part2与Part1方面有点不太搭,但也是能看一看的。

  • 章节独立性比较强,但连贯起来有点欠缺。
  • 全书以数据文化和科技在美国的发展为主线,讲了不少历史知识。