由大数据压缩

五年前,很少有人听过“大数据”这个词,现在很难一个小时没有看到它在过去的几个月里,几十个纽约时报的故事中提到了这个行业,从地铁到业务(有线甚至已经宣布它已经过时了:“停止提供大量数据并开始注意'长期数据'”)至少有一家公司,即业务分析公司SAS,拥有大数据副总裁同时,似乎没有人确切地说这句话意味着什么,除了对存储和分析不可理解的大量信息的总体印象之外,但我们一次又一次地保证它会变得很大去年夏天,康奈尔大学的计算机科学家Jon Kleinberg,在“泰晤士报”中说“这个术语本身含糊不清,但它正在变成一个真实的东西......大数据是一个有可能改变一切的过程的标语”大多数关于大数据的文章都很热情,比如KennethCukier和Viktor Mayer-Schonberger滔滔不绝的颂歌“大数据:一场将改变我们生活,工作和思考方式的革命”,目前正在亚马逊上畅销,或者是近期“时代周刊”关于市长布隆伯格的极客小组,以及“大”数据的时刻,特别是在城市管理方面,已经强大且不可逆转地到来了“但尽管围绕着这个行业感到兴奋和承诺,大数据并不是许多人认为的无限奇迹

几乎没有人使用的原因谈论大数据是直到最近,它还不存在 - 根据现行标准,大多数数据都是小土豆现在,大数据主要以兆兆(数万亿)和千兆(四亿)为单位;在十年之内,即使这些数字看起来也很古怪像谷歌这样的公司已经表明,更多的数据通常意味着更新更好的解决旧问题的方法去年,我写了一篇关于Google如何通过使用大量用户自我数据库显着改进拼写检查的文章以前需要手工制作的算法专注于英语拼写错综复杂的工作以及键入谷歌新技巧的心理学的修正工作如果你只有少量的用户搜索可以使用,但如果你有数万亿的搜索数以百万计的用户,超过一百四十六种语言,它是纯粹的天才 - 一种技术可以快速应用于不同的语言而且手工劳动相对较少而且它只是数百甚至数千种创新驱动的纯粹质量之一例如,我们能够存储,争论和操纵Cukier和Mayer-Schonberger的书的数据解释了人工智能研究的方法cher Oren Etzioni创建了Farecast(最终卖给了微软,现在是Bing Travel的一部分),它从网上抓取数据,以便对航空公司票价是上涨还是下跌做出好的猜测再加上统计技术的一些进步,大数据现在是de几乎是,作为一种新宗教的关键,去年夏天在迪尔伯特很好地模仿:“过去,我们公司做了许多邪恶的事情,”迪尔伯特尖尖的老板说,“但如果我们存储大数据在我们的服务器中,我们将得到保存“像PalmPilot联合创始人杰夫霍金斯的Numenta公司提供更具转型的承诺:通用,一刀切,实时预测分析根据Numenta的网站,他们的软件,Grok,“在数据流中找到复杂的模式,并实时生成可操作的预测...... Feed Grok数据,并返回生成Grok自动学习和适应的动作的预测”Numenta自称“随着年龄的增长数字神经系统的发展,Grok代表了将大规模数据流转化为价值的技术类型“公司也不缺乏新闻;时代(“JEFF HAWKINS开发一家大型数据公司”),“技术评论”,“福布斯”和“彭博新闻”都热情地报道了Numenta

据“纽约时报”的昆汀·哈迪称,“杰夫霍金斯一直是移动设备的先驱,一位杰出人士神经科学讲师,以及关于大脑如何工作的革命性理论的出版作者如果他对大数据是正确的,那么很多人都希望他从未进入那个领域“为什么

“从最初观察数据流开始,[Grok]开始猜测接下来会发生什么

数据越多,预测就越准确“(它还承诺不需要大量的硬盘驱动器:通过如此快速地分析传入的数据,不需要存储旧的信息)尽管如此,请阅读以下几段,并且文章揭示了 - 对于所有Numenta作为一个通用的自动解算器--Bigk的计费“仍然是有限的发布,只有少数客户在能源,媒体和视频处理领域”Numenta支持数据,但到目前为止几乎没有提供具体的支持它自己的主张(公司发言人指出,Grok“是私人测试版和飞行员,与各种垂直市场的精选客户,包括电能,IT管理,在线广告和金融”)如果人工智能的五十年研究已经告诉我们任何事情,每个问题都是不同的,没有普遍适用的解决方案擅长国际象棋的算法不会对解析句子有多大帮助,而且解析句子的算法不是下棋会有很大的帮助一台速度更快的计算机将比两台速度更慢的计算机更好,但解决问题往往(虽然并非总是如此)需要相当多的研究人员称之为“领域知识” - 特定的特定信息问题,经常由专家精心收集所谓的机器学习有时可以提供帮助(拼写检查是一个可以帮助很多的情况,同样也可以用于语音识别),但是没有人曾经例如建造过世界级的国际象棋通过采用一台通用的智能机器,为其提供大量数据,并让它自学,如果Grok真正做到了它的网站所承诺的,那么像国际象棋这样的复杂问题对于它的工厂来说是很重要的

网上有大量的国际象棋游戏,经常是现场直播,国际象棋的规则可以在一小时内编入Grok但是我会吃掉我的帽子,并且如果他能让Grok获得那个国际象棋流,他就会给Hawkins个人道歉游戏足以击败Magnus Carlsen或Garry Kasparov而不依赖于游戏的大量专业知识,甚至使用Numenta可能获得的任何高端硬件(尽管如此,Numenta发言人指出“Grok非常适合工作“快速数据流”当然,Numenta并不是唯一一家使用大数据的公司几乎每个与我交谈过的专家都提到过在IBM其他地方做过的有趣工作,例如,使用大数据(以及其他许多技术)在其“赢得胜利的Watson”中取得巨大成效,Siri和Google搜索等产品在很大程度上依赖于它,而没有完全实现Numenta暗示的人类自动化的奢华承诺

nely适用于大数据解决方案例如,业界在语音识别方面取得了巨大的成就,并且在Google和亚马逊的许多事情中也是必不可少的

没有它就不会发现希格斯玻色子大数据在随时间变化的系统中特别有用,具有直观和良好表征的特性,几乎不可预测的变化以及相对较小的基本复杂性但并非每个问题都符合这些标准

随着时间的推移,不可预测性,复杂性和突然的变化可能导致最大的数据误入歧途大数据是推断相关性的强大工具,而不是用于推断因果关系的魔杖迄今为止,该领域显然仅仅取得了适度改进的天气预测,并且很少,如果有的话,对诸如让计算机自己编程等挑战的影响“Jeopardy”是一个可行的应用程序,因为大多数所需的知识来自维基百科页面上的标题;它主要是数据检索的一种练习,大数据非常适合国际象棋,相比之下,它是一种新奇的练习,需要大量的精确度

每个位置都是不同的,并且有自己最好的动作,通常是一个伟大的功能具有复杂关系且对确切细节高度敏感的相互依赖的部分的数量在Google翻译中,要点通常就足够了;在国际象棋中,没有人可以通过选择只是大致正确的动作来赢得大师级别实际上,人们可以将整个人工智能领域视为无意中对大数据的公投,因为现在几乎所有问题都在AI中得到解决 - 从机器视觉到自然语言理解 - 也从数据角度受到攻击 然而,大多数这些问题都没有得到解决,大数据还是没有

即使拥有全球最大的数据库,例如,机器视觉的挑战仍然基本开放去年夏天,谷歌的“猫探测器”(我之前提到过)已接受过培训在千万张图片上,使用一千台机器,连续三天,如果该程序设法“学习”了猫的样子,它的整体视觉表现就是那些比平时更大,比平时更小或略微偏离的猫框架导致性能显着下降这也是一个很好的选择,系统会在更复杂的场景中使用很多对象做得更糟,这不是因为大数据没有用;在远见,就像许多事情一样,大数据只是解决方案的一小部分作为一个持怀疑态度的行业内部人士,网络软件公司Intridea的AnthonyNyström向我提出,销售大数据对于骗子来说是一个很好的演出,因为他们永远不会承认错误“如果他们的系统无法提供预测性的洞察力,那不是他们的模型,这是你的数据的问题”你没有足够的数据,有太多的噪音,你测量了错误的东西借口列表可能很长实际上,大多数事物的大多数计算模型在历史上都是错误的 - 或者至少是不完整的,在某些情况下是有效的,并非所有人甚至可能拥有最大数据的所有人仍然使用人类手工策划其中的一部分,因为未经分析的大量信息并不能保证任何东西,巨型服务器仍然不能作为人类判断的完全值得信赖的替代品

从视角来看,它可能有助于考虑推断的挑战从其基础DNA序列中敲响蛋白质的结构,在医学和整个生物学中有大量应用的问题数百甚至数千名研究人员已经研究了这个问题达50年之久,并且在过去的十年中已有大型数据库救命;然而,用几个月前在“科学”杂志上发表的一篇评论来说,“没有一个研究小组能够始终如一地生成准确的模型”,特别是对于那些与已经很好理解的基因不太相似的更复杂的DNA序列

更复杂的问题是,更具体的实例与以前的实例不同,大数据不太可能是一个肯定的事情在未来几年,科学家和工程师将更清楚地了解大数据的情况可以而且不能有很大的不同;对于现在来说,炒作需要谨慎对待人们应该而且不应该保持在循环中的敏感性正如将大数据应用于机器视觉的领导者之一阿列克谢·埃弗罗斯所说,大数据是“善变的,腼腆的情妇,“邀请,但并非没有风险插图Joost Swarte