也许您年纪大了,想起了图书馆是我们去学习的地方。 我们浏览了卡片目录,百科全书和《读者文学指南》,希望当人们决定去哪里时,我们能够理解他们在想什么。
这个过程很耗时,令人沮丧并且常常是徒劳的。 我们收集了比所需更多的数据,因为我们不想再回来查找它。 如果我们的目标是编写报告,那么我们必须提前预测每个细节,因为一旦将结果记录在纸上,就再也回不去了。
想一想搜索如何改变了事情。 我们不再必须记住或写下可能需要这些事实的事实。 当我们想要一个事实时,我们可以立即查找它。 无需浏览信息,因为搜索引擎会将所有内容编入索引,并且信息可以一次通过多种方式进行分类。 而且,我们不需要用我们不需要的事实来阻塞我们的笔记本或头脑,因为我们可以在以后得到它们。
搜索改变了我们的行为。 它使查找和保留信息的艰巨过程变得快速而流畅。 它使我们摆脱了僵化的组织结构的束缚,因此我们可以创造性地思考。 它使研究成为不断迭代和发现的过程。 在尝试新术语时,我们偶然发现了意想不到的想法和观点,这可能使我们朝着新的方向前进。 没有进入障碍,也没有规则。
以同样的方式思考大数据的经济学。 它不仅改变了我们可以处理的数据的范围和数量,而且还改变了我们首先考虑数据的方式。
传统的数据仓库很像图书馆。 它们仅包含人类已做出有意识的决定将其输入的信息。 它们仅在由数据类型和查询语言定义的狭窄参数内进行结构化,组织和访问。 它们具有很高的价值,但与人们的思维方式并不一致。
大数据是数据仓库,搜索引擎是图书馆。 实际上,Hadoop实际上根植于搜索引擎研究。 它像NoSQL数据库的新类一样轻松处理结构化,半结构化和非结构化数据。 您可以轻松地添加新的数据类型和查询,不断地尝试和完善问题以寻找新的角度。 通常,您会发现意想不到的相关性,这可能会带您迈向新的方向。 就像搜索引擎一样。
Hadoop还重新定义了大数据的经济性,将每TB的成本降低了95%以上。 当成本成为非问题时,采用率总是会飙升。 精明的组织正在使用这些新的经济规则来使大数据服务可用于需要它们的任何人。
大数据应该通过以下方式改变我们思考如何收集和处理数据的方式:
访问分析应该无处不在 。 相信通过更好地理解数据可以提高工作效率的组织中的人们应该有机会这样做。 根本没有有效的经济论据相反。
分析应该更具探索性 。 数据仓库的成本将它们的使用限制在具有明确业务价值的应用程序中。 大数据使您可以自由地进行实验。 想一想这个比喻:在大型机统治的日子里,几乎没有人拥有执行“假设分析”建模的资源。 个人计算机消除了这些成本障碍,使用户可以自由使用数据。 这完全改变了业务开展方式。
分析应该是迭代的 。 在这里,我们可以从DevOps那里窃取想法,DevOps是一种广受欢迎的新部署和开发技术,该技术将大型项目分解为具有频繁交付成果和恒定反馈循环的小片段。 DevOps产生了更好的软件,因为代码在开发过程中不断得到改进。 以相同的方式思考分析,而不是将其视为具有确定结果的“大爆炸”事件,而应将其视为对有趣的发现进行调查,重新研究和完善的过程。
收集尽可能多的数据 。 现在,存储和处理数据的成本非常低,以至于保留哪些内容的问题已由不保留哪些内容的问题所取代。 使用户有很大的自由度来导入和处理新数据集。 有趣的关系总是会出现。
翻译自: https://www.javacodegeeks.com/2016/05/changing-economics-big-data.html
所有评论(0)