Kafka的存储机制以及可靠性 - 星汉的个人空间 - 开源中国

Kafka的存储机制以及可靠性===============一、kafka的存储机制================```kafka通过topic来分主题存放数据,主题内有分区,分区可以有多个副本,分区的内部还细分为若干个segment。所谓的分区其实就是在kafka对应存储目录下创建的文件夹,文件夹的名字是主题名加上分区编号,编号从0开始。```1、segment...
阅读全文

在浏览器中进行深度学习:TensorFlow.js (一)基本概念 - naughty的个人页面 - 开源中国

作为的模型。该项目的首页上有几个很酷炫的演示。作为热爱机器学习和前端数据可视化的我怎能不心动呢。快来和我一起来看看如何利用tensorflow.js来进行深度学习之旅吧。(Linear algebra)是深度学习的数学基础。张量(Tensor)是线性代数的基本数学概念和运算单元。我们来了解一下tensorflow.js中有关张量的基本概念和运算。 张量的概念标量 Scalar...
阅读全文

ElasticSearch-IK拓展自定义词库(1):手动添加热词文件方式 - arthur666_杨亚旭 - 开源中国

IK分词器作为一个开源软件,分词功能非常强大,一般场合的分词需求,他都可以完胜。但是对于专业术语和行业用词,ik有点不太智能,不过IK已经很棒了!下面我就介绍下如何手动添加热词文件的形式来拓展ik认知能力(分词索引)。第一步:我们需要收集我们需要的行业术语,dic文件。我们可以先去ik插件的config文件下,已经有很多的dic文件。这就是ik自己的热词。我自己加了一个叫hwt...
阅读全文

Elastic 宣布公开其商业产品 X-Pack 的源代码 - Medcl的个人空间 - 开源中国

by Elastic CEO Shay Banon 我很高兴的宣布,我们将公开我们 XPack 特性的所有代码 Security、Monitoring、Alerting、Graph、Reporting、专门的 APM UI、Canvas、Elasticsearch SQL、Search Profiler、Grok Debugger、Elastic Maps Service zoom le...
阅读全文

SQL优化-第二章-从解释计划层面让SQL飞 - codec style - 开源中国

前言==在第一章,我们谈到加强数据库的设计层面认知可以让SQL的跑得更快,这章我们就谈论下如何从语言层面来提供优化SQL。如果说有一把钥匙能打开SQL优化的大门,那么解释计划就是这样的一把钥匙。什么是解释计划数据根据统计信息生成的代码执行计划,了解释计划,理解解释计划就能帮助我们理解代码的瓶颈,问题的所在,有的放矢进行优化。Oracle提供了多种解释计划,hive,mongodb,mys...
阅读全文

SQL优化-第一章-从设计层面让SQL飞 - codec style - 开源中国

前言==SQL优化,老生常谈,确也容易陷入一种思维误区。现谈及SQL化,众口必言,查询走索引,统计行数用count(列),不用count().必须用exists 代替in,表关联小表在前(驱动表),大表在后,表链接链接条件等等让人眼晕难记的规则。曾几何时,明明牢记了那些被传成真理规则,确让自己程序跑得越来越慢,各种解释不通。SQL只是数据库的一门语言,诚然记住一些普遍适用的规则,能让自己...
阅读全文

数据分析学习之路——(八)分类算法介绍 - Nekyo's Blog - 开源中国

        前面几篇文章都是从数据分析介绍讲到描述统计分析,其实数据分析还需要使用机器学习的相关知识用来建立不同的分析模型,最终对数据信息进行深入的分析和挖掘。在实际工作当中,我们需要对数据进行特征分析,并且从数据中获取有价值的信息,并且为数据产品的市场服务。对于机器学习这一块,我是从分类算法开始研究的,因此本篇文章着重介绍几种分类算法。由于这些算法都非常经典,网上也有许多博文进行解读,本...
阅读全文

为什么我们做分布式使用Redis? - Ala6的个人空间 - 开源中国

绝大部分写业务的程序员,在实际开发中使用 Redis 的时候,只会 Set Value 和 Get Value 两个操作,对 Redis 整体缺乏一个认知。这里对 Redis 常见问题做一个总结,解决大家的知识盲点。1、为什么使用 Redis=================在项目中使用 Redis,主要考虑两个角度:性能和并发。如果只是为了分布式锁这些其他功能,还有其他中间件 Zo...
阅读全文

在浏览器中进行深度学习:TensorFlow.js (七)递归神经网络 (RNN) - naughty的个人页面 - 开源中国

介绍上一篇博客我们讨论了CNN,卷积神经网络。CNN广泛应用于图像相关的深度学习场景中。然而CNN也有一些限制: 很难应用于序列数据 输入数据和输出数据都是固定长度 不理解上下文这些问题就可以由RNN来处理了。神经网络除了CNN之外的另一个常见的类别是RNN,递归/循环神经网络。这里的R其实是两种神经网络,_Recurrent_:时间递归 , _Recusiv...
阅读全文

谈谈机器学习模型的部署 - naughty的个人页面 - 开源中国

随着机器学习的广泛应用,如何高效的把训练好的机器学习的模型部署到生产环境,正在被越来越多的工具所支持。我们今天就来看一看不同的工具是如何解决这个问题的。上图的过程是一个数据科学项目所要经历的典型的过程。从数据采集开始,经历数据分析,数据变形,数据验证,数据拆分,训练,模型创建,模型验证,大规模训练,模型发布,到提供服务,监控和日志。诸多的机器学习工具如SciktLearn,Spark,...
阅读全文