拥有0000-未整理-等待研究标签的文章

kNN分类学习(Tensorflow实现) - Nioacht的个人空间 - 开源中国

kNN算法原理kNN也就是kNearestNeighbour的缩写。从命名上也可大致了解到这个算法的精髓了。用一句话概括而言,kNN分类算法就是‘近朱者赤,近墨者黑’。说得准确一点就是_如果一个样本在特征空间中的k个最相邻的样本大多数属于某一类别,则该样本也属于此类别,并具有相应类别的特征_下面这个例子出现在无数讲解kNN的文章中,可见其的代表性:我们把数据样本在一个平面上表...
阅读全文

大数据Hadoop的HA高可用架构集群部署 - FEINIK的个人主页 - 开源中国

1 概述====在Hadoop 2.0.0之前,一个Hadoop集群只有一个NameNode,那么NameNode就会存在单点故障的问题,幸运的是Hadoop 2.0.0之后解决了这个问题,即支持NameNode的HA高可用,NameNode的高可用是通过集群中冗余两个NameNode,并且这两个NameNode分别部署到不同的服务器中,其中一个NameNode处于Active状态,另外...
阅读全文

Elastic 在年度用户大会 Elastic{ON} 2018 上发布众多新功能和技术预览 - Medcl的个人空间 - 开源中国

_下载超过 2.25 亿次,Elastic 公开 XPack 源代码_旧金山 (Elastic{ON} 2018) – 2018 年 2 月 27 日 – Elastic,Elasticsearch 和 Elastic Stack背后的公司,今天宣布其产品累计下载次数达到 2.25 亿次的里程牌,去年累计下载次数是 1 亿。除此之外,Elastic 宣布公开其XPack 的源代码作为策...
阅读全文

使用开源Echarts为Splunk打造类似语法驱动的分析可视化 - naughty的个人页面 - 开源中国

Splunk是业内领先的机器数据平台,有非常易用的用户界面的可视化的选项。Splunk的可视化图表是使用开源的的语法驱动的可视化工具。代码在 github   码云 主要逻辑代码代码是,不超过600行代码,大家有兴趣可以去看一下。安装比较简单,拷贝echarts\_app到SPLUNK\_HOME/etc/apps目录下,然后在 echarts_app/appse...
阅读全文

Kudu:一个融合低延迟写入和高性能分析的存储系统 - TiDB的个人空间 - 开源中国

Kudu 是一个基于 Raft 的分布式存储系统,它致力于融合低延迟写入和高性能分析这两种场景,并且能很好的嵌入到 Hadoop 生态系统里面,跟其他系统譬如 Cloudera Impala,Apache Spark 等对接。Kudu 很类似 TiDB。最开始,TiDB 是为了 OLTP 系统设计的,但后来发现我们 OLAP 的功能也越来越强大,所以就有了融合 OLTP 和 OLAP 的想...
阅读全文

Elasticsearch 与 Thinkphp 增删改查操作 - Traveler - 开源中国

Elasticsearch 建模 mappings有点类似我们定义MySQL的数据库表结构的时候,需要指定每个字段的名字,其数据类型一样。当然,这个定义过程,也指明了这个表结构一共含有多少个字段了。对于ES而言,就相当于指定了一个document有多少field,每个field的数据类型,注意,这个比MySQL定义表过程,还多了一个有用的操作,就是指定每个字段可用的分析器(analyzer...
阅读全文

Elasticsearch学习总结六 使用Observer实现HBase到Elasticsearch的数据同步 - winstone的个人空间 - 开源中国

    最近在公司做统一日志收集处理平台,技术选型肯定要选择elasticsearch,因为可以快速检索系统日志,日志问题排查及功业务链调用可以被快速检索,公司各个应用的日志有些字段比如说content是不需要在es中作为存储的,当时考虑使用一种keyValue形式的数据库作存储,然后使用hbase的Rowkey作为es的docId,实现数据检索在es中,存储在hbase中,这样可以大大...
阅读全文

【干货】Apache Hadoop 2.8 完全分布式集群搭建超详细过程,实现NameNode HA、ResourceManager HA高可靠性 - 雪饼的个人空间 - 开源中国

最近在自己的笔记本电脑上搭建了Apache Hadoop分布式集群,采用了最新的稳定版本2.8,并配置了NameNode、ResourceManager的HA高可用,方便日常对Hadoop的研究与测试工作。详细的搭建过程如下:1、安装docker,创建docker容器,用于搭建hadoop节点docker真是个好东西啊,当要在自己的笔记本上搭建分布式集群时,由于CPU、内存、磁盘有限,...
阅读全文

【干货】Apache Hive 2.1.1 安装配置超详细过程,配置hive、beeline、hwi、HCatalog、WebHCat等组件 - 雪饼的个人空间 - 开源中国

    在Docker环境成功搭建了Apache Hadoop 2.8 分布式集群,并实现了NameNode HA、ResourceManager HA之后(详见我的另一篇博文:),接下来将搭建最新稳定版的Apache Hive 2.1.1,方便日常在自己电脑上测试hive配置和作业,同样的配置也可以应用于服务器上。以下是Apache Hive 2.1.1的安装配置详细过程1、阅读Apac...
阅读全文

HBase 1.2.6 完全分布式集群安装部署详细过程 - 雪饼的个人空间 - 开源中国

Apache HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是NoSQL数据库,基于Google Bigtable思想的开源实现,可在廉价的PC Server上搭建大规模结构化存储集群,利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase海量数据,使用Zookeeper协调服务器集群。Apache HBase官网有。Apa...
阅读全文