RegExp 开发工具

转自WEB开发者 原文链接:http://www.admin10000.com/Common/Print.aspx?DocumentId=3064

12个优秀资源让你迅速精通正则表达式

来源:lhb25 发布时间:2013-10-12

  正则表达式是每个程序开发人员的必备技能。任何开发项目,不管使用什么编程语言,都需要从给定的数据提取值并进行验证。例如对输入内容的验证,过滤 URL 变量等等,正则表达式处理这样的任务很容易,而且只需要很少的代码。

  另一方面,正则表达式被很多人认为是很难掌握的。但事实不是这样的,他们只是看起来复杂而已。这里有12个伟大的资源,能够帮助你快速学习和掌握正则表达式。

  RegExplained

  RegExplained 是一个在线测试正则的项目,可以实时显示从一个正则表达式匹配的文本。

  RegEx Guide By Mozilla

Mozilla Regex Guide

  网络上最简洁明了的正则表达式指南之一。内容易于理解,并涵盖了最重要的东西。

  RegexPlanet

RegexPlanet

  RegexPlanet 允许测试使用任何语言编写的表达式。创建的表达式可以共享,方便的正则表达式手册。

  Debuggex

Debuggex

  很实用的一个 Web 应用程序,用于测试正则表达式。支持 JavaScript,Python 和 PCRE 语言。

  Rubular

Rubular - Ruby Regex Tool

  这是一款流行的正则表达式编辑器,用于 Ruby 开发,这激发了许多其他的项目。

  Scriptular

Scriptular

  Regex tester 用于 JavaScript 开发(灵感来自Rubular)。它也有一个正则表达式命令快速参考。

  txt2re

txt2r Regex Tester

  一个工具,帮助你以可视化的方式通过点击过滤文本中的项目,提取任何给定的文本。

  PHP Live Regex

PHP Live Regex

  给 PHP 开发人员使用的正则表达式测试仪。可以生成唯一的 URL,这样就可以与他人共享代码,或保留在以后的工作。

  XRegExp

XRegExp

  一个 JavaScript 库,用于扩展正则表达式的功能。它提供了新的语法,标志和方法。

  VerbalExpressions

VerbalExpressions

  一个令人非常兴奋的项目,可以改变开发人员使用正则表达式的方式。它的目的是使正则表达式易于阅读和使用命令编写。

  Regex Crossword

Regex Crosswork

  很专一的资源,帮助提高你的正则表达式的技能。类似于经典的谜题,给你一个正则表达式,猜测正确答案。

  Rex V

  实时的正则表达式测试工具,支持 PHP,JavaScript,Python,NodeJS 和 Perl。

中文分词库

http://hi.baidu.com/niudetianxia/item/9dbeacdcaac8d24eddf9be9a

中文分词库 IKAnalyzer

IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目 Lucene为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为… 更多IKAnalyzer信息

最近更新: 【每日一博】使用 IKAnalyzer 分词计算文章关键字 发布于 2个月前
盘古分词

盘古分词是一个基于 .net framework 的中英文分词组件。主要功能 中文未登录词识别 盘古分词可以对一些不在字典中的未登录词自动识别 词频优先 盘古分词可以根据词频来解决分词的歧义问题 多元分词 盘古分词提供多重输出解决分词粒度和分词精度权衡的问题 … 更多盘古分词信息
中文分词库 NlpBamboo

bamboo是一个中文语言处理系统。目前包括中文分词和词性标注部分。 bamboo提供了C,PHP,PostgreSQL的编程接口。 更多NlpBamboo信息
http协议中文分词 http-scws

2011-06-26更新至2.0版 1.增加规则 2.增加词性分词 3.JSON格式返回数据 http-scws(基于scws的http协议中文分词),软件基于scws 1.1.7版本二次开发,基于libevent进行http封装,请求更简单 功能: 1.词库为文本文件方式,增加、删除更方便 2.支持gbk与utf-8… 更多http-scws信息

最近更新: http-scws 更新,增加高频词出现的次数 发布于 2个月前
Ruby中文分词器 rmmseg-cpp

rmmseg的主要问题是性能和内存消耗。用纯ruby编写的rmmseg分词的速度非常慢,而且内存消耗非常惊人,当使用复杂分词算法的时候,内存呈线性上升的现象。为此rmmseg的作者pluskid再接再厉用C++重写了一遍rmmseg项目,这就是rmmseg-cpp。根据作者自己的简单测… 更多rmmseg-cpp信息
Python 中文分词库 Yaha

“哑哈”中文分词,更快或更准确,由你来定义。通过简单定制,让分词模块更适用于你的需求。 “Yaha” You can custom your Chinese Word Segmentation efficiently by using Yaha 基本功能: 精确模式,将句子切成最合理的词。 全模式,所有的可能词都被切成词… 更多Yaha信息
中科院中文分词 ICTCLAS

中科院ICTCLAS (FreeICTCLAS)最新free开放源代码,里面有中文分词算法,大家一起共同学习和研究,对搜索引擎中文分词方面有很大用处哦 更多ICTCLAS信息
中文分词库 Paoding

庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率… 更多Paoding信息
中文分词器 mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。 2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向… 更多mmseg4j信息
Python中文分词组件 jieba

jieba “结巴”中文分词:做最好的Python中文分词组件 “Jieba” Feature 支持三种分词模式: 精确模式,试图将句子最精确地切开,适合文本分析; 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义; 搜索引擎模式,在精确模式… 更多jieba信息

最近更新: 结巴分词 0.31 发布,Python 中文分词组件 发布于 1个月前
中文分词软件包 LibMMSeg

LibMMSeg 简介 LibMMSeg 是Coreseek.com为 Sphinx 全文搜索引擎设计的中文分词软件包,其在GPL协议下发行的中文分词法,采用Chih-Hao Tsai的MMSEG算法。 MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Max… 更多LibMMSeg信息
Java开源中文分词器 jcseg

jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。 1。目前最高版本:jcseg 1.8.8。 兼容最高版本的lucene-4.3.6和最高版本solr-4.3.6。 2。mmseg四种过滤算法,分词准确率达到了98.4%。 3。支持自定义词库。在lexicon文件夹下,可以随便添… 更多jcseg信息

最近更新: jcseg-1.8.8发布 – 词库更新自动加载+自定义配置文件+中英混合词识别 发布于 1个月前
Lucene中文分词库 ICTCLAS4J

ictclas4j中文分词系统是sinboy在中科院张华平和刘群老师的研制的FreeICTCLAS的基础上完成的一个java开源分词项目,简化了原分词程序的复杂度,旨在为广大的中文分词爱好者一个更好的学习机会。 更多ICTCLAS4J信息
开源中文分词系统 HTTPCWS

HTTPCWS是一款Linux下的基于HTTP协议的开源中文分词系统,采用BSD协议。 这个分词系统是对中国科学院计算技术研究所免费提供的 ICTCLAS 3.0 共享版分词后的结果,再采用逆向最大匹配算法,根据作者自己补充的一个9万条词语的自定义词库,对ICTCLAS分词结果… 更多HTTPCWS信息
简易中文分词系统 SCWS

SCWS 是 Simple Chinese Words Segmentation 的缩写,即简易中文分词系统。 这是一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。词是汉语的基本语素单位,而书写的时候不像英语会在词之间用空格分开, 所以如何准确而又快速的… 更多SCWS信息
智能中文分词模块 imdict-chinese-analyzer

imdict-chinese-analyzer 是 imdict智能词典 的智能中文分词模块,算法基于隐马尔科夫模型(Hidden Markov Model, HMM),是中国科学院计算技术研究所的ictclas中 文分词程序的重新实现(基于Java),可以直接为lucene搜索引擎提供简体中文分词支持。 主要特… 更多imdict-chinese-analyzer信息
中文句法分析器 ctbparser

一个用C++实现的 中文句法分析 工具包,采用的是中文宾州树库标准(Chinese Tree Bank),并提供源代码。 可以对原始的文档(GBK编码)进行自动繁简转换,分句,分词,词性标注,依存句法分析。 该句法分析工具采用了标准的图模型算法,即最大生成树算法(pr… 更多ctbparser信息
中文分词库 PHPCWS

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统,该项目现在已改名为 HTTPCWS,此项目不再继续维护。 PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并… 更多PHPCWS信息
中文分词开源版 CRF

中文分词是互联网应用不可缺少的基础技术之一,也是其他语音和语言产品必不可少的技术组件。 自2003年第一届国际中文分词评测以来,由字构词的分词方法获得了压倒性优势,国内主要通过CRF++开源软件包来学习该分词方法,但是CRF++过于复杂的代码结构,导致… 更多CRF信息
中文分词工具包 smallseg

smallseg — 开源的,基于DFA的轻量级的中文分词工具包 特点:可自定义词典、切割后返回登录词列表和未登录词列表、有一定的新词识别能力。 Python 示例代码: s3 = file(“text.txt”).read() words = [x.rstrip() for x in file(“main.dic”) ] from small…

中文分词 Ansj

Ansj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟大约100万字(速度上已经超越ictclas) 文件读取分词每秒钟大约30万字 准确率能达到96%以上 目… 更多Ansj信息
C语言开源高性能中文分词器 friso

一。friso中文分词器friso是使用c语言开发的一个开源中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入其他程序中,例如:MySQL,PHP。 【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为13.5M… 更多friso信息

最近更新: friso-1.2发布 – 修复一个bug+共享文件+cygwin makefile 发布于 2个月前
PHP中文分词扩展 robbe

robbe是建立在friso中文分词组建上的一个高性能php中文分词扩展。(只支持UTF-8编码) 此外,还提供了一些实用的php扩展函数,例如:编码转换,robbe函数使用说明 。 1.目前最高版本:robbe 1.1,【源码无需修改即可在各平台下编译运行】 2.mmseg四种过滤… 更多robbe信息

最近更新: robbe-1.1发布 – 高性能php中文分词扩展 发布于 2个月前
基于HMM模型的中文分词 finalseg

finalseg -> Chinese Words Segment Library in Python based on HMM Model 基于HMM模型的中文分词 用法 将finalseg目录放置于当前目录或者site-packages目录 import finalseg 代码示例 import finalseg sentence_list = [ “姚晨和老凌离婚了”, “他说的确… 更多finalseg信息

最近更新: python中文分词库finalseg已经进入pypi仓库 发布于 11个月前
中文分词器 RMMSeg

rmmseg是浙江大学的学生pluskid开发的纯ruby版本的中文分词程序,采用的也是“基于词典的最大匹配算法” $ echo “我们都喜欢用 Ruby” | rmmseg 我们 都 喜欢 用 Ruby 更多RMMSeg信息
中文分词库 Chinese dialect convert

该软件是基于IK analyzer中文分词系统,以及基于知网的词语相似度计算一文,开发的能够将普通话转换为方言的分词翻译系统。软件采用基于词库的中文方言分词,对普通话的句子进行最大分词,从而进行方言的转换。由于目前研究方言的资料比较少,基于语义识别… 更多Chinese dialect convert信息
Python 中文分词库 snailseg

snailseg Chinese Words Segment Library in Python 简单的中文分词库 在线分词效果展示 https://snailsegdemo.appspot.com/ Usage 将snailseg目录放置于当前目录或者site-packages目录 import snailseg 代码示例 import snailseg words = snailseg.cut(“… 更多snailseg信息
结巴分词(java版) jieba-analysis

首先感谢jieba分词原作者fxsjy,没有他的无私贡献,我们也不会结识到结巴 分词,更不会有现在的java版本。 结巴分词的原始版本为python编写,目前该项目在github上的关注量为170, 打星727次(最新的数据以原仓库为准),Fork238次,可以说已经有一定的用户… 更多jieba-analysis信息
Python中文分词 scseg

scseg中文分词,是基于mmseg的简单分词组件 Feature 支持pinyin分词 支持用户自定义词典 支持单位合并 支持汉字数字识别 Install pip install scseg 通过import scseg来引用 Algorithm 采用mmseg算法进行切分 采用规则方式支持中文数字分词 功能 1):分词s… 更多scseg信息
genius中文分词

genius中文分词,是基于crf条件随机场的分组件 Feature 支持pinyin分词 支持用户自定义break 支持用户自定义词典 支持词性标注 Install 安装git: 1) ubuntu or debian apt-get install git 2) fedora or redhat yum install git 升级setuptools: pip i… 更多genius中文分词信息
elasticsearch-analysis-jieba

结巴分词插件(for elasticsearch),目前支持0.90.*以上版本 —————————————————- | Jieba Chinese Analysis Plugin | ElasticSearch | —————————————————- | 0.0.1-SNAPSHOT (mas…