Mastering Regular Expressions读书笔记

正则表达式的祖先可以一直上溯至对人类神经系统如何工作的早期研究。warren mcculloch 和 walter pitts 这两位神经生理学家研究出一种数学方式来描述这些神经网络。1956 年, 一位叫 stephen kleene 的数学家在 mcculloch 和 pitts 早期工作的基础上，发表了一篇标题为神经网事件的表示法的论文，引入了正则表达式的概念。正则表达式就是用来描述他称为正则集的代数的表达式，因此采用正则表达式这个术语。

涉及到了数据的解析，自然离不开对regular expressions(正则表达式)的温习;在jdk官方源码中看到了对《mastering regular expressions, 2nd edition》的推荐;由jeffrey e.f. friedl大师主刀，oreilly于XX年再版。对oreilly的书向有好感，像当年误入ja的歧途，没看ja编程思想之类的，倒看了oreilly的一本影印版《ja in a nutshell》，颇留记忆。

随后，发现可以将这一工作应用于使用 ken thompson 的计算搜索算法的一些早期研究，ken thompson 是 unix 的主要发明人。正则表达式的第一个实用应用程序就是 unix 中的 qed 编辑器。

目前，正则表达式已经在很多软件中得到广泛的应用，包括*nix(linux, unix等)，hp等操作系统;php，perl，python，c#，ja等开发环境，以及很多的应用软件中，for example：网络上的搜索引擎，数据库的全文检索etc...

本笔记是是自我学习过程的一个整理，例子或来源于书本，或自己枚举。

1、正则表达式的介绍

1、行开始和结束

^begin line。匹配行开头，如^cat匹配以cat开头的

$end line。匹配行结束，如cat$匹配以cat结束的;^cat$仅仅匹配该行有cat

2、匹配给定的字符序列

[...]，表示in。里面写入欲匹配的几个字符，如，匹配seperate,separete,separate;匹配

, etc.[a-z]代表从a到z中的任意字符，[0-9]、[a-z]分别代表0-9，a-z中的任意数字或大写字母;-代表连续的从开始字符到结束;那么[0123456789abcdefabcdef]也可以写为[0-9a-fa-f];对于这些频繁使用的字符，各语言分别做了相同的预定义：

3、匹配非给定的字符(非...)

[^]匹配，表示not。^和行开头的标记完全一样，但写的位置不一样，则表述的意思可能完全相反，用^表示否定的意思，更多是写在[]里面，如：q[^u]匹配q后面紧跟非u的字符，如iraqi,qasida,zaqqum,iraq;没错,iraq这个单词也会被匹配,尽管q后面什么也没有，也可能有个空格、或回车符等。否定字符的意思(翻译出来绕口)：means match a character thats not listed and not dont match what is listed.

4、匹配任何字符

.匹配，表示any。任何字符，如07.04匹配：07_04,07-04,07 04,07.04 etc;如想要精确匹配07/04,07-04,or 07.04;需要写07[-./]04;没错当.在[]里面包含的时候，仅仅表示.字符而已，如果不在[]里面，需要转义\\. 如匹配形如x.y的小数：是[0-9]\\.[0-9]，而非[0-9].[0-9]

5、匹配几个给定的字符序列中的一个

|匹配，表示or。to be continued....

别看它似乎很深奥，其实学起来很容易的。欢迎一起来探讨啊。

更多相关

《读者》读书笔记《再被狐狸骗一次》读书笔记读书笔记之红楼梦大学生读书笔记范文舞蹈学导论读书笔记