《SAS编程与数据挖掘商业案例》学习笔记之十九

继续《SAS编程与数据挖掘商业案例》学习笔记,本文侧重数据处理实践,包括:HASH对象、自定义format、以及功能强大的正则表达式

一:HASH对象

Hash对象又称散列表,是根据关键码值而直接进行访问的数据结构,是根据关键码值而直接进行访问的数据结构,

sas提供了两个类来处理哈希表,用于存储数据的hash和用于遍历的hiter,hash类提供了查找、添加、修改、删除等方法,hiter提供了用于定位和遍历的firstnext等方法。

优点:键值的查找是在内存中进行的,有利于提高性能;

hash表可以在数据步运行时,动态的添加更新或删除观测;

hash表中可以很快的定位数据,减少查找次数;

常用方法:

definekey:定义键

Definedata:定义值

definedone:定义完成,可以载入数据

add:添加键值,如在hash表中已存在,则忽略;

replace:如果健在hash表中存在,则替换,如果不存在则添加键值

remove:清除键值对

find:查找健值,如果存在则将值写入对应变量

check:查找键值,如果存在则返回rc=0,不修改当前变量的值;

output:将hash表输出到数据集

clear:清空hash表,但并不删除对象

equal:判断两个hash类是否相等

find方法的示例:

libname chapt12 'f:\data_model\book_data\chapt12';

data results;

if _n_=0 then set chapt12.participants;

if _n_ = 1 then do;

declare hash h(dataset:'chapt12.participants');

h.definekey('name');

h.definedata('gender','treatment');

h.definedone();

end;

set chapt12.weight;

if h.find() = 0 then

output;

run;

hiter对象的引例:

data patients;

length patient_id $ 16 discharge 8;

input patient_id discharge:date9.;

datalines;

smith-4123 15mar2004

hagen-2834 23apr2004

smith-2437 15jan2004

flinn-2940 12feb2004

;

data _null_;

if _n_=0 then set patients;

declare hash ht(dataset:"patients",ordered:"ascending");

ht.definekey("patient_id");

ht.definedata("patient_id","discharge");

ht.definedone();

declare hiter iter("ht");

rc = iter.first();

do while (rc=0);

put patient_id discharge:date9.;

rc = iter.next();

run;

declare hiter iter("ht");hashht定义了一个遍历器iter,之后调用first方法将遍历器定位到hash表的第一条观测,然后使用next方法遍历hash表中的所有记录并输出。

商业实战-两个数据集的合并:

data both1(drop=rc);

declare hash plan ();

rc = plan.definekey ('plan_id');

rc = plan.definedata ('plan_desc');

rc = plan.definedone ();

do until (eof1) ;

set chapt12.plans end = eof1;

rc = plan.add ();

do until (eof2) ;

set chapt12.members end = eof2;

call missing(plan_desc);

rc = plan.find ();

output;

stop;

上述程序可以简化为:

data both2;

length plan_id $3 plan_desc $20;

if _n_ = 1 then do;

declare hash h(dataset:'chapt12.plans');

h.definekey('plan_id');

h.definedata('plan_desc');

h.definedone();

call missing(plan_desc);

end;

set chapt12.members;

rc=h.find();

二:format

自定义format

Proc Format;

Value $ Sex_Fmt

'F'=''

'M'=''

Other = '未知';

Value Age_Dur

Low-10="10岁以下"

11-13="11-13"

14-<15="14-15"

15-High="15岁以上";

Run;

应用:

Datatest;

Setsashelp.class(keep=sex age);

x=put(sex,$sex_fmt);y=put(age,age_dur.);

三:正则表达式:

/.../一个正则表达式的起止;

|数项之间的选择,“或”运算;

()匹配组,标记一个子表达式的开始和结束位置;

.除换行符以外的任意字符;

\w任一单词字符,数字大小写字母以及下划线

\W任一非单词字符

\s任一空白字符,包括空格、制表符、换行符、回车符、中文全角空格等;

\S任一非空白字符,

\d0-9任一数字

\D任一非数字字符

[...]

[^...]

[a-z]az

[^a-z]不在从az范围内的任意字符

^匹配输入字符串的开始位置

$匹配输入字符串的结尾位置

\b描述单词的前或后边界

\B表示非单词边界

*匹配0次或多次

+匹配一次或多次

?匹配零次或一次

{n}匹配n

{n,}匹配n次以上

匹配nm

常用函数:

Prxparse定义一个正则表达式

Prxmatch返回匹配模式的首次匹配位置

Call prxsubstr返回匹配模式在目标字符串的开始位置和长度

Prxposn返回正则表达式子表达式对应的匹配模式值

Callprxposn返回正则表达式子表达式对应的匹配模式和长度

Cal lprxnext返回匹配模式在目标字符串中的多个匹配位置和长度

Prxchange替代匹配模式的值

Call prxchange替代匹配模式的值

eg1

if _n_ = 1 then pattern_num = rxparse("/cat/");

retain pattern_num;

input string $30.;

position = rxmatch(pattern_num,string);

file print;

put pattern_num= string= position=;

there is a cat in this line.

does not match cat

cat in the beginning

at the end,a cat

cat

eg2:数据验证

data match_phone;

set chapt12.phone_numbers;

if _n_ = 1 then pattern = prxparse("/\(\d\d\d\) ?\d\d\d-\d{4}/");

retain pattern;

if prxmatch(pattern,phone) gt 0 then output;

找出不匹配的手机号码

data unmatch_phone;

where not prxmatch("/\(\d\d\d\) ?\d\d\d-\d{4}/",phone);

Eg3:提取匹配某种模式的字符串

data extract;

pattern = prxparse("/\(\d\d\d\) ?\d\d\d-\d{4}/");

if missing(pattern) then do;

put "error in compiling regular expression";

stop;

end;

length number $ 15;

input string $char80.;

call prxsubstr(pattern,string,start,length);

if start gt 0 then do;

number = substr (string,length);

number = compress(number," ");

output;

keep number;

this line does not have any phone numbers on it

this line does: (123)345-4567 la di la di la

also valid (123) 999-9999

two numbers here (333)444-5555 and (800)123-4567

eg4:提取名字

data ReversedNames;

input name & $32.;

datalines;

Jones,Fred

Kavich,Kate

Turley,Ron

Dulix,Yolanda

data FirstLastNames;

length first last $ 16;

keep first last;

retain re;

if _N_ = 1 then

re = prxparse('/(\w+),(\w+)/');

set ReversedNames;

if prxmatch(re,name) then

do;

last = prxposn(re,1,name);

first = prxposn(re,2,255)">注:1,2分别代表正则表达式中的两个组

eg5:提取符合规定的名字

data old;

input name $60.;

Judith S Reaveley

Ralph F. Morgan

Jess Ennis

Carol Echols

Kelly Hansen Huff

Judith

Nick

Jones

data new;

length first middle last $ 40;

re1 = prxparse('/(\S+)\s+([^\s]+\s+)?(\S+)/o');

re2 = prxparse('/(\S+)(\s+)([^\s]+\s+)(?)(\S+)/o');

set old;

id1=prxmatch(re1,255)">id2=prxmatch(re2,255)">if id1 then

first = prxposn(re1,255)">middle = prxposn(re1,255)">last = prxposn(re1,3,255)">if id2 then test=prxposn(re1,4,255)">put test=;

Eg6:返回匹配模式的多个位置

expressionid = prxparse('/[crb]at/');

text = 'the woods have a bat,cat,and a rat!';

start = 1;

stop = length(text);

call prxnext(expressionid,stop,text,position,255)">do while (position > 0);

found = substr(text,255)">put found= position= length=;

call prxnext(expressionid,255)">注:首次执行call prxnext返回一个position,然后进入循环,在抽取满足条件的子串中,再次执行all prxnext,此时会返回下一个匹配的position

Eg7:替换文本

data cat_and_mouse;

input text $char40.;

length new_text $ 80;

if _n_ = 1 then match = prxparse("s/[Cc]at/mouse/");

retain match;

call prxchange(match,-1,new_text,len,trunc,num);

if trunc then put "note: new_text was truncated";

the Cat in the hat

there are two cat cats in this line

here is no replacement

run;

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


jquery.validate使用攻略(表单校验) 目录 jquery.validate使用攻略1 第一章&#160;jquery.validate使用攻略1 第二章&#160;jQuery.validate.js API7 Custom selectors7 Utilities8 Validato
/\s+/g和/\s/g的区别 正则表达式/\s+/g和/\s/g,目的均是找出目标字符串中的所有空白字符,但两者到底有什么区别呢? 我们先来看下面一个例子: let name = &#39;ye wen jun&#39;;let ans = name.replace(/\s/g, &#39;&#3
自整理几个jquery.Validate验证正则: 1. 只能输入数字和字母 /^[0-9a-zA-Z]*$/g jQuery.validator.addMethod(&quot;letters&quot;, function (value, element) { return this.optio
this.optional(element)的用法 this.optional(element)是jquery.validator.js表单验证框架中的一个函数,用于表单控件的值不为空时才触发验证。 简单来说,就是当表单控件值为空的时候不会进行表单校验,此函数会返回true,表示校验通过,当表单控件
jQuery.validate 表单动态验证 实际上jQuery.validate提供了动态校验的方法。而动态拼JSON串的方式是不支持动态校验的。牺牲jQuery.validate的性能优化可以实现(jQuery.validate的性能优化见图1.2 jQuery.validate源码 )。 也可
自定义验证之这能输入数字(包括小数 负数 ) &lt;script type=&quot;text/javascript&quot;&gt; function onlyNumber(obj){ //得到第一个字符是否为负号 var t = obj.value.charAt(0); //先把非数字的都
// 引入了外部的验证规则 import { validateAccountNumber } from &quot;@/utils/validate&quot;; validator.js /*是否合法IP地址*/ export function validateIP(rule, value,cal
VUE开发--表单验证(六十三) 一、常用验证方式 vue 中表单字段验证的写法和方式有多种,常用的验证方式有3种: data 中验证 表单内容: &lt;!-- 表单 --&gt; &lt;el-form ref=&quot;rulesForm&quot; :rules=&quot;formRul
正则表达式 座机的: 例子: 座机有效写法: 0316-8418331 (010)-67433539 (010)67433539 010-67433539 (0316)-8418331 (0316)8418331 正则表达式写法 0\d{2,3}-\d{7,8}|\(?0\d{2,3}[)-]?\d
var reg = /^0\.[1-9]{0,2}$/;var linka = 0.1;console.log (reg.test (linka)); 0到1两位小数正则 ^(0\.(0[1-9]|[1-9]{1,2}|[1-9]0)$)|^1$ 不含0、0.0、0.00 // 验证是否是[1-10
input最大长度限制问题 &lt;input type=&quot;text&quot; maxlength=&quot;5&quot; /&gt; //可以 &lt;input type=&quot;number&quot; maxlength=&quot;5&quot; /&gt; //没有效
js输入验证是否为空、是否为null、是否都是空格 目录 1.截头去尾 trim 2.截头去尾 会去掉开始和结束的空格,类似于trim 3.会去掉所有的空格,包括开始,结束,中间 1.截头去尾 trim str=str.trim(); // 强烈推荐 最常用、最实用 or $.trim(str);
正则表达式语法大全 字符串.match(正则):返回符合的字符串,若不满足返回null 字符串.search(正则):返回搜索到的位置,若非一个字符,则返回第一个字母的下标,若不匹配则返回-1 字符串.replace(正则,新的字符串):找到符合正则的内容并替换 正则.test(字符串):在字符串中
正整数正则表达式正数的正则表达式(包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+\d)|0)$正数的正则表达式(不包括0,小数保留两位): ^((0{1}.\d{1,2})|([1-9]\d.{1}\d{1,2})|([1-9]+
JS 正则验证 test() /*用途:检查输入手机号码是否正确输入:s:字符串返回:如果通过验证返回true,否则返回false /function checkMobile(s){var regu =/[1][3][0-9]{9}$/;var re = new RegExp(regu);if (r
请输入保留两位小数的销售价的正则: /(^[1-9]([0-9]+)?(\.[0-9]{1,2})?$)|(^(0){1}$)|(^[0-9]\.[0-9]([0-9])?$)/ 1.只能输入英文 &lt;input type=&quot;text&quot; onkeyup=&quot;value
判断价格的正则表达式 价格的正则表达式 /(^[1-9]\d*(\.\d{1,2})?$)|(^0(\.\d{1,2})?$)/; 1 解析:价格符合两种格式 ^ [1-9]\d*(.\d{1,2})?$ : 1-9 开头,后跟是 0-9,可以跟小数点,但小数点后要带上 1-2 位小数,类似 2,2
文章浏览阅读106次。这篇文章主要介绍了最实用的正则表达式整理,比如校验邮箱的正则,号码相关,数字相关等等,本文给大家列举的比较多,需要的朋友可以参考下。_/^(?:[1-9]d*)$/ 手机号
文章浏览阅读1.2k次。4、匹配中的==、an==、== an9、i9 == "9i"和99p==请注意下面这部分的作用,它在匹配中间内容的时候排除了说明:当html字符串如下时,可以匹配到两处,表示匹配的字符串不包含and且不包含空白字符。说明:在上面的正则表达式中,_gvim正则表达式匹配不包含某个字符串
文章浏览阅读897次。【代码】正则表达式匹配a标签的href。_auto.js 正则匹配herf