《信息检索导论》第五章总结


一、索引压缩概述


使用压缩的目的:

(1)因为我们想要把尽量多的数据放入内存,因此压缩能够达到这个目的;

(2)从磁盘到内存的传输时间会缩短;

压缩分类

(1)无损压缩:压缩后的数据能还原全部信息;

(2)有损压缩:压缩后会丢失一些信息;

如果有损压缩后丢失的信息用户并不关心,则有损压缩也是可以接受的;


二、Heaps定律


通过整个文档集词条数来估计词项数目;

主要思想:随着文档集增加,词项数目会增加,并且没有上限;

M=kT^b;


三、Zipf定律


通过词项在文档集中的词频排名来估计词项之间的词频比例;

如果词项A出现次数排名第一,词项B出现次数排名第二,词项C出现次数排名第三,则A出现次数是B出现次数的两倍,则A出现次数是C出现次数的1/3;


四、词典压缩


虽然与倒排记录表相比,词典的空间很小,但是为了能够把词典全部都放在内存中,我们必须要对其进行压缩;


1.词项定长存储


固定词项分配大小为20B;

需要空间:M*(20+4+4)=M*28;

缺点:

(1)大部分单词都少于20B,浪费空间;

(2)对于某几个大于20B的单词也不能存储;


2.词项作为一个字符串


将每个词项合并,并组成一个长字符串;

对于每个词项增加一个指针;

需要空间:M*(8+4+4+3)=M*19;

相比之前,减少了1/3;

3.按块存储


将词典分组,分成n块,并且只有每个块的第一个词项有指针指向长字符串;

在长字符串的每个词项前面添加一个词项长度;


如果每个块大小为4,则每个块可以减少3个指针,加上4个字节表示4个词项的长度;

因此需要空间:M(4+4+8)+M/4*3-M=M(16-1/4);

相比之前又减少了15M/4;

但是每个块越大,压缩率越大,则查询的时间就越长;

因为一开始先通过二分搜索查找到词项所在块的入口,然后线性搜索找到词项;

二叉树高度计算方法

已知n个结点,这些节点构成的二叉树的高度为:

如果给定高度为n,则满二叉树的节点个数为


4.前端编码


对于3的改进方法是对于长字符串的编排进行改进;

我们可以提取公共前缀;

比如原来8automate9automatic,可以变成automat*1e.2ic;

方法能够减少存储空间;


五、posting压缩


一般来说词项出现频率高,则posting连续两个docID不会相差(gap)太远,比如:

the --->10000 1000110002;

如果我们通过记录两docID的间距,则会大大减少存储的空间;

the ---> 1000011;

压缩率越高,解压缩时间就越长;

1.VB编码

规则:

(1)编码结果是整数个字节;

(2)每个字节的第一位是延续位,如果为1,则表示是最后一个字节,否则,则表示不是最后一个字节;

(3)每个字节的其他7位为正常编码位;

举例:

3--->1 0000011;

注意:可变字节编码的解码消耗比起可变位编码消耗要低得多;

一个字节用VB编码的最大间距是127;2^7-1;因为如果需要编码,则说明此数肯定不是0,因此从1开始;

2.一元编码

如果为数n,则n个1后面添一个0;

举例:5--->111110

3.gamma编码

规则:

(1)不记录最高位的1;比如12--->100;

(2)编码分为长度和偏移(长度指的是偏移的长度)

(3)长度采用一元编码,根据偏移的长度进行编码;

(4)偏移采用(1)的编码;

举例:12---> 1110(长度),100(偏移);

编码长度:2log(G)+1;

总结:gamma编码能够压缩成原始posting的1/4,即如果原来posting为400M,则现在gamma编码后只需要100M即可;

注意:

(1)gamma编码永远是基数位;

(2)前缀无关即解码结果唯一性;

4.最优编码长度

如果数G,则最优编码为log(G);

举例:如果为12,则最优编码为4;

5.Universal code

和最优编码长度只相差常数个倍数的编码方式,gamma就是一个universal code;

版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 dio@foxmail.com 举报,一经查实,本站将立刻删除。

相关推荐


Format[$] ( expr [ , fmt ] ) format 返回变体型 format$ 强制返回为文本 -------------------------------- 数字类型的格式化 --------------------------------     固定格式参数:     General Number 普通数字,如可以用来去掉千位分隔号     format$("100,1
VB6或者ASP 格式化时间为 MM/dd/yyyy 格式,竟然没有好的办法, Format 或者FormatDateTime 竟然结果和系统设置的区域语言的日期和时间格式相关。意思是尽管你用诸如 Format(Now, "MM/dd/yyyy"),如果系统的设置格式区域语言的日期和时间格式分隔符是"-",那他还会显示为 MM-dd-yyyy     只有拼凑: <%response.write
在项目中添加如下代码:新建窗口来显示异常信息。 Namespace My ‘全局错误处理,新的解决方案直接添加本ApplicationEvents.vb 到工程即可 ‘添加后还需要一个From用来显示错误。如果到这步还不会则需要先打好基础啦 ‘======================================================== ‘以下事件
转了这一篇文章,原来一直想用C#做k3的插件开发,vb没有C#用的爽呀,这篇文章写与2011年,看来我以前没有认真去找这个方法呀。 https://blog.csdn.net/chzjxgd/article/details/6176325 金蝶K3 BOS的插件官方是用VB6编写的,如果  能用.Net下的语言工具开发BOS插件是一件很愉快的事情,其中缘由不言而喻,而本文则是个人首创,实现在了用V
Sub 分列() ‘以空格为分隔符,连续空格只算1个。对所选中的单元格进行处理 Dim m As Range, tmpStr As String, s As String Dim x As Integer, y As Integer, subStr As String If MsgBox("确定要分列处理吗?请确定分列的数据会覆盖它后面的单元格!", _
  窗体代码 1 Private Sub Text1_OLEDragDrop(Data As DataObject, Effect As Long, Button As Integer, Shift As Integer, X As Single, Y As Single) 2 Dim path As String, hash As String 3 For Each fil
  Imports MySql.Data.MySqlClient Public Class Form1 ‘ GLOBAL DECLARATIONS Dim conString As String = "Server=localhost;Database=net2;Uid=root;Pwd=123456;" Dim con As New MySqlConnection
‘導入命名空間 Imports ADODB Imports Microsoft.Office.Interop   Private Sub A1() Dim Sql As String Dim Cnn As New ADODB.Connection Dim Rs As New ADODB.Recordset Dim S As String   S = "Provider=OraOLEDB.Oracl
Imports System.IO Imports System.Threading Imports System.Diagnostics Public Class Form1 Dim A(254) As String    Function ping(ByVal IP As Integer) As String Dim IPAddress As String IPAddress = "10.0.
VB运行EXE程序,并等待其运行结束 参考:https://blog.csdn.net/useway/article/details/5494084 Private Declare Function WaitForSingleObject Lib "kernel32" (ByVal hHandle As Long, ByVal dwMilliseconds As Long) As Long Pr
今天碰到一个问题,登陆的时候,如果不需要验证手机号为空,则不去验证手机号 因为登陆的时候所有的验证信息都存放在一个数组里 Dim CheckUserInfo() As String ={UserBirthday, SecEmail, UserMob, UserSex, RealNameFirst, RealName, CheckCardID, CheckCardType, Contactemail
在VB6.0中,数据访问接口有三种: 1、ActiveX数据对象(ADO) 2、远程数据对象(RDO) 3、数据访问对象(DAO) 1.使用ADO(ActiveX Data Objec,ActiveX数据对象)连接SQL Server 1)使用ADO控件连接 使用ADO控件的ConnectionString属性就可以连接SQL Server,该属性包含一个由分号分隔的argument=value语
注:大家如果没有VB6.0的安装文件,可自行百度一下下载,一般文件大小在200M左右的均为完整版的软件,可以使用。   特别提示:安装此软件的时候最好退出360杀毒软件(包括360安全卫士,电脑管家等,如果电脑上有这些软件的话),因为现如今的360杀毒软件直接会对VB6.0软件误报,这样的话就可能会在安装过程中被误报阻止而导致安装失败,或者是安装后缺乏很多必须的组件(其它的杀毒软件或安全卫士之类的
Private Sub Form_Load() Call conndb End Sub Private Function conndb() Dim cn As New ADODB.Connection Dim rs As New ADODB.Recordset Dim strCn, sql As String Dim db_host As String Dim db_user As String
  PPSM06S70:  Add  moddate  EDITSPRINTJOB:  MAX(TO_CHAR(ETRN.MODDATE, ‘yyyy/mm/dd/HH24:MI AM‘)) ACTUAL_SHIPDATE   4.Test Scenario (1) :Query SQL Test DN:8016578337 SELECT CTRN.TKCTID TRUCK_ID,        
  沒有出現CrystalReportViewer時,須安裝CRforVS_13_0. 新增1個數據集,新增1個數據表,添加二列,列名要和資料庫名一樣. 修改目標Framework 修改app.config, <startup >改成<startup useLegacyV2RuntimeActivationPolicy ="true">  CrystalReport1.rpt增加數據庫專家 在表單
Imports System.Threading Imports System Public Class Form1 Dim th1, th2 As Thread Public Sub Method1() Dim i As Integer For i = 1 To 100 If Me.Label1.BackColor =
Friend Const PROCESS_ALL_ACCESS = &H1F0FFF = 2035711 Friend Const PROCESS_VM_READ = &H10 Friend Const PROCESS_VM_WRITE = &H20 Friend Const PAGE_READONLY = &H2 Friend Const PAGE_READWRITE = &H4 Friend
以下代码随手写的 并没有大量测试 效率也有待提升 如果需要C#的请自行转换 Function SplitBytes(Data As Byte(), Delimiter As Byte()) As List(Of Byte()) Dim i = 0 Dim List As New List(Of Byte()) Dim bytes As New
Imports System.Data.SqlClient Public Class Form1 REM Public conn1 As SqlConnection = New SqlConnection("server=.; Integrated Security=False;Initial Catalog= mydatabase1; User ID= sa;password")