稀酷客

 找回密码
 加入稀酷客

只需一步,快速开始

只需一步,快速开始

搜索
热搜: 活动 交友 discuz
查看: 1252|回复: 0

[电子资料] 《使用C#开发搜索引擎》.(罗刚).[PDF]@ckook

[复制链接]

878

主题

879

帖子

1756

积分

金牌会员

Rank: 6Rank: 6

积分
1756
发表于 2018-1-30 14:55:33 | 显示全部楼层 |阅读模式
《使用C#开发搜索引擎》.(罗刚).[PDF]@ckook C#&.Net
从C#基础开始,逐渐深入,是学习搜索引擎开发的首选。应众多公司的实际需求,《使用C#开发搜索引擎》介绍如何以C#作为工具开发搜索引擎。全书以完成一个网站搜索垂直搜索作为目标,从网络爬虫抓取数据开始,然后到中文分词、文本排重等文本挖掘技术和搜索结果展现。本书是市面上介绍业界热门的Lucene.Net、使用WebBrowser做爬虫以及结合Solr开发ASP.NET搜索的第一书。
《使用C#开发搜索引擎》适合专业软件开发人员,也适合于希望学习搜索引擎工作原理的读者学习使用。本书对于在校学生学习复杂数据结构和应用动态规划等常用算法也有参考价值。
目录
《使用C#开发搜索引擎》
第1章 使用C#开发搜索引擎快速入门        1
1.1 各种搜索引擎        1
1.1.1 通用搜索        2
1.1.2 垂直搜索        2
1.1.3 站内搜索        3
1.2 搜索引擎整体结构        3
1.3 搜索引擎基本技术        4
1.3.1 网络爬虫        4
1.3.2 文本挖掘        4
1.3.3 全文索引        4
1.3.4 搜索语法介绍        7
1.3.5 搜索用户界面        8
1.4 C#开发快速入门        9
1.4.1 准备开发环境        9
1.4.2 基本语法        9
1.4.3 多维数组        11
1.4.4 位运算        11
1.4.5 枚举类型        12
1.4.6 面向对象        13
1.4.7 集合类        15
1.4.8 泛型        17
1.4.9 委托和事件        17
1.4.10 类库        20
1.5 本章小结        20
1.6 术语表        20
第2章 使用C#开发网络爬虫        22
2.1 网络爬虫抓取原理        22
2.2 爬虫架构        24
2.2.1 基本架构        25
2.2.2 分布式爬虫架构        26
2.2.3 垂直爬虫架构        27
2.3 下载网页        28
2.3.1 HTTP协议        28
2.3.2 下载静态网页        31
2.3.3 下载动态网页        35
2.4 网络爬虫遍历与实现        42
2.5 网站地图        44
2.6 连接池        44
2.7 URL地址查新        45
2.7.1 嵌入式数据库        46
2.7.2 布隆过滤器        48
2.8 抓取RSS        50
2.9 解析相对地址        53
2.10 网页更新        53
2.11 信息过滤        56
2.12 垂直行业抓取        60
2.13 抓取限制应对方法        60
2.13.1 更换IP地址        61
2.13.2 抓取需要登录的网页        64
2.13.3 抓取ASP.NET网页        66
2.14 保存信息        69
2.14.1 存入数据库        69
2.14.2 存成图像        70
2.15 日志        71
2.16 本章小结        74
2.17 术语表        75
第3章 索引各种格式文档        78
3.1 从HTML文件中提取信息        78
3.1.1 识别网页的编码        78
3.1.2 正则表达式        80
3.1.3 Html Agility Pack介绍        84
3.1.4 网页正文提取        88
3.1.5 结构化信息提取        100
3.1.6 查看网页的DOM结构        104
3.1.7 网页结构相似度计算        106
3.2 从非HTML文件中提取文本        109
3.2.1 TEXT文件        109
3.2.2 PDF文件        109
3.2.3 Office文件        112
3.2.4 Rtf文件        113
3.3 本章小结        114
3.4 术语表        114
第4章 自然语言处理        115
4.1 统计机器学习        115
4.2 文档排重        121
4.3 中文关键词提取        129
4.3.1 关键词提取的基本方法        129
4.3.2 从网页中提取关键词        132
4.4 相关搜索        132
4.5 拼写检查        133
4.5.1 拼写检查的概率模型        134
4.5.2 模糊匹配问题        134
4.5.3 英文拼写检查        138
4.5.4 中文拼写检查        141
4.6 文本摘要        142
4.6.1 文本摘要的设计        142
4.6.2 实现文本摘要技术        143
4.6.3 Lucene.Net中的动态摘要        148
4.7 文本分类        149
4.7.1 自动分类的接口定义        149
4.7.2 自动分类的实现        149
4.8 自动聚类        151
4.8.1 文档相似度        151
4.8.2 K均值聚类方法        154
4.8.3 K均值实现        155
4.9 拼音转换        157
4.10 句法分析树        157
4.11 信息提取        164
4.12 本章小结        171
4.13 术语表        172
第5章 用C#实现中文分词        174
5.1 汉语中的词        174
5.2 文本切分的基本方法        174
5.3 有限状态机        177
5.4 查找词典算法        179
5.4.1 标准Trie树        180
5.4.2 三叉Trie树        185
5.5 中文分词的原理        189
5.6 中文分词流程与结构        192
5.7 切分词图        193
5.7.1 保存切分词图        194
5.7.2 生成全切分词图        198
5.8 概率语言模型的分词方法        201
5.8.1 一元模型        201
5.8.2 N元模型        204
5.9 最大熵        208
5.10 未登录词识别        210
5.11 词性标注        210
5.12 地名切分        220
5.12.1 地址类性标注        220
5.12.2 未登录词识别        220
5.13 本章小结        222
5.14 术语表        223
第6章 Lucene.Net原理与应用        224
6.1 Lucene.Net快速入门        224
6.1.1 索引文档        225
6.1.2 搜索文档        226
6.1.3 Lucene.Net结构        228
6.2 Lucene.Net深入介绍        229
6.2.1 索引原理        229
6.2.2 分析文本        231
6.2.3 遍历索引库        234
6.2.4 检索模型        235
6.2.5 收集最相关的文档        236
6.3 索引中的压缩算法        240
6.3.1 变长压缩        241
6.3.2 差分编码        242
6.4 创建和维护索引库        243
6.4.1 设计一个简单的索引库        243
6.4.2 创建索引库        244
6.4.3 向索引库中添加索引文档        245
6.4.4 删除索引库中的索引文档        247
6.4.5 更新索引库中的索引文档        247
6.4.6 索引的优化与合并        248
6.5 查找索引库        248
6.5.1 布尔查询        249
6.5.2 同时查询多列        252
6.5.3 跨度查询        253
6.5.4 通配符查询        256
6.5.5 过滤        256
6.5.6 按指定列排序        258
6.5.7 查询大容量索引        263
6.5.8 函数查询        265
6.5.9 定制相似性        268
6.5.10 评价搜索结果        269
6.6 中文信息检索        269
6.6.1 Lucene.Net中的中文处理        270
6.6.2 Lietu中文分词的使用        270
6.6.3 定制Tokenizer        271
6.6.4 解析查询串        273
6.6.5 实现字词混合索引        276
6.7 抓取数据库中的内容        280
6.7.1 读取数据        280
6.7.2 数据同步        282
6.8 概念搜索        282
6.9 本章小结        285
6.10 术语表        286
第7章 实现搜索用户界面        287
7.1 搜索页面设计        287
7.1.1 用于显示搜索结果的ASP.NET        287
7.1.2 搜索结果分页        290
7.1.3 设计一个简单的搜索页面        291
7.2 实现搜索接口        291
7.2.1 Lucene.Net搜索接口        291
7.2.2 指定范围搜索        296
7.2.3 搜索页面的索引缓存与更新        297
7.3 实现关键词高亮显示        300
7.4 实现分类统计视图        301
7.4.1 搜索结果分类统计与导航        301
7.4.2 层次树        305
7.5 相关搜索词        307
7.6 实现AJAX自动完成        308
7.6.1 总体结构        308
7.6.2 服务器端处理        310
7.6.3 浏览器端处理        310
7.7 集成其他功能        312
7.7.1 拼写检查        313
7.7.2 再次查找        313
7.7.3 黑名单        314
7.7.4 搜索日志        315
7.8 本章小结        316
第8章 使用Solr开发网站搜索        317
8.1 搜索服务器端        317
8.8.1 Solr结构        317
8.1.2 启动Solr服务器        318
8.1.3 配置支持中文的Solr        321
8.1.4 索引数据        324
8.1.5 查询功能        325
8.1.6 高亮        328
8.2 Solr的.NET客户端        329
8.2.1 使用SolrNet        329
8.2.2 实现多分类        336
8.2.3 分类统计        338
8.3 查询语法        341
8.3.1 对空格的支持        341
8.3.2 日期加权        342
8.4 索引分布        344
8.5 本章小结        345

立即下载( 3225.zip ) 百度网盘

解压密码:已隐藏见下(↓)

游客,本付费内容需要支付 5酷币 才能浏览    如何获取酷币?支付
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 加入稀酷客   

本版积分规则

QQ|Archiver|手机版|小黑屋|稀酷客 ( 冀ICP备14004526号-1 )

GMT+8, 2019-3-25 20:27 , Processed in 1.125007 second(s), 34 queries .

Powered by Discuz! X3.4

© 2001-2017 Comsenz Inc.

快速回复 返回顶部 返回列表