`
yanglingstu
  • 浏览: 20996 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论
文章列表
实现目标:CN目录下有若干文件夹,并且每个文件夹中有一系列以CN开头的子文件夹,现要求将CN开头的这些子文件夹实现按文件夹名进行组织存放,例如将/home/CN/temp/CN20081478023的文件夹存放到/home/CN/2008/1478/CN20081478023,则shell命令如下: #!/bin/bash # for count=1 for file in ../CN/* do if [ -d ../CN/${file} ] then for file1 in ${file}/CN* do if [ -d ${file1} ] then ...
      最近利用爬虫上网下了很多pdf文档,但有一小部分由于网络不稳定等原因,在下载过程中出现了错误,而网上又缺少批量判断的工具,因此调研了一些开源工具,写了一个小程序!       需要的jar包:       1、bouncycastle.jar    http://d.download.csdn.net/down/474865/dog3752        2、iText 5.0.2.jar        http://download.csdn.net/source/2262675       思路:       首先得到给定目录下的所有pdf文件,然后利 ...
由于项目需要,最近需要写一些shell脚本,苦于无基础,转载一些文档先学习下: 关于变量,还需要知道几个与其相关的Linux命令。 env用于显示用户环境区中的变量及其取值;set用于显示本地数据区和用户环境区中的变量及其取值;unset用于删除指定变量当前的取值,该值将被指定为NULL;export命令用于将本地数据区中的变量转移到用户环境区。 下面我们来看一个更复杂的例子,结合这个例子,我们来讲述Shell Script的语法。 1 #!/bin/bash 2 # we have less than 3 arguments. Print the help text: ...
今天eclipse启动时弹出一个框框:     eclipse 无法启动 JVM terminated. Exit code=-1     ...... 原因:     eclipse.ini中内存设置过大。 修改: eclipse目录下eclipse.ini的配置如下: -showsplash com.genuitec.myeclipse.product --launcher.XXMaxPermSize 512m -vmargs -Xms256m -Xmx512m -Duser.language=en -XX:PermSize=256M -XX:MaxPermS ...
今天按照前面几篇文章所述之操作解决了程序中的报错,但是在调试运行过程中会出现如果错误.本问题主要针对windows操作系统. 问题一: 现贴出: 2010-03-25 21:42:33,937 WARN  fs.FileSystem (FileSystem.java:<init>(1440)) - uri=file:/// javax.security.auth.login.LoginException: Login failed: Cannot run program "whoami": CreateProcess error=2, ????????? at ...
Nutch1.0导入eclipse工程后,一般的工程都会有两个错误,nutch的official 1.0 release版本中,这两个问题因为licensing issues没有修复。接下来的就是最关键的部分了。 修改----  src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下 RTFParseFactory.java 添加----- import org.apache.nutch.parse.ParseResult; 将  ----- public Parse getParse(Content content) { 改为---- ...
  本人专业为web数据挖掘,对于web爬虫和信息抽取有一定的了解,并做了一些相关研究,现今想学习nutch的一些知识,以丰富自己的知识,指导自己的研究。由于nutch源码比较复杂,本人准备从基础入手,而入手资料主要来源于互联网,所以本博客很多文章都是我为了学习从不同的数据源转载而来,很多不是自己的原创,这里加以说明。在以后对nutch的逐步学习过程中,我会将自己的心得体会一一记录,与大家分享,希望大家支持指教。
测试环境 Nutch release 0.9 Eclipse 3.3 - aka Europa Java 1.6 开始之前 Setting up Nutch to run into Eclipse can be tricky, and most of the time you are much faster if you edit Nutch in Eclipse but run the scripts from the command line (my 2 cents). However, it's very useful to be able to debug Nutch in Ecl ...
Nutch的源码,它的作者和Lucene是一个人,但除了使用基于Lucene的索引和检索模块外,它还包括了crawler、crawl frontier、反向链接数据库、Web检索前端等其它组件。它至少有两大亮点决定了它是目前最好的开源搜索引擎实现,一个是基于Lucene的高效索引和检索功能,另一个是基于Apache的另一开源项目Hadoop实现的类似于Google的分布式文件系统,特别是它大量使用了Google的Map-Reduce思想,从而大大简化了很多功能模块的设计,但也为从来没有接触到Map-Reduce的初学者带来了直线上升的“学习曲线”。可以这样说,没有对Map-Reduce的思想的深 ...
Injector过程主要分成两个过程,而且这两个过程是两个独立的Map/Reduce任务,前一个任务只有Map,后一个任务是一个完整的Map/Reduce过程。 在详细介绍之前,先看inject()的主调用代码: 代码1: public void inject(Path crawlDb, Path urlDir) throws IOException {     if (LOG.isInfoEnabled()) {       LOG.info("Injector: starting");       LOG.info("Injector: crawlDb: &q ...
Index阶段就一个Map/Reduce任务,其作用主要是负责为导入的所有的segment建索引,先看一下其主调用函数Indexer.index()函数。 代码: public void index(Path luceneDir, Path crawlDb, Path linkDb, List<Path> segments)   throws IOException {     LOG.info("Indexer: starting");     final JobConf job = new NutchJob(getConf());     job.setJo ...
在爬取网一个页面之后,会解析出一些<url, 保存url信息的CrawlDatum对象>,这些键值对基本上分为三类: (1) 刚爬取的页面的url,及其对应的CrawlDatum对象,这时其CrawlDatum对象保存的一般页面分析后的一些信息,如爬取时间,分值等; (2) 从刚爬取的页面中解析出来的outlinks, 及其对应的CrawlDatum对象, 这时其CrawlDatum对象保存的一般都是一些初始化的信息,其状态一般也为unfetched之类的; (3) 从crawlDB读出来的url, 及其对应的CrawlDatum对象,将其从crawlDB中读出的目的是为了和前两者进 ...
关键字: cygwin nutch 安装 1.1 Nutch安装     参考资料:http://www.blogjava.net/dev2dev/archive/2006/02/01/29415.aspx Nutch在Windows中安装之细解 由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境。 1)安装cygwin 2) 下载nutch-0.9.tar.gz, 用winrar解压后,例如放在g:/nutch-0.9 3) 安装nutch,打开cgwin,运行命令:    cd /cygdrive/g/nutch-0.9  ...
1.    简介 开源项目NUTCH搜索引擎大致包括三个部分: (1)  爬虫:寻找并抓取网页 (2)  网页库:存储已知URL和已抓取网页的数据库 (3)  索引器:解析网页并按照主题字典建立索引 2. NUTCH命令脚本 NUTCH使用多个"bin/nutch"命令脚本进行操作,其中每个脚本命令与一个java类相对应 对于整个网络网页的抓取,你需要利用下面的命令逐步进行: $ bin/nutch admin db -create $ bin/nutch inject db ... $ bin/nutch generate db segments $ bin/nutch f ...
Global site tag (gtag.js) - Google Analytics