“讨论:首页”的版本间的差异
(→wiki: 新段落) |
|||
第483行: | 第483行: | ||
{{H:title|老虎不吃人,因为没眼神。|一二三四五,上山打老虎。}} | {{H:title|老虎不吃人,因为没眼神。|一二三四五,上山打老虎。}} | ||
提示与技巧 | 提示与技巧 | ||
+ | |||
+ | == wiki == | ||
+ | |||
+ | {{日志顶部}} | ||
+ | --[[用户:James Qi|James Qi]] 2010年5月17日 (一) 14:23 (CST) | ||
+ | |||
+ | 我们从2006年开始就曾经向MediaWiki中批量导入过数据,最近正在将一些名录数据库导入到新建的[http://www.mingluji.com/ 名录集]网站中,供感兴趣的网友免费浏览。我们以前导入的数据一般都是上千、上万、上十万条,今年在[http://www.youbianku.com/ 邮编库]这个网站曾经导入了上百万条,而名录数据的量更大,可达上千万条,因为来源数据库有上百个,所以重复导入的工作很多,在这里以[http://hubei.mingluji.com/ 湖北工商企业名录]为例,做一个笔记,供自己以及感兴趣的朋友参考。 | ||
+ | |||
+ | == 导入前 == | ||
+ | |||
+ | === 搭建网站 === | ||
+ | |||
+ | 先架设好网站,安装MediaWiki软件及需要的扩展程序,让网址可以访问,这一步就不详细说了。 | ||
+ | |||
+ | 只说需要修改的几个基本页面: | ||
+ | |||
+ | * '''MediaWiki页面:'''MediaWiki:Refresh、MediaWiki:Pagetitle、MediaWiki:Pagetitle-view-mainpage、MediaWiki:Sidebar、MediaWiki:Sitenotice、MediaWiki:Googlesearch | ||
+ | * '''Project页面:'''Project:免责声明、Project:关于、Project:隐私政策 | ||
+ | * '''其它页面:'''首页、分类、帮助等 | ||
+ | |||
+ | === 数据准备 === | ||
+ | |||
+ | 关键是数据的准备,下面详细来说: | ||
+ | |||
+ | # 从.mdb的Aceess文件(或者.xls的Execl文件)导出文本文件,注意字段间隔用制表符; | ||
+ | # 用一个自编的VB程序处理导出的文本文件,将标题提取出来,用<title></title>标记; | ||
+ | # 用UltraEdit编辑处理后的文本文件,将“|”符号找出来修改为全角的“|”,或者删除乱码的部分; | ||
+ | # 将文本文件中的制表符替换为模板参数的间隔符号“|”; | ||
+ | # 将需要转义的“&”、“<”和“>”符号替换为“&amp;”、“&lt;”和“&gt;”; | ||
+ | # 将在标题中的[]{}改为对应的全角符号,如果是正文中的[]{}可以不修改; | ||
+ | # 对照以前的xml文件,批量替换文本文件中的内容,并使用UTF-8/Unix格式保存为xml文件。 | ||
+ | |||
+ | 这样供导入的xml文件就准备好了。如果xml文件超过几百M,操作起来困难,可以分割为多个小文件。 | ||
+ | |||
+ | == 导入中 == | ||
+ | |||
+ | === 导入试验 === | ||
+ | |||
+ | 可以先做一个只有几条数据的小xml文件进行测试,放在maintenance目录下,用php importDump.php test.xml命令来导入。 | ||
+ | |||
+ | 然后用这些少量的数据来调试需要的模板、分类,做好导入大量数据的预先测试准备工作。 | ||
+ | |||
+ | * 注意1:模板最好先考虑充分,尽量少在后面修改,将必要的判断、分类等也加到里面,一般采用一级模板,避免多级调用。 | ||
+ | * 注意2:分类最好先建好页面,这样导入的数据分类就不会是红色的了。 | ||
+ | |||
+ | === 正式导入 === | ||
+ | |||
+ | 如果没有问题再上传、导入正式数据。看正式数据导入的速度,计算出全部导入需要多长时间。例如:1页/秒的话,24小时就可以导入86400页。通常使用nohup php importDump.php data.xml &命令来挂后台导入。 | ||
+ | |||
+ | 如果中途出错停止,可以查看出错地方和原因,有针对性修改,然后再次上传、继续导入、直到完成。 | ||
+ | |||
+ | == 导入后 == | ||
+ | |||
+ | 再后面就是一些完善工作,分为网站内部和网站外部的。 | ||
+ | |||
+ | === 内部工作 === | ||
+ | |||
+ | # 修改首页,让更多的分类及数据呈现在上面; | ||
+ | # 修改分类调用的模板,带有广告等内部和外部链接; | ||
+ | # 修改MediaWiki:Sidebar,添加适当的菜单及相关链接。 | ||
+ | |||
+ | 注意:导入后查看网站中的数据,如果需要修改模板,则还需要在后台运行:php runJobs.php --maxjobs 10000这样的命令来更新链接。 | ||
+ | |||
+ | === 外部工作 === | ||
+ | |||
+ | # 修改robots.txt,包含提交sitemap的链接,允许访问“/分类”开头的页面,禁止不需要访问的页面; | ||
+ | # 修改生成sitemap的.sh文件,定期自动生成网站地图; | ||
+ | # 在www.google.com/webmastertools中添加该网站; | ||
+ | # 在www.google.com/adsense中添加URL渠道来跟踪收入; | ||
+ | # 在www.google.com/analytics中添加配置来跟踪流量。 | ||
+ | |||
+ | 笔记先做到这里,有新遇到的问题再回头来补充修改。 | ||
+ | |||
+ | {{TAG|名录集|MediaWiki}} | ||
+ | {{日志底部}} |
2016年1月10日 (日) 16:10的版本
Wiki語法 呈現結果 文件:圖片檔名.jpg Image:圖片檔名.jpg
連結到檔案的用法一樣,只不過將前置修飾詞改成Media:
Wiki語法 呈現結果 Media:檔案名稱.pdf Media:檔案名稱.pdf
有時我們會想將一個頁面的內容嵌入到正在編輯的頁面當中,而不是以連結,例如網站內常用到的詞彙或是要自訂簽名檔,則可以用雙大括號{{}}的方式來包含頁面名頁,即可將內容嵌入。
Wiki語法 呈現結果 模板:嵌入頁面 vvvvv Wiki超連結修飾語法
有時我們想要將超連結的顯示方式做些調整,例如http://www.wikipedia.org顯示成WikiPedia;其作法是在連結名稱後空一格再加上顯示顯示名稱。
Wiki語法 呈現結果 WikiPedia WikiPedia
外部超連結若要顯示名稱,要多加左右中括號,在上節中未加中括號而直接顯示網站名稱是簡化的用法;內部連結顯示名稱的用法如下,差異在於原本是用空格來做分隔改成是用直線|來做分隔:
Wiki語法 呈現結果 顯示名稱 顯示名稱 圖片修飾語法,可以指定圖片大小、置放方式、圖片附加文字、相簿模式
您可以將下列語法複製至您的頁面練習。
100px 指定圖片大小指定圖片對齊方式,可以選用right、center、left、none 相簿模式 為圖片加框
圖片說明 為圖片加上說明文字,直接加就可以了,不用前置詞
編輯頁面內容常用語法
Wiki支援大部份HTML的排版能力,事實上Wiki是設計其專屬的語法,最後會經過Wiki的軟體解析成HTML語法;在Wiki的頁面也可以輸入HTML語法,您可以參考Wiki支援的HTML。所以Wiki頁面內容可以混合HTML及Wiki語法,而最終都會以HTML語法來呈現。底下分字元顯示及段落組織兩小節來介紹:
TEST
字元顯示,如粗體、斜體
Wiki語法 呈現結果 粗體的呈現是用三個單引號包起來。 粗體的呈現是用三個單引號包起來。 斜體的呈現是用兩個單引號包起來。 斜體的呈現是用兩個單引號包起來。 粗斜體的呈現是用五個單引號包起來。 粗斜體的呈現是用五個單引號包起來。
Wiki語法支援的顯示格式不多,剩下的就用HTML來彌補:
HTML語法 呈現結果 說明 放大 放大 利用HTML來放大字 <Font="1">縮小</Font> 縮小 利用HTML來放縮小字 顯示藍色的字 顯示藍色的字 利用HTML來設定字的顏色 段落組織,如分節、編號
大部份的文章在前面都會有目錄存在,點選某個連結即會連到對應的段落,這是由Wiki根據文章內容所編寫的Wiki語法而自動產生的,這語法是我們最常用到的分段方式,用=號的多寡來分層:
目录
段落一
=== 段落一的子段落 === == 段落二 == === 段落二的子段落 ===
要用符號列表,可以用*符號來表達:
Wiki語法 呈現結果
- 符號一
- 符號二
- 符號三
符號一 符號二 符號三
要用編號列表,可以用#符號來表達:
Wiki語法 呈現結果
- 項目一
- 項目二
- 項目三
項目一 項目二 項目三
符號與編號列表可以搭配使用:
Wiki語法 呈現結果
- 項目一
- 符號一
- 符號二
- 符號三
- 項目二
- 項目三
項目一 符號一 符號二 符號三 項目二 項目三
您所看到的 您所输入的 斜体,粗体,粗斜体。 这些是两个或三个单引号,不是双引号。 斜体,粗体,粗斜体。
- 这些是两个或三个单引号,不是双引号。
如果您愿意,您也可使用HTML标记。大多数HTML标记在维基标记中可用。 文本可以有打字机风格字体(Courier New), 同样的字体通常也用作 计算机code. 删除,简易删除,或 下划线文字,或者写作 small caps(小号大写)。 X上标,X下标 中间 不可见的注释在下面: 如果您愿意,您也可使用HTML标记。大多数HTML标记在维基标记中可用。
文本可以有打字机风格字体(Courier New),
同样的字体通常也用作
计算机code
.
删除,简易删除,或
下划线文字,或者写作
small caps(小号大写)。
X上标,X下标
不可见的注释在下面: 版式
参见:编辑章节 您所看到的 您所输入的 一级标题 二级标题 三级标题
一级标题
二级标题
三级标题
- 请使用(==)表示一级标题,而不要使用这个(=)
- 请勿跳级使用标题(例如一级标题下直接使用三级标题,而没有使用二级标题)
另起一行 会变成一个空格。 但一个空行开始一个新段落。 在使用列表时,换行会影响版面效果。 另起一行 会变成一个空格。
但一个空行开始一个新段落。
- 在使用列表时,换行会影响版面效果。
您可以在不开始新一段的情况下
另起一行。
请尽量勿使用这种方式。
您可以在不开始新一段的情况下
另起一行。
- 请尽量不要使用这种方式。
符号列表很不错: 每一行用一个星号(*)开始 星号越多,表示列表的层级更深入 新起一行 表示列表结束 注意符号必须是新一行的第一个字符。
- 符号列表很不错:
- 每一行用一个星号(*)开始
- 星号越多,表示列表的层级更深入
- 新起一行
- 星号越多,表示列表的层级更深入
- 每一行用一个星号(*)开始
表示列表结束
- 注意符号必须是新一行的第一个字符。
数字列表也不错 很整齐 容易理解
- 数字列表也不错
- 很整齐
- 容易理解
您甚至可以使用混合列表 还有层次哦 像这样
- 您甚至可以使用混合列表
- 还有层次哦
- 像这样
- 还有层次哦
定义列表 包含许多定义的列表 条目 条目的定义 另外一条 其它的定义
- 定义列表
- 包含许多定义的列表
- 条目
- 条目的定义
- 另外一条
- 其它的定义
每一行都可以 缩进 好几层呢
- 每一行都可以
- 缩进
- 好几层呢
- 缩进
如果一行的开始是空格那么 它将会以其原始形式 出现; 在一个这样的字体中; 文字不会自动换行; 如果结束 这在以下情况下会十分有用: 粘贴格式化文字; 数学公式; 文字艺术; 注意: 这可能会拉长页面,影响阅读。
如果一行的开始是空格那么 它将会以其原始形式 出现; 在一个这样的字体中; 文字不会自动换行; 如果结束
这在以下情况下会十分有用:
- 粘贴格式化文字;
- 数学公式;
- 文字艺术;
注意: 这可能会拉长页面,影响阅读。 一条水平线将页面分隔成了上面 和下面。 一条水平线将页面分隔成了上面
和下面。 链接
参见:链接 您所看到的 您所输入的 这是一个到名叫关于的链接,你也可以写作关于照对不误。因为系统会自动将首字母转换为大写。 但是不能链接自己:如何编辑页面。 这是一个到名叫关于的链接, 你也可以写作关于一样正确。 因为系统会自动将首字母转换为大写。 但是不能链接自己:如何编辑页面。 你可以对链接文字进行样式处理,比如:关于。 你可以对链接文字进行样式处理,比如: 关于。 Wikipedia:野猪页面不存在。你可以点击该链接而创建该页面。 Wikipedia:野猪页面不存在。 你可以点击该链接而创建该页面。 您可以用章节标题来链接到某一章节: Wikipedia:关于#其它;
- 编辑要点链接到本页这一章节。
如果有几个章节标题相同,你可以加上一个数字。#样例3就链接到第三个叫“样例”的章节。 您可以用章节标题来链接到某一章节:
- Wikipedia:关于#其它;
- #编辑要点链接到本页这一章节。
如果有几个章节标题相同, 你可以加上一个数字。 #样例3就链接到第三个叫“样例”的章节。 链接目标相同,但显示不同:Wikipedia:关关关关于。若“|”后没有字符直接以“]]”结束,则保存时链接页面名会被自动添加。 野猪 野猪:注意“()”不是“()” [[Wikipedia:关于#其它|]]:这里没有 链接目标相同,但显示不同: Wikipedia:关关关关于。 若“|”后没有字符直接以“]]”结束, 则保存时链接页面名会被自动添加。
直接键入URL,即可得到外部链接: http://uncyclopedia.org ; ftp://uncyclopedia.org ; telnet://uncyclopedia.org 或者有一个名称: 伪基百科 或者干脆不要名称: [1], [2], [3](自动编号) 直接键入URL,即可得到外部链接:
或者有一个名称:
或者干脆不要名称:
使用复位向,将用户复位向到其它页面。
- REDIRECT Wikipedia:野猪
分类链接并不会在字里行间出现,但一旦使用,这个页面就会出现相应的分类: 在链接前部加上一个冒号,就能链接到指定分类,而不是将页面加入分类:Wiki语法大全 图像也是如此:Wiki.png,Image:Wiki.png 分类链接并不会在字里行间出现, 但一旦使用,这个页面就会出现相应的分类: 在链接前部加上一个冒号, 就能链接到制定分类, 而不是将页面加入分类。 首页 图像也是如此: 文件:Wiki.png, Image:Wiki.png 要得到一本书的站外书源,你可以使用ISBN链接,例如:ISBN 0123456789X 。 要得到一本书的站外书源, 你可以使用ISBN链接, 例如:ISBN 0123456789X 。 控制语法
有几种格式控制符能让维基代码不经解释地原样显示出来。
您所看到的 您所输入的
nowiki标记将[[维客]]代码忽略。它进行文本格式化:除去换行符和多的空 格。不过它仍然要解释特殊字符:→ nowiki标记将[[维客]]代码忽略。 它进行文本格式化:除去换行符和多的空 格。 不过它仍然要解释特殊字符:→
pre标记忽略[[维客]]代码。 不过它不格式化文 本。 还要解释特殊字符:→ <pre> pre标记忽略[[维客]]代码。 不过它不格式化文 本。 还要解释特殊字符:→
前导空格 前导空格是pre的另一种形式。 每一行开头来个空格, 文本就不能 被格式化了。 但它能解释维基代码和特殊字符→ 前导空格是pre的另一种形式。
每一行开头来个空格, 文本就不能 被格式化了。 但它能解释维基代码和特殊字符:→
列表之内 新的一行 被nowiki标记包围在 列表里,不作为列表的结束。 你还可以结合pre和nowiki标记, 但也不影响列表 列表仍在继续。
#<nowiki>新的一行 被nowiki标记包围在 列表里,不作为列表的结束。你还可以结合pre和nowiki标记, 但也不影响列表 列表仍在继续。 </nowiki>
多媒体
这是一个简省的介绍,参见以下以获得更多信息: 图像使用守则:怎样上传文件 扩展图像语法:了解如何使用图像 您所看到的 您所输入的 图片,包含: 中文维基 图片可以加框加标题:
中文维基 图片,包含: 中文维基 图片可以加框加标题:
使用media:标记可直接链接到媒体文件的地址。 例如:一个声音文件 使用media:标记可直接链接到媒体文件的地址。 例如:一个声音文件 表格
参见:表格 您所看到的 您所输入的 这 是 个 表格 表格嵌套 见否?
这 | 是 | ||
---|---|---|---|
个 | 表格 | ||
|
数学公式
参见:数学公式 你可使用TeX标记来生成数学公式。 您所看到的 您所输入 <math>\sum_{n=0}^\infty \frac{x^n}{n!}</math> <math>\sum_{n=0}^\infty \frac{x^n}{n!}</math> 特殊字符
参见:特殊字符 注意到Mediawiki本身就支持UTF-8,许多特殊字符可直接写入文章,而不是以HTML的形式。 您所看到的 您所输入的 变音及重音符号: À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ñ Ò Ó Ô Õ Ö Ø Ù Ú Û Ü ß à á â ã ä å æ ç è é ê ë ì í î ï ñ ò ó ô õ ö ø ù ú û ü ÿ À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï Ñ Ò Ó Ô Õ Ö Ø Ù Ú Û Ü ß à á â ã ä å æ ç è é ê ë ì í î ï ñ ò ó ô œ õ ö ø ù ú û ü ÿ 标点符号: ¿ ¡ « » § ¶ † ‡ • — ¿ ¡ « » § ¶ † ‡ • — 商业符号: ™ © ® ¢ € ¥ £ ¤ ™ © ® ¢ € ¥ £ ¤ 希腊字母: α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ σ ς τ υ φ χ ψ ω Γ Δ Θ Λ Ξ Π Σ Φ Ψ Ω α β γ δ ε ζ η θ ι κ λ μ ν ξ ο π ρ σ ς τ υ φ χ ψ ω Γ Δ Θ Λ Ξ Π Σ Φ Ψ Ω 数学符号: ∫ ∑ ∏ √ − ± ∞ ≈ ∝ ≡ ≠ ≤ ≥ → × · ÷ ∂ ′ ″ ∇ ‰ ° ∴ ℵ ø ∈ ∉ ∩ ∪ ⊂ ⊃ ⊆ ⊇ ¬ ∧ ∨ ∃ ∀ ⇒ ⇔ ∫ ∑ ∏ √ − ± ∞ ≈ ∝ ≡ ≠ ≤ ≥ → × · ÷ ∂ ′ ″ ∇ ‰ ° ∴ ℵ ø ∈ ∉ ∩ ∪ ⊂ ⊃ ⊆ ⊇ ¬ ∧ ∨ ∃ ∀ ⇒ ⇔ → ↔ 模板
参见:模板 模板是维基标记的重要部分,可以自动将一些内容添加到另一些页面上。模板以模板:模板名的方式使用。 有些模板有“参数”,以“|”字符分隔。 您所看到的 您所输入的 一二三四五,上山打老虎。老虎不吃人,因为没眼神。 模板:Demo 此模板有两个参数,生成下划线文字,且鼠标停留其上时,出现的有特定内容的悬浮框。 一二三四五,上山打老虎。 此模板有两个参数,生成下划线文字,且鼠标停留其上时,出现的有特定内容的悬浮框。
模板:H:title 提示与技巧
wiki
模板:日志顶部 --James Qi 2010年5月17日 (一) 14:23 (CST)
我们从2006年开始就曾经向MediaWiki中批量导入过数据,最近正在将一些名录数据库导入到新建的名录集网站中,供感兴趣的网友免费浏览。我们以前导入的数据一般都是上千、上万、上十万条,今年在邮编库这个网站曾经导入了上百万条,而名录数据的量更大,可达上千万条,因为来源数据库有上百个,所以重复导入的工作很多,在这里以湖北工商企业名录为例,做一个笔记,供自己以及感兴趣的朋友参考。
导入前
搭建网站
先架设好网站,安装MediaWiki软件及需要的扩展程序,让网址可以访问,这一步就不详细说了。
只说需要修改的几个基本页面:
- MediaWiki页面:MediaWiki:Refresh、MediaWiki:Pagetitle、MediaWiki:Pagetitle-view-mainpage、MediaWiki:Sidebar、MediaWiki:Sitenotice、MediaWiki:Googlesearch
- Project页面:Project:免责声明、Project:关于、Project:隐私政策
- 其它页面:首页、分类、帮助等
数据准备
关键是数据的准备,下面详细来说:
- 从.mdb的Aceess文件(或者.xls的Execl文件)导出文本文件,注意字段间隔用制表符;
- 用一个自编的VB程序处理导出的文本文件,将标题提取出来,用<title></title>标记;
- 用UltraEdit编辑处理后的文本文件,将“|”符号找出来修改为全角的“|”,或者删除乱码的部分;
- 将文本文件中的制表符替换为模板参数的间隔符号“|”;
- 将需要转义的“&”、“<”和“>”符号替换为“&”、“<”和“>”;
- 将在标题中的[]{}改为对应的全角符号,如果是正文中的[]{}可以不修改;
- 对照以前的xml文件,批量替换文本文件中的内容,并使用UTF-8/Unix格式保存为xml文件。
这样供导入的xml文件就准备好了。如果xml文件超过几百M,操作起来困难,可以分割为多个小文件。
导入中
导入试验
可以先做一个只有几条数据的小xml文件进行测试,放在maintenance目录下,用php importDump.php test.xml命令来导入。
然后用这些少量的数据来调试需要的模板、分类,做好导入大量数据的预先测试准备工作。
- 注意1:模板最好先考虑充分,尽量少在后面修改,将必要的判断、分类等也加到里面,一般采用一级模板,避免多级调用。
- 注意2:分类最好先建好页面,这样导入的数据分类就不会是红色的了。
正式导入
如果没有问题再上传、导入正式数据。看正式数据导入的速度,计算出全部导入需要多长时间。例如:1页/秒的话,24小时就可以导入86400页。通常使用nohup php importDump.php data.xml &命令来挂后台导入。
如果中途出错停止,可以查看出错地方和原因,有针对性修改,然后再次上传、继续导入、直到完成。
导入后
再后面就是一些完善工作,分为网站内部和网站外部的。
内部工作
- 修改首页,让更多的分类及数据呈现在上面;
- 修改分类调用的模板,带有广告等内部和外部链接;
- 修改MediaWiki:Sidebar,添加适当的菜单及相关链接。
注意:导入后查看网站中的数据,如果需要修改模板,则还需要在后台运行:php runJobs.php --maxjobs 10000这样的命令来更新链接。
外部工作
- 修改robots.txt,包含提交sitemap的链接,允许访问“/分类”开头的页面,禁止不需要访问的页面;
- 修改生成sitemap的.sh文件,定期自动生成网站地图;
- 在www.google.com/webmastertools中添加该网站;
- 在www.google.com/adsense中添加URL渠道来跟踪收入;
- 在www.google.com/analytics中添加配置来跟踪流量。
笔记先做到这里,有新遇到的问题再回头来补充修改。