君子兰

人類學雜記——24. 中國人的超級祖先

发布时间:2个月前热度: 7 ℃评论数:

人類學雜記——24. 中國人的超級祖先

  (2013-10-18 12:53:53)

(溫馨提示:簡化字版本見後。)

2013年10月15日,我在arXiv文章數據庫掛出了一篇文章(http://arxiv.org/abs/1310.3897 ,帶附件的下載地址見http://vdisk.weibo.com/s/qGPNPvCSIf0t ),題目是«Y Chromosomes of 40% Chinese Are Descendants of Three Neolithic Super-grandfathers»,即《40%的中國人的Y染色體來自三個新石器時代的超級祖先》,基本內容如下:首先是對110個東亞樣本做Y染色體測序,得到質量可以接受的序列共78個。從裏面找到了4000多個新的SNP位點,命名以F(復旦)打頭。因爲我們捕獲來測序的範圍是隨機的(取的Y染色體上沒有重複的約4 Mbp的很多不連續片段的集合,與已知支系信息無關),範圍又比較大,所以可以畫一棵明確且沒有偏向的演化樹(因爲絕大多數位點都是沒有回復突變的),然後就能按傳統的分子鐘方法計算時閒了。

計算相對時閒只要數每支的突變個數再相比就行了(因爲有波動,具體時閒還是按最大似然法綜合算的),但絕對時閒,就是說平均一個突變到底需要多少年,是需要標定的。這裏我們先只用了一個1×10-9/年/鹼基的突變率。文裏用SNP算的相對時閒能比用STR算出來的準很多(文中說了,準確度的誤差範圍和用於計算時閒的SNP數開根号成反比)。標定的絕對年代(即SNP的絕對突變率)也許還有些誤差,但至少結果也在以往各種方法估出來的範圍之中(以往算出走出非洲年齡最小的不到4万年,最大的8万年,我們算出5.4万)。

人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

文章的結論

文章最大的亮點有兩個,一個是能相對以往準確得多地算出分支時閒,至少是相對時閒,另一個是發現O3下面的三個大的星狀擴張(下面具體談到)。以往用Y-SNP不能算時閒是因爲實驗是特地挑的已知SNP來做的,數量少,且本身帶有偏向性。而本實驗是不帶任何人羣方面的預設來找的SNP,是不帶偏向性的。線粒體全測能算時閒也是同樣道理。當然因爲Y染色體位點多,平均每100年左右就能有一個突變(用全序,即10Mbp左右的範圍),而線粒體平均要2000多年纔能在全長上有一次突變,因此Y染色體算出的時閒精度能比線粒體好很多。

支系方面比較重要的結論有以下幾點:

1. 走出非洲的C、DE、F三大支的分支年代在5万多年。雖然C和F在一起而DE是早分出的,而因爲E主體的分佈是在非洲,本來有人提出CF和D可能是兩批分別走出非洲的,但我們發現CF共有的SNP只有3個,對應大概不到1000年,這樣C, DE和F仍是準三叉,根據奧卡姆剔刀原理,還是M168+整體遷出非洲然後E那支再回流非洲的可能性稍大一些。

2. F支經歷過極強的瓶頸,以致於和C分開後過了差不多2万年纔再一次產生下游分支G, H, IJ, K,K下面的分化也很快(NO, P和LT目前來看也是個準三叉,M和S因爲沒有樣本,現在拓撲關係還不明朗),也就是說,F支下面按字母分的單倍羣從樹幹上分出的時閒大體都在3.6 – 2.4万年前之閒,尤其3.6 – 3万年前是一個快速擴張的時期。O3-M122與O1-M119、O2-M268分開後不久,O1、O2再分開。而下游的分化總的次序是O2最早,其次O3,而O1最晚(不過可能和這次測序的O1樣本多數取自華東有關,多取一些南方少數民族的O1樣本可能會有一些更早的分支。)

3. O系的地理佈散,尤其是O3a-M324(占中國人口的一半以上),主要發生在1.9 – 1万年前,即末次冰盛期(2.3 – 1.8万年前)之後的舊石器時代。這段時閒全球氣候逐漸回暖,海平面從現在海面以下上百米一直升到和目前海平面接近的高度,人類的可活動範圍大大擴展,技術上也有了一些創新,比如陶器的發明,農業也出現了萌芽。

4. 在樹上觀察到,5000到6000多年前左右,在中國出現了三個超級祖先,一個在M117下,一個在M134的另一個分支,即F444下,還有一個在002611的下游F11下。這三個超級祖先出現的年代很接近(次序按不同方法算出來有所區別)。我把他們分別稱爲Oα, Oβ和Oγ,算作對現有單倍羣命名系統的一個改進這三個大約6000年前的人的後代構成了現在漢族人羣的40%以上。之所以很特別(因爲一個人羣往上推總會推到某個時候有個祖先的後代占了一大半),是因爲在這三個擴張以前的Y染色體樹的所有分支,都是二叉,而這三個擴張是星狀擴張,即突然從一個人演化出難以分出先後(這篇文章的測序精度是平均250年一個突變)的5 – 7個支系,而且這5 – 7支是都有後代一直延續到現在的。長支或二叉當中的那些古人當然不是說那些人都沒有兄弟,而是說無數輩的兄弟都沒能傳下男性後代,當時的人口擴張也相對緩慢,只有這幾支幸運兒的後代終於活到了現代。

5. C3-M217是占中國10%左右的大支系,很清楚分爲南北兩支,2.6万年前分開,比O3和O1’2分開還略早。結合STR結果來看,漢族的C3基本都是南支,且存在一個6000多年前的擴張(可能比O3下的三大簇略早)。漢族和北方民族都常見的C3d-M407屬於南支那個擴張下游的。而星簇(star cluster,以前Zerjal et al.說是成吉思汗生出來的)、448-del兩個重要支系(應該也有C3c-M48)屬於北支。C3的北支基本在漢族裏不存在。關於C單倍羣的更多細節,我的同事蘭海應該會發表一篇paper來說明。

6. N單倍羣的最早分化也在1.6万年前。也分爲南北兩支。結合STR來看,原先的N1a-M128和N1c-M46(應該也有N1b-P43)都是北支的。關於N的更多細節,我也會另外寫一篇paper來講。


文章裏沒寫的(因爲文章本來要投大雜誌的,因篇幅有限或說了會被審稿人挑刺所以沒放在文章裏,或者被別人搶去的,或是證據不足的猜想):

7. 時閒估計的不精確性。因爲原先文章裏的用STR計算突變率有一些問題,在後來投的稿裏這部分被砍掉了。但相對的STR時閒計算是沒有問題的。這裏給出兩張散點圖,比較相同的兩個樣本用17-STR得出的時閒和直接數相差的SNP數的對比。前一張圖是所有樣本閒的兩兩比較。後一張圖是Oγ星狀擴張中每對共祖於星點的兩個樣本的STR計算時閒和相差的SNP數的對比。因爲是同一個星,理論上兩個樣本的共祖時閒幾乎相同。可見SNP算出的時閒精度遠好於STR算出的,而STR得到的結果經常可能差出一個數量級以上。或者說,兩個樣本STR很遠的可以排除近期的共祖,但STR近的,實際共祖時閒可能很晚但也不排除實際很早但是因爲巧合而STR接近了。經常有人問,我們兩個人STR差4個點,到底能差多少年,我說100年到1万年都沒準,這確實不是搪塞。

人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

8. 這三個超級祖先到底是什麼人。首先,這個擴張年代正好在五六千年前,屬新石器時代晚期,對應的文化包括仰韶時代晚期和大汶口文化晚期等(我知道有人認爲這三個擴張不是發生於黃河流域的,留以後發現更多證據,尤其是古DNA證據來回答了。)這個時代我知道的有兩個大的變革,一個是農業的大發展,穀類從採集、狩獵的輔助食物變成了食物的主體部分,人們的食物開始嚴重依賴農業,同時聚落的分佈密度大大增加,說明人口增加。同時又有一個社會結構的變化,墓葬從羣體葬逐漸發展出了單人葬和對偶葬,說明社會從母系社會變成了父系社會。因此,對於這三個超級祖先,有兩種解釋:其一,他們是最早的集約化農民,因爲生產力(穀物和人口的)大幅發展,成了超級祖先,因此稱Oα, Oβ和Oγ分別爲“農民甲”、“農民乙”和“農民丙”。有人不相信這種解釋,認爲他們肯定是很偉大的部落首領,有巨大的權力而能占有很多女人,建議用三皇來稱呼,我按照計算出的時閒,分別把Oγ, Oβ和Oα分別稱作“天皇”、“地皇”和“泰皇”。(還有建議把他們稱作“炎帝”、“黃帝”和“蚩尤”的,因爲時閒不符合,而且因爲可能有歷史原型而對應支系可能被證僞,再加上“蚩尤”從民族學上看大概對應苗瑤的O3a2b-M7而不屬這三大簇,所以我覺得還是用純神化的三皇更合適一些。)當然用三皇命名有些人會覺得神棍一些,甯可用“農民”,不過其實把人類父系共祖稱作“Y染色體亞當”同樣神棍。我覺得反正這三簇是客觀存在的,短時閒也不容易證明到底他們是什麼樣的人物,那稱作農民還是三皇就看個人信仰了。

9. 除了三個O3下面的超級祖先,另有兩支也需要關注,一個是C3下面F1144的下游擴張,即南支,擴張時閒可能比O3的三大簇略早,另一個是O1a1下面F78的下游擴張,年代可能只有4000年不到。這兩支的人口大概也各占了漢族的10%上下,但因爲高通量測序時沒有足夠的樣本或有的樣本測序質量不好,尚未能表現出星狀擴張,但我相信如果能擴大測序樣本的數目,也是能找到類似星簇的擴張的。(我還暫時沒有給這兩支起名字。)這樣,把這兩支也加上,這五個新石器祖先的後代就能占到漢族及中國人60%的比例了。

人類學雜記——24. <wbr>中國人的超級祖先人類學雜記——24. <wbr>中國人的超級祖先人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

人類學雜記——24. <wbr>中國人的超級祖先
(上圖是五支祖先大致的分佈範圍和所占人口比例。不是嚴格計算,漢族之外的支系判斷可能有錯。)

10. 關於華夏的起源。因爲這篇文章計算了時閒,所以明確了,漢族(或中華民族)的大多數姓氏的都起源於一個幾千年前叫黃帝的共同父系祖先必然是不可能的。新石器時代晚期最大的簇(Oα)也不過占漢族父系的16%。不過,這篇文章同樣也說明了,史前不遠的時代,華夏確實有少數幾個超級祖先,他們短時閒繁殖出了大量的後代,也就是說這些有關共同祖先的傳說確實是有其原型的,只不過其重要程度被誇大了


文章發表歷經的坎坷

很多人,包括愛好者和業內人士,都知道我的結果早就出來了,這兩年一直都在催問我文章什麼時候能出來,位點什麼時候能公佈。首先,按照通常的科硏規範,似乎文章沒有經過同行評議,文章沒有發出,是不能對外發佈消息的。其次,文章是實驗室老師辛苦申請基金、多人多年合作做出的結果,隨便公佈數據而沒有相應文章發表是損害實驗室利益的,而今後繼續申請科硏基金、評職稱等等,按目前中國的體制,全看文章的影響因子,且只有一作和通訊作者算數。其他的,至少對於生物學來說,發中文文章不算有效工作,合作作者不算,出書不算,做科普不算,這些只能在有閑的時候做。所以,對於這篇文章,首先只能攷慮發paper,而且雜誌分數越高越好。

這篇文章首次投出是2011年11月,這兩年先後投過Nature, Science, Nature Genetics, Nature Communications, PNAS。有的雜誌是被編輯直接斃掉,還有的雜誌是跟審稿人撦了好幾次皮,先後投過3個版本,歷經9個月,最後被拒掉的。幾次投出之閒還有過好幾次大的內容的刪改,比如突變率的計算方法和SNP-STR對照比較等,還有改文章的着重點等。前一次拒掉和下一次投出之閒改文章經常又要花幾個月。這兩年,好幾篇實驗做得並不如我們的文章登上了Science或Genome Research這樣的雜誌,我們文章的新穎性也越來越差。

最終爲了避免文章中的發現變得一錢不值,我出於促進知識傳播和對我的青春負責的理念,決定還是先把文章公開到arXiv上。這個數據庫是沒有同行評審的,也就是說只有靠讀者來衡量文章的價值。但這上面的文章能被引用。有同行評審的雜誌我也還在投着,就算能發出去,分數也沒多少了。從攷覈體系角度看,這四年的我和同事的工作和花的硏究經費就算餵狗了,我的穩定教职也沒戲了,只能繼續做一個二站的博後。(話說,有時候很明顯從編輯和審稿人打回的意見裏能感覺到對中國或東方人的歧視。這篇文章的作者全都是中國人,復旦大學或者中科院計算生物所的成員。因爲發表時閒拖久了,文章本來的亮點一個個被別人的文章搶了去,也只得把題目從一個全球性的時閒計算改成關於中國人祖先擴張的,導致文章更難發表。如果是關於猶太人或者歐洲人的文章,經常是隨便一點兒數據都能發到高分雜誌。之前曹操後代那篇文章也只投到了日本的Journal of Human Genetics雜誌。)

這期閒我如果做錯了什麼,或者什麼原因造成的文章難以發表,有什麼更好的信息發佈方案,都可以幫忙指出,如果有辦法能同時兼顧知識傳播和實驗室利益,我會很感激的。


===============以下是簡化字版本=================


2013年10月15日,我在arXiv文章数据库挂出了一篇文章(http://arxiv.org/abs/1310.3897 ,带附件的下载地址见http://vdisk.weibo.com/s/qGPNPvCSIf0t ),题目是«Y Chromosomes of 40% Chinese Are Descendants of Three Neolithic Super-grandfathers»,即《40%的中国人的Y染色体来自三个新石器时代的超级祖先》,基本内容如下:首先是对110个东亚样本做Y染色体测序,得到质量可以接受的序列共78个。从里面找到了4000多个新的SNP位点,命名以F(复旦)打头。因为我们捕获来测序的范围是随机的(取的Y染色体上没有重复的约4 Mbp的很多不连续片段的集合,与已知支系信息无关),范围又比较大,所以可以画一棵明确且没有偏向的演化树(因为绝大多数位点都是没有回复突变的),然后就能按传统的分子钟方法计算时间了。

计算相对时间只要数每支的突变个数再相比就行了(因为有波动,具体时间还是按最大似然法综合算的),但绝对时间,就是说平均一个突变到底需要多少年,是需要标定的。这里我们先只用了一个1×10-9/年/碱基的突变率。文里用SNP算的相对时间能比用STR算出来的准很多(文中说了,准确度的误差范围和用于计算时间的SNP数开根号成反比)。标定的绝对年代(即SNP的绝对突变率)也许还有些误差,但至少结果也在以往各种方法估出来的范围之中(以往算出走出非洲年龄最小的不到4万年,最大的8万年,我们算出5.4万)。

人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

文章的结论

文章最大的亮点有两个,一个是能相对以往准确得多地算出分支时间,至少是相对时间,另一个是发现O3下面的三个大的星状扩张(下面具体谈到)。以往用Y-SNP不能算时间是因为实验是特地挑的已知SNP来做的,数量少,且本身带有偏向性。而本实验是不带任何人群方面的预设来找的SNP,是不带偏向性的。线粒体全测能算时间也是同样道理。当然因为Y染色体位点多,平均每100年左右就能有一个突变(用全序,即10Mbp左右的范围),而线粒体平均要2000多年才能在全长上有一次突变,因此Y染色体算出的时间精度能比线粒体好很多。

支系方面比较重要的结论有以下几点:

1. 走出非洲的C、DE、F三大支的分支年代在5万多年。虽然C和F在一起而DE是早分出的,而因为E主体的分布是在非洲,本来有人提出CF和D可能是两批分别走出非洲的,但我们发现CF共有的SNP只有3个,对应大概不到1000年,这样C, DE和F仍是准三叉,根据奥卡姆剔刀原理,还是M168+整体迁出非洲然后E那支再回流非洲的可能性稍大一些。

2. F支经历过极强的瓶颈,以致于和C分开后过了差不多2万年才再一次产生下游分支G, H, IJ, K,K下面的分化也很快(NO, P和LT目前来看也是个准三叉,M和S因为没有样本,现在拓扑关系还不明朗),也就是说,F支下面按字母分的单倍群从树干上分出的时间大体都在3.6 – 2.4万年前之间,尤其3.6 – 3万年前是一个快速扩张的时期。O3-M122与O1-M119、O2-M268分开后不久,O1、O2再分开。而下游的分化总的次序是O2最早,其次O3,而O1最晚(不过可能和这次测序的O1样本多数取自华东有关,多取一些南方少数民族的O1样本可能会有一些更早的分支。)

3. O系的地理布散,尤其是O3a-M324(占中国人口的一半以上),主要发生在1.9 – 1万年前,即末次冰盛期(2.3 – 1.8万年前)之后的旧石器时代。这段时间全球气候逐渐回暖,海平面从现在海面以下上百米一直升到和目前海平面接近的高度,人类的可活动范围大大扩展,技术上也有了一些创新,比如陶器的发明,农业也出现了萌芽。

4. 在树上观察到,5000到6000多年前左右,在中国出现了三个超级祖先,一个在M117下,一个在M134的另一个分支,即F444下,还有一个在002611的下游F11下。这三个超级祖先出现的年代很接近(次序按不同方法算出来有所区别)。我把他们分别称为Oα, Oβ和Oγ,算作对现有单倍群命名系统的一个改进。这三个大约6000年前的人的后代构成了现在汉族人群的40%以上。之所以很特别(因为一个人群往上推总会推到某个时候有个祖先的后代占了一大半),是因为在这三个扩张以前的Y染色体树的所有分支,都是二叉,而这三个扩张是星状扩张,即突然从一个人演化出难以分出先后(这篇文章的测序精度是平均250年一个突变)的5 – 7个支系,而且这5 – 7支是都有后代一直延续到现在的。长支或二叉当中的那些古人当然不是说那些人都没有兄弟,而是说无数辈的兄弟都没能传下男性后代,当时的人口扩张也相对缓慢,只有这几支幸运儿的后代终于活到了现代。

5. C3-M217是占中国10%左右的大支系,很清楚分为南北两支,2.6万年前分开,比O3和O1’2分开还略早。结合STR结果来看,汉族的C3基本都是南支,且存在一个6000多年前的扩张(可能比O3下的三大簇略早)。汉族和北方民族都常见的C3d-M407属于南支那个扩张下游的。而星簇(star cluster,以前Zerjal et al.说是成吉思汗生出来的)、448-del两个重要支系(应该也有C3c-M48)属于北支。C3的北支基本在汉族里不存在。关于C单倍群的更多细节,我的同事兰海应该会发表一篇paper来说明。

6. N单倍群的最早分化也在1.6万年前。也分为南北两支。结合STR来看,原先的N1a-M128和N1c-M46(应该也有N1b-P43)都是北支的。关于N的更多细节,我也会另外写一篇paper来讲。


文章里没写的(因为文章本来要投大杂志的,因篇幅有限或说了会被审稿人挑刺所以没放在文章里,或者被别人抢去的,或是证据不足的猜想):

7. 时间估计的不精确性。因为原先文章里的用STR计算突变率有一些问题,在后来投的稿里这部分被砍掉了。但相对的STR时间计算是没有问题的。这里给出两张散点图,比较相同的两个样本用17-STR得出的时间和直接数相差的SNP数的对比。前一张图是所有样本间的两两比较。后一张图是Oγ星状扩张中每对共祖于星点的两个样本的STR计算时间和相差的SNP数的对比。因为是同一个星,理论上两个样本的共祖时间几乎相同。可见SNP算出的时间精度远好于STR算出的,而STR得到的结果经常可能差出一个数量级以上。或者说,两个样本STR很远的可以排除近期的共祖,但STR近的,实际共祖时间可能很晚但也不排除实际很早但是因为巧合而STR接近了。经常有人问,我们两个人STR差4个点,到底能差多少年,我说100年到1万年都没准,这确实不是搪塞。

人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

8. 这三个超级祖先到底是什么人。首先,这个扩张年代正好在五六千年前,属新石器时代晚期,对应的文化包括仰韶时代晚期和大汶口文化晚期等(我知道有人认为这三个扩张不是发生于黄河流域的,留以后发现更多证据,尤其是古DNA证据来回答了。)这个时代我知道的有两个大的变革,一个是农业的大发展,谷类从采集、狩猎的辅助食物变成了食物的主体部分,人们的食物开始严重依赖农业,同时聚落的分布密度大大增加,说明人口增加。同时又有一个社会结构的变化,墓葬从群体葬逐渐发展出了单人葬和对偶葬,说明社会从母系社会变成了父系社会。因此,对于这三个超级祖先,有两种解释:其一,他们是最早的集约化农民,因为生产力(谷物和人口的)大幅发展,成了超级祖先,因此称Oα, Oβ和Oγ分别为“农民甲”、“农民乙”和“农民丙”。有人不相信这种解释,认为他们肯定是很伟大的部落首领,有巨大的权力而能占有很多女人,建议用三皇来称呼,我按照计算出的时间,分别把Oγ, Oβ和Oα分别称作“天皇”、“地皇”和“泰皇”。(还有建议把他们称作“炎帝”、“黄帝”和“蚩尤”的,因为时间不符合,而且因为可能有历史原型而对应支系可能被证伪,再加上“蚩尤”从民族学上看大概对应苗瑶的O3a2b-M7而不属这三大簇,所以我觉得还是用纯神化的三皇更合适一些。)当然用三皇命名有些人会觉得神棍一些,宁可用“农民”,不过其实把人类父系共祖称作“Y染色体亚当”同样神棍。我觉得反正这三簇是客观存在的,短时间也不容易证明到底他们是什么样的人物,那称作农民还是三皇就看个人信仰了。

9. 除了三个O3下面的超级祖先,另有两支也需要关注,一个是C3下面F1144的下游扩张,即南支,扩张时间可能比O3的三大簇略早,另一个是O1a1下面F78的下游扩张,年代可能只有4000年不到。这两支的人口大概也各占了汉族的10%上下,但因为高通量测序时没有足够的样本或有的样本测序质量不好,尚未能表现出星状扩张,但我相信如果能扩大测序样本的数目,也是能找到类似星簇的扩张的。(我还暂时没有给这两支起名字。)这样,把这两支也加上,这五个新石器祖先的后代就能占到汉族及中国人60%的比例了

人類學雜記——24. <wbr>中國人的超級祖先人類學雜記——24. <wbr>中國人的超級祖先人類學雜記——24. <wbr>中國人的超級祖先


人類學雜記——24. <wbr>中國人的超級祖先

人類學雜記——24. <wbr>中國人的超級祖先

(上图是五支祖先大致的分布范围和所占人口比例。不是严格计算,汉族之外的支系判断可能有错。)

10. 关于华夏的起源。因为这篇文章计算了时间,所以明确了,汉族(或中华民族)的大多数姓氏的都起源于一个几千年前叫黄帝的共同父系祖先必然是不可能的。新石器时代晚期最大的簇(Oα)也不过占汉族父系的16%。不过,这篇文章同样也说明了,史前不远的时代,华夏确实有少数几个超级祖先,他们短时间繁殖出了大量的后代,也就是说这些有关共同祖先的传说确实是有其原型的,只不过其重要程度被夸大了


文章发表历经的坎坷

很多人,包括爱好者和业内人士,都知道我的结果早就出来了,这两年一直都在催问我文章什么时候能出来,位点什么时候能公布。首先,按照通常的科研规范,似乎文章没有经过同行评议,文章没有发出,是不能对外发布消息的。其次,文章是实验室老师辛苦申请基金、多人多年合作做出的结果,随便公布数据而没有相应文章发表是损害实验室利益的,而今后继续申请科研基金、评职称等等,按目前中国的体制,全看文章的影响因子,且只有一作和通讯作者算数。其他的,至少对于生物学来说,发中文文章不算有效工作,合作作者不算,出书不算,做科普不算,这些只能在有闲的时候做。所以,对于这篇文章,首先只能考虑发paper,而且杂志分数越高越好。

这篇文章首次投出是2011年11月,这两年先后投过Nature, Science, Nature Genetics, Nature Communications, PNAS。有的杂志是被编辑直接毙掉,还有的杂志是跟审稿人撦了好几次皮,先后投过3个版本,历经9个月,最后被拒掉的。几次投出之间还有过好几次大的内容的删改,比如突变率的计算方法和SNP-STR对照比较等,还有改文章的着重点等。前一次拒掉和下一次投出之间改文章经常又要花几个月。这两年,好几篇实验做得并不如我们的文章登上了Science或Genome Research这样的杂志,我们文章的新颖性也越来越差。

最终为了避免文章中的发现变得一钱不值,我出于促进知识传播和对我的青春负责的理念,决定还是先把文章公开到arXiv上。这个数据库是没有同行评审的,也就是说只有靠读者来衡量文章的价值。但这上面的文章能被引用。有同行评审的杂志我也还在投着,就算能发出去,分数也没多少了。从考核体系角度看,这四年的我和同事的工作和花的研究经费就算喂狗了,我的稳定教职也没戏了,只能继续做一个二站的博后。(话说,有时候很明显从编辑和审稿人打回的意见里能感觉到对中国或东方人的歧视。这篇文章的作者全都是中国人,复旦大学或者中科院计算生物所的成员。因为发表时间拖久了,文章本来的亮点一个个被别人的文章抢了去,也只得把题目从一个全球性的时间计算改成关于中国人祖先扩张的,导致文章更难发表。如果是关于犹太人或者欧洲人的文章,经常是随便一点儿数据都能发到高分杂志。之前曹操后代那篇文章也只投到了日本的Journal of Human Genetics杂志。)

这期间我如果做错了什么,或者什么原因造成的文章难以发表,有什么更好的信息发布方案,都可以帮忙指出,如果有办法能同时兼顾知识传播和实验室利益,我会很感激的。


首發於2013.10.18,新浪博客
修改於2014.01.30


超級,祖先

手机扫码访问