题记
基因组学正以惊人的速度发展,亟需培养和储备大量生物信息分析专业技术人才,来对海量数据进行分析和挖掘、解开数据背后的奥秘,进而更好地将基因技术与应用结合,全面有效地服务于大众。
大家喜爱的“大咖专访”又来啦!
这一次,
幕序君邀请到的重量级嘉宾是
华大科技服务公司副总裁兼首席技术官:
方晓东博士
他将和我们分享
他对组学发展的看法
和给生物信息学习者的建议。
方晓东博士
哥本哈根大学生物信息学博士。
担任深圳华大基因科技服务有限公司副总裁和首席技术官。
十多年来一直专注基于基因组学、生物信息学的生命科学基础研究和转化应用。
擅长通过大规模、海量数据分析、挖掘和解读来探讨生命演化和人类疾病等科学问题,熟悉生命科学、基因领域的基础研究和产业应用。
参与多项大型国际合作项目,包括千人基因组,国际肿瘤基因组,万种脊椎动物,全球地下鼠研究等项目。
在Nature和Science等杂志上发表了几十篇基因组学相关研究论文,其中并列一作和通讯文章共十多篇,平均影响因子在15以上。
慕序君:方老师,当初您为什么会选择现在所从事的领域?
方博士:自己喜欢且能谋生的职业就是符合大众预期的理想工作。当初选择的原因很简单——因为兴趣和喜欢。深入其中变成了习惯、爱好和责任。
2
慕序君:测序技术在科研项目中有哪些应用呢?
方博士:测序技术作为一个高通量、低成本的生物标本数字化技术,已经在生命科学的科研和应用中,得到广泛认可和使用。它不仅是一个基本工具,而且还改变了研究人员的思维方式——从原来纯碎基于科学假设的探索,转变为“假设驱动和数据驱动相结合”的探索。
因为生命科学具有复杂性和多样性,所以只从某个维度的探索不足于了解整个生命过程,因此,基于多组学研究方法和手段的系统生物学广受欢迎。
从2004年罗氏推出新一代测序仪(NGS)454以来的十多年里,测序技术已经渗入到生命科学研究的方方面面,极大地促进了生命科学“从定性描述向量化计算”的发展进程。
测序技术在科研上的应用,可以简要分为DNA和RNA测序两大类:
DNA测序
DNA测序根据具体的应用,可以分为:
1.全新参考基因组构建:
通过测序和信息分析,构建一个物种的参考基因组,并了解其基因组特征,为后续的“基因组-表型”关系的研究提供基本数据信息,如最早的人类基因组计划、熊猫基因组等。在动物、植物、微生物都得到应用。
2.重测序:
在已经存在物种参考基因组的前提下,通过测序来获得某个个体或群体的遗传多样性信息,并通过对遗传多样性的注释和分析,获得个体或群体表型与基因型的对应关系。
3.表观遗传:
表观遗传是调控生命的一种重要机制,具有三个特点:
可逆、可遗传、不改变DNA
对经重亚硫酸盐处理过的DNA(可将DNA中的C转换成U,但已经甲基化的C保持不变)进行测序和分析,可获得样品中的甲基化情况;
利用能够识别某种特定修饰组蛋白的抗体,可以间接捕获围绕在目标组蛋白上的DNA,通过测序和分析,可以了解基因组特定区域的组蛋白修饰情况。
RNA测序
RNA测序根据应用场景,可以分为:
1.蛋白质编码区测序:
对蛋白质编码区的mRNA进行富集后,再进行测序,通过信息分析,可以了解给定样品中转录的基因的数量及丰度、可变剪切形式和链特异性等信息。
2.非编码区测序
根据长度又可以分为:
1) 长链非编码RNA(lncRNA):
通过去rRNA技术,对样品中的全RNA进行片段选择后,进行测序,从而获得标本里长链非编码RNA的转录情况和剪切形式等。
2) 短RNA(small RNA):
对经过长度选择的RNA进行测序和分析,可以获得miRNA、piRNA等短链RNA的转录情况。
以上是简要的列举。
这些研究技术被广泛应用于全新参考基因组构建、群体遗传学研究、基因组辅助育种、不同组织器官或样品处理情况下的表观调控和基因转录调控、环境微生态研究等。
需要注意的是:新的技术和应用会不断地被发明和开发出来。
测序仪和质谱仪是对核酸和蛋白质/代谢产物等样品大规模数字化的最佳工具平台。
建立基因信息与表型信息的关系高度依赖于对数据的分析和挖掘,而海量数据的产生急需生物信息学进行分析和挖掘,将数据转化为信息凝炼为知识,所以生物信息学充当了必不可少的核心作用。
不能转化为信息和知识的数据就是垃圾,生物信息学就是变废为宝的魔术棒,生物信息学人才就是魔术师。
基因组学和生物信息学的发展离不开跨学科人才,十年前基因组学人才匮乏,时至今天乃至十年后,生信人才将依然供不应求。
3
慕序君:您认为组学研究的发展现状是怎样的?它未来的发展前景是什么?
探索生命规律的突破口
方博士:与数学、物理学、化学等学科存在普适规律、可量化描述且能精确预测不同,生命科学属于描述性和实验性的学科;
生命活动和生命过程过于复杂,生命对环境存在高度灵活多变的自适应机制,遗传和变异是永恒的话题,生命自身存在其运动规律,然而总是存在各种各样的例外,就算达尔文提出的伟大的演化论也存在很多难以解释的例外。
生命规律被纷繁复杂的表象所掩盖,等待进一步探索和发现,因此,生命科学亟需理论突破和工具创新。
大数据思维方式和组学技术是探索和有效解决这个问题的关键。
广泛渗透到各领域的研究
组学研究目前的发展已经进入了一个更加繁荣和多元化的阶段。
从外部讲,组学研究逐渐渗入到传统生物学、农学、医学、生态、环保等方面,国内外,无论是政府基金还是民间资本,都高度重视对组学技术的研发和应用,特别是医疗健康、农业育种、环资保护等领域,并且已经产生了很多广泛影响社会进步和民众生活的研究成果,以前所未有的速度促进基础研究成果到生活应用的转化,获得了资本的青睐和百姓的关注。
向综合化和专门化发展
从内部来说,组学研究也越来越多地综合了测序、质谱、影像、临床信息、生活方式、饮食习惯等多维度、全景、实时信息,并且整合系统生物学、大数据、云计算、数据库、人工智能等各类支撑技术,以及刻画组学层面生物规律的具体数学模型和求解算法,在具体研究上呈现综合化和专门化的发展。
将实时、全景地服务于整个生命周期
未来组学的发展离不开大科学目标,将和人类长远需求引导下的大平台建设和交叉学科融合,将会变得高度集成化、工程化、专业化和智能化,与人类的生活水平和质量息息相关,成为生活中不可或缺的一部分,实现华大基因汪建老师所描述的贯穿整个生命周期的实时、全景服务。
4
慕序君:您认为组学的发展给人们的生活带来了那些影响?
疾病研究和药物研发
方博士:组学的发展直接服务于人类自身的本质需求,即自己的健康长寿和繁衍正常健壮的后代。
一方面,虽然现代医学取得了巨大的发展和进步,但是多数的疾病仍然不清楚其发病原因和机制。绝大多数的慢性病,包括糖尿病、心脑血管病、神经退行性疾病等,都没法治愈。在已知的8000多种单基因病中,绝大多数缺乏有效的干预和治疗方式,有些甚至根本没有进行相关的药物研发。
组学作为一个疾病研究和药物研发的有效工具,能够极大提升人类对疾病发生发展的认识和理解,进而提高研发出疾病干预和治疗的有效药物的可能性。
资源和环境问题
另一方面,由于人口的快速增加,对资源的需求也急剧增长。粮食安全、环境恶化等问题日渐突出。
这些问题的解决离不开组学技术的发展。利用组学技术可以极大提高育种和生产效率;选育、培育、设计高产、高品质品种;利用集约化、规模化甚至无土化的栽培、养殖方式来合成、生产人类所需的能量和营养,这有望满足日益增长的物质需求。
同时,通过精准营养来控制和减少代谢性疾病,提高人口健康水平。
举几个例子
无创产前筛查
肿瘤早期筛查
随着年龄的增长,患癌的概率也越来越高。对肿瘤分子标志物的定期检测可以有效地及早发现并治疗癌症,从而大大减少了“癌症一发现就已经处于晚期”的悲剧。比如宫颈癌、乳腺癌、结直肠癌等已经有相对成熟的技术流程和商业服务;
手术与用药指导
一个人的救命药可能是另一个人的致命毒药。不同体质和遗传背景的人适合的手术与治疗方案是很不一样的。比如乙肝用药对8个型别有不同的适合药物;
个人基因组
个人基因组测序,可以满足个体追溯祖先的愿望,并且能够得到疾病易感性、用药指导等方面的信息;
珍稀物种保护与名贵木材防伪
利用DNA条形码标记来识别市场上非法交易的珍稀物种及制品,辨别名贵木材的真伪,这也是影响人们生活的一个实例。
5
慕序君:现在许多学生和研究人员都希望能够学习和掌握生物信息数据分析,您能给他们一些建议吗?
要有应对困难的心理准备
方博士:生物信息学是一个涉及到生物学/医学,数学/统计学和计算机的交叉学科,要学习和掌握生物信息分析,因此需要学习、了解和掌握几个学科的知识,难度不小,需要有心理准备。
选择合适的切入点
同时,需要明确自己学习目的,结合学科技术特点,选择合适的切入点。根据木桶原理的长板效应,发挥自己的长板,通过合作和适度学习来弥补自己的短板。如熟悉生物但对数字不敏感的,强行去深入学习统计和计算机,未必优于“在学习了解常用分析软件算法原理的基础上,专注于生物学结果的解析和解读”。
切入点就是要有一个好的开头,比如从容易上手操作的计算机技能(如perl/python编程语言)入手、从一个有意义的实际问题(如打拐寻亲的DNA数据库与比对分析,追溯个人与家族的祖先源流)入手、从感兴趣的数学模型或算法(如组装的Lander-Waterman模型)的理解入手。
制定阶段性学习方案
选定一个切入点后,要逐步掌握软件与编程上的计算机操作、数学上量化分析思维与方法、生物学上意义理解和假说构建等三大方面的必要内容;而这需要一个持之以恒的过程,建议制定阶段性的学习计划并及时调整。
资源
生物信息学资源有很多,可以通过百度、谷歌、知乎、seqanswer等网站去找相关的推荐列表,比如,美国的NCBI网站中的pubmed,有很多免费的论文可以直接查阅,只要输入感兴趣的关键词即可搜索。一般生物信息学重要的软件和数据库都会以文章的形式发表。这个入口将使你看到更广阔的天地。
6
慕序君:大家非常期待您在8月份举办的《生物信息暑期常用技术培训班》中的分享,您能提前透露在培训班您的课程会涉及哪些内容吗?
方博士:我负责讲第一堂课。第一节课主要从宏观的维度介绍生命科学和组学研究的历史、现状、进展、未来展望等。考虑学员背景和学习目的的多样性,会覆盖尽可能多的方面:介绍多种组学的技术特征、适用范围及一般知识,分享让人有启发的案例,介绍科研项目设计的思维方式等。
以上就是我们专访的内容啦!
非常感谢方晓东博士!
如果你对生物信息分析和基因组学还有什么疑问,欢迎在留言区留言!
华大基因学院对外培训组
咨询时间:
周一至周五,9:00-12:00;14:00-18:00
联系电话:
0755-36352044
联系邮箱:
training@service.genomics.cn
首个基因科技领域MOOC学习&认证平台
长按二维码关注