More Related Content
ライフサイエンス分野におけるLinked Open Dataの活用例 31st Integrated DB MTG in NIBIO What's hot (8)
DDBJ Nucleotide Sequence Submission System の紹介 [DDBJing29]DDBJ Nucleotide Sequence Submission System の紹介(第29回 DDBJing 講習会 in... 第57回日本人類遺伝学会大会 教育講演「バイオインフォマティクス:データベース統合化によるアプローチ」 Viewers also liked (19)
Michalena McCann power point Overload Distinctions & Insights Making a Deal: Unlocking Potential In Communities LinkedIn Presentation to BUA Network South East Ireland Postgres Open Keynote: The Next 25 Years Esdipitchstartupvillage 130530064724-phpapp01 Social media, sousveillance and civil unrest in the United Kingdom Autoriõigus, litsentsid ja avatud sisu To boldly go.... into the archive by Adele Martin-Bowell and Rebekah Taylor, ... Connected Cars: Assessing the Impact Sess12 3 abong g. & kabira j.– diversity and characteristics of potato flakes... A Compilation of all Astrological Info! 104.09.09 1-德國農莊-顧客行為分析-創造顧客價值與創造消費者需求-詹翔霖教授 Similar to 36th mtg in NIBIO (10)
[2019-11-22] JSAI合同研究会 糖尿病電子カルテを事例としたMeSH Term注釈に基づくアクセス制限研究のオープンデータ類似検索 More from Maori Ito (13)
Test slide for the lab - Target prioritization 30th Integrated DB MTG in NIBIO 29th Integrated DB MTG in NIBIO Cross search and_semantic_web_mbsj2013 The Progress on Sagace and Data Integration Schema.org extension for biological database @ Biohackathon2013 Life Science Database Cross Search and Metadata 36th mtg in NIBIO
- 2. 本日の予定
• Sagace
– アクセス解析
– 新規ファセット項目に加えるDBの是非について
– 進捗報告
• 医薬基盤研内のデータのRDF化
– 難病研究資源バンクのデータのRDF化について
– これまでRDF化したデータの疾患別傾向について
– 外部DBを繋げた検索について
2
- 3. 新規ファセット項目に加える
DBの是非について
• メンバーの皆さんに調査結果をご報
告頂きます。
– 担当したファセット分類の検索結果の印象
– 各データベースの掲載の是非(特に非のもの
について,その理由)
– その他気がついた点についての報告
3
- 4. 医薬基盤研内のデータのRDF化
• 進捗報告
– 難病研究資源バンクのデータをRDF化
– 難病研究資源バンク,実験動物研究資源バン
ク,希少疾病用医薬品にICD10を付与
– BioPortalのRay FergersonさんからICD10のttl
を入手
– DB毎にどの疾患が多いのか検索
– OMIMと統合して外部のデータを得る
4
- 5. 難病研究資源バンクのRDF化
@prefix Medical_condition: <http://schema.org/MedicalCondition/> .
@prefix b2rv: <http://bio2rdf.org/bio2rdf_vocabulary:> .
@prefix BioLOD_property_pria315s16i:
<http://purl.jp/bio/13/property/pria315s16i/> .
@prefix dbowl: <http://dbpedia.org/ontology/> .
@prefix NIBIO_raredis: <http://www.nibio.go.jp/rarediseaseVocabulary#> .
<http://raredis.nibio.go.jp/bioSample#27>
b2rv:namespace "rareDisease" ;
dbowl:icd10 "D44.1" ;
BioLOD_property_pria315s16i:Institute_Depositor
"京都医療センター"@ja ;
Medical_condition:name "非機能性副腎腫瘍"@ja , "Nonfunctioning
adrenal tumor" ;
NIBIO_raredis:ID "0311" ;
NIBIO_raredis:bioSample "Plasma" .
5
- 6. 難病研究資源バンクのRDF化
• 今後の予定
– NIBIO_raredis:bioSample "Plasma" .
– 上記について適切なpredicate,objectのURIが見つかれ
ば置き換えを検討する。
– データ構成,データの増大に合わせてRDFデータも
作り変えていく。
– 今回は,ウェブページから表を取り出して作成
– 将来的にはウェブページにマークアップ,クロー
ラーが同時にRDF作成が現実的?
6
- 7. ICD10の付与
例:希少疾病用医薬品の場合
以下の様なRDFをトリプルストアに入れると,既存のグラフ(下記ならば
<http://www.nibio.go.jp/orphanDrugTarget#7>と統合してくれる。)
@prefix dbowl: <http://dbpedia.org/ontology/> .
@prefix Medical_condition: <http://schema.org/MedicalCondition/> .
<http://www.nibio.go.jp/orphanDrugTarget#7>
Medical_condition:name "動脈管開存症"@ja;
dbowl:icd10 "Q25.0".
7
- 8. BioPortal由来の
ICD10のttlファイル
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix owl: <http://www.w3.org/2002/07/owl#> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix xsd: <http://www.w3.org/2001/XMLSchema#> .
@prefix umls: <http://bioportal.bioontology.org/ontologies/umls/> .
<http://purl.bioontology.org/ontology/ICD10/S66.9>
a owl:Class ;
skos:prefLabel """Injury of unspecified muscle and tendon at wrist and hand level"""@en ;
skos:notation """S66.9"""^^xsd:string ;
rdfs:subClassOf <http://purl.bioontology.org/ontology/ICD10/S66> ;
umls:cui """C0478316"""^^xsd:string ;
umls:tui """T037"""^^xsd:string ;
umls:hasSTY <http://purl.bioontology.org/ontology/STY/T037> ;
8
- 9. 検索例
1つの疾患IDに幾つのデータが紐づくかデータベース毎に出力
prefix skos: <http://www.w3.org/2004/02/skos/core#>
prefix dbowl: <http://dbpedia.org/ontology/>
prefix b2rv: <http://bio2rdf.org/bio2rdf_vocabulary:>
select ?id ?name ?namespace (count(*) as ?count)
where
{
?s skos:prefLabel ?name;
skos:notation ?id.
?nibio_db dbowl:icd10 ?id;
b2rv:namespace ?namespace.
}
GROUP BY ?id ?name ?namespace
ORDER BY ?id
9
- 11. OMIMとの統合
ICD10をキーとしてOMIMのIDや疾患名,遺伝子名を出力
prefix dbowl: <http://dbpedia.org/ontology/>
prefix b2rv: <http://bio2rdf.org/bio2rdf_vocabulary:>
prefix b2ro: <http://bio2rdf.org/omim_vocabulary:>
PREFIX dcterms: <http://purl.org/dc/terms/>
select ?nibio_url ?icd10 ?omim_id ?title ?gene_name
where
{
?nibio_url dbowl:icd10 ?id.
BIND (xsd:string(?id) as ?icd10)
SERVICE<http://omim.bio2rdf.org/sparql>{
?s b2ro:x-icd10 ?o;
b2rv:identifier ?omim_id;
dcterms:title ?title;
b2ro:gene-name ?gene_name.
?o b2rv:identifier ?icd10.
}
}
11
- 13. 医薬基盤研内のデータのRDF化
• 外部DBを繋げた検索について
– 特許のSPARQL Endpointは情報が不足している。
– Clinical Trialsは現状データを繋ぐとっかかりとな
るIDがない。
– 実験動物研究資源バンクのデータとMGIのデータ
の統合
• 系統名,遺伝子名ともにマッチするものが少ない。
• OMIM経由で繋ごうとしたが,一致するIDを見つけら
れず
– 複数のSPARQL Endpointを経由した検索は現状
では難しい(調査継続)
13
- 14. 今後の予定
• 次回
– 10月24日(金)
• トーゴーの日
– 10月5日(日)?
• BioHackathon 2014
– 11月9日(日)〜14日(金)
• 分子生物学会
– 11月25日(火)〜27日(木)
14
Editor's Notes
- #9:
UMLS は米国国立医学図書館(National Library of Medicine: NLM)が1986年から取り
組んでいる統合型の医学用語システム。
CUIはID,TUIは分類体系,hasSTYも分類体系に繋がるURI(ここでは,Injury or Poisoningという意味らしい)
―このプロジェクトの目的は現在ある各種の電子的なファイル、文献データベース、患者
記録、ファクトデータバンク、知識ベースなどを検索、統合化するために構想された。
―UMLS には約100種の既存の用語集、シソーラス、コードなどから医学用語が収集され
UMLS のコンセプトごとに整理されて、巨大な医学用語データベースとして NLM から一般
に公開されている。