CODへの結晶構造のデポジット方法 (2016/10/21作成) (随時更新)†
デポジット近況†
- (2024/5/9) kenyaiteをデポジット。現在、636個。
- (2020/12/07) 総計567個。Le Bail先生の最近のtwitter(COD heroes since 2010)によれば、517個デポジットした方(M)がデポジット数で5位になっているのだけど、これが私なのかな?Le Bail先生は3位で、私より1桁多くデポジットしている。
CODとは†
- Crystallography Open Database(COD)は、結晶構造のオープンデータベースであり、biopolymerを除いた、有機および無機結晶を対象としている。現在(2019/03/15)、40.4万件が登録されている。無料で結晶構造データベースを使うことができる。鉱物を扱う者としては、アメリカ鉱物学会等の鉱物構造データベースがCODへ提供されているところが重要な点である。IUCr、ACSの雑誌で出版されたcifデータは自動的に登録されるようになっている。雑誌によってはCODへ結晶構造データのデポジットを推奨するところもある。
- しかし登録されていない構造データもまだ多い。我々が以前解析して報告したZn2SiO4の2つの結晶構造について、CODで調べたところ、見つからなかった。論文投稿時にcifファイルを要求されたところは大体自動的にCODに入っていた(Acta Cryst., Inorg. Chem., Am. Mineral.など)。入ってなかったのは、cifを要求されない雑誌(今の場合Phys. Chem. Minerals)だった。その2つを自分でデポジットしたことから、他のデータもデポジットするようになった。最近気づいたが、Am. Mineral.は今は自動でデポジットされていないようだ。
- CODにデータがあることで、元論文が引用される可能性が多少は増えるので、構造解析結果を雑誌に公表されている方で、CODにデータがまだ登録されていない方は、デポジットされるといいと思います。自動的に雑誌側からcifがCODに送られる場合は不要です。
- 自分のデータでなくても、CODにないデータをボランティアでデポジットすることもできます。Le Bail先生を始め、多くの方がボランティアでデポジットしてます。注意点としては、まず既にCODに存在しないか検索で確認して、余分な手間を省きます。不幸にして重複した場合は、デポジットの時に重複するデータがあると警告が出て来ます。また、既存の有償結晶構造データベースにはほとんどの場合著作権があるので、そのままコピー&ペーストすると問題を生じます。私の場合は、論文からデータを拾ってVestaに入力して、構造をVestaで結晶化学的におかしくないことを確認後、cifファイルを出力させて、cifファイルに雑誌情報などを追加してから、デポジットしてます。Le Bail先生のTwitterを見ると、OCRを使って、デポジットされているようです。
- デポジットする理由:私の場合は、CODで遊ぶや結晶構造の検索で書いているようにCODを普段使っています。また、CODから作成した粉末回折パターンのデータベースとその検索ソフト(QualX2)も利用してます。その関係で高額なライセンス料を払う必要のない、誰でもが使えるCODにより多くのデータが集まって欲しいとの願いで、デポジットをボランティアで行ってます。また、CODを使って、パーソナルな粉末パターンデータベースを作ることも考えてます。
- 最近、FOX(実空間結晶構造解析ソフト)にCODの検索機能が付きました。検索した構造をダブルクリックするとCrystalsのところに構造データが入ります。
CODへのcifファイルのデポジット方法†
(Le Bail先生のデポジット方法を読んで、少し直した)
- 既にCODに登録されているcifを作成してしまうのは悲しいので、cifを作る前に検索でよくチェックすることが必須。
- cifファイルを準備する:自分の解析データの場合は、構造解析ソフトから出力されるcifファイルを雛形として使う。他人の結晶構造データをデポジットする場合は、例えばVestaからcifファイルを出力させてやればよい。Vestaや構造解析ソフトから出力されたcifファイルには、もちろん掲載雑誌、著者らの情報が入ってないので、それを追加する必要がある。未公表のデータもデポジットできる。以下は追加する雑誌情報部分の例。既存のCODにあるcifファイルを参考に情報を追加すればよい。時々見る別途の追加情報としては、常温常圧測定でない場合で、 _publ_section_titleのところにタイトルの後に追加しているケースがある。正式にはそれら用のタグが用意されている。さらに下の方を参照。
loop_
_publ_author_name
'Liu, X.'
'Kanzaki, M.'
'Xue, X.'
_publ_section_title
;
Crystal structures of Zn2SiO4 III and IV synthesized at
6.5-8 GPa and 1,273 K
;
_journal_name_full 'Physics and Chemistry of Minerals'
_journal_page_first 467
_journal_page_last 478
_journal_volume 40
_journal_year 2013
_journal_paper_doi 10.1007/s00269-013-0584-6
- デポジットする:cifデータを準備したら、デポジットするサイトへ行き、その画面通りに進む。はじめてデポジットする時は名前、パスワード等を設定する必要がある。デポジットはcifファイル1つ毎か、複数ファイルをzipしたものがupload可能である。uploadされるとvalidationが始まり、エラーが指摘されるので、それをブラウザー上で直して、再度チェックする。エラーがなくなれば、デポジットが可能となる(ボタンが表示される)。デポジットすると、付与されたCOD番号が表示される。ここで重複があると警告がでる。このCOD番号でデポジットしたcifファイルへ直接アクセスできるようになる。
- validationでのエラー:最初にデポジットした時に出てきたいくつかのエラーは、
- Zが計算できない:この場合は以下のようにZを直接入れることで解決。Vestaはこのタグを出力しないので。
_cell_formula_units_Z 4
- 値に空白が含まれる時は''をつける。これは自動的に直してくれる。
- ファイル冒頭のdata_は必須で、間違って消去しないこと。
- CODをupdateしたら、デポジットしたデータがちゃんとダウンロードされていた。
- depositionでのエラー:
- 一連の温度、圧力を変えたデータであまり構造が大きく違いがないものをデポジットした時に、既にデータがありますというエラーがでることがある。これはmailing listで聞いて解決した。データが3シグマ以内のものは同じものとして判断しているそうだ。もし温度や圧力変化が小さくて、同じと間違われる時は測定温度のタグ"_diffrn_ambient_temperature 298.15"や測定圧力のタグ"_diffrn_ambient_pressure 14.4E+6"を追加することで解決できる。タグの名前が変だが。温度はK単位。圧力の単位はkPaなので、この例の14.4E+6は14.4 GPaとなる。注意する必要があるのは(私の間違ったところ)、既にデポジットした一連のデータにもこのタグを追加する必要があること。そうしないと、温度・圧力タグが両者で揃ってないので、それらのタグは比較されなくて、3シグマ以内だとエラーがでることになる。既に自分でデポジットしたものは以下のようにManage depositionsで訂正として、タグを追加することができる。温度、圧力を変えたデータでは、最初からそれらのタグを書いておくことをお勧めする。
- 似た様なことで、DFT計算と実験構造が両方ある場合にも(DFTの予測がよいほど)同じデータと認識されるが、この場合はDFTは0 Kとして、やはり温度で区別することができるだろう。
- 自分のデポジットしたデータの間違い訂正(事後)
- 訂正はManage depositionsからできる。そこでupdateボタンをクリック。editボタンで直接直して、再チェックする。また、log messageのところに直した理由など書く必要があり、これを入力しないと怒られる。
- OCRを使った座標データの読み込み
- Le Bail先生の最近のTwitterでやり方が紹介されてました。
- Le Bail先生のTwitterに、CODについてのcomplainはCod-users listへどうぞと書かれていたので、subscribeした。上記の温度・圧力データについて質問したら、返事がちゃんと来た。それで問題が解決した。普段は投稿がゼロ。
私のCODへのデポジット状況†
- 2016年10月から初めて、現在(2019/07/17)まで、合計464個(cifファイルの数で)をデポジットした。
- 現在、以下の雑誌の結晶構造データを定期的に拾って、デポジット中。
- Journal of the Ceramic Society of Japan:新号には継続対応
- Journal of Asian Ceramic Societies:新号には継続対応
- J. Mineral. Petrol. Sciences:新号には継続対応
- なお、私のデポジットしたcifの番号は大体#1544***~1545***くらいとなってます(この範囲の全てではない)。もしこの番号あたりで、かつ上記雑誌の場合は私の入力したものである可能性が非常に高いので、間違い等がありましたらご連絡ください(自分で入力した分は直せます)。
- また、私は異方性温度因子がある場合は、それらも入力してます。CODのデータで異方性温度因子が入力されていないことが多いようです(オリジナルの論文に載っていても)。