الأسبرين.
هام: تشير المعلومات أدناه إلى الأدوية المتاحة في الولايات المتحدة التي تحتوي على الأسبرين.
الأدوية التي تحتوي على الأسبرين:
الأسبرين النظامية.
يستخدم الأسبرين النظامية في علاج:
الأدوية متعددة المكونات التي تحتوي على الأسبرين:
أسيتامينوفين / هيدروكسيد الألومنيوم / الأسبرين / الكافيين / هيدروكسيد المغنيسيوم النظامية.
أسيتامينوفين / هيدروكسيد الألومنيوم / الأسبرين / الكافيين / يستخدم هيدروكسيد المغنيسيوم النظامية في علاج:
الأسيتامينوفين / الأسبرين النظامية.
أسيتامينوفين / الأسبرين / الكافيين النظامية.
أسيتامينوفين / الأسبرين / الكافيين / ساليسيلاميد النظامية.
أسيتامينوفين / الأسبرين / الكودين النظامية.
أسيتامينوفين / الأسبرين / ديفينهيدرامين النظامية.
الأسماء التجارية: إكسدرين بيإم الصداع.
يستخدم أسيتامينوفين / الأسبرين / ديفنهيدرامين النظامية في علاج:
أسيتامينوفين / الأسبرين / فينيلبروبانولامين النظامية.
الأسماء التجارية: رينوكابس.
هيدروكسيد الألومنيوم / الأسبرين / كربونات الكالسيوم / هيدروكسيد المغنيسيوم النظامية.
الأسماء التجارية: الأسبرين مخزنة، ماغنابرين، التهاب المفاصل ألم الفورمولا، أسبير-موكس.
يستخدم هيدروكسيد الألومنيوم / الأسبرين / كربونات الكالسيوم / هيدروكسيد المغنيسيوم النظامية في علاج:
الأسبرين / برومفينيرامين / ديكستروميتورفان / فينيلبروبانولامين النظامية.
الأسبرين / بوتالبيتال النظامية.
الأسماء التجارية: أكسوتال.
يستخدم الأسبرين / بوتالبيتال النظامية في علاج:
الأسبرين / بوتالبيتال / الكافيين النظامية.
الأسبرين / بوتالبيتال / الكافيين / الكودين النظامية.
الأسماء التجارية: أكومب مع كودين، فيورينال مع كودين، فيورتال مع كودين، فيورينال مع كودين الثالث.
الأسبرين / الكافيين النظامية.
الأسبرين / الكافيين / ديهيدروكودين النظامية.
الأسبرين / الكافيين / أورفينادرين النظامية.
الأسبرين / الكافيين / بروبوكسيفين النظامية.
الأسماء التجارية: بروبوكسيفين مجمع 65، مجمع دارفون 65، بيسي-كاب، مجمع دارفون 32.
يستخدم الأسبرين / الكافيين / بروبوكسيفين النظامية في علاج:
الأسبرين / الكافيين / ساليسيلاميد النظامية.
الأسماء التجارية: بك تخفيف الآلام السريعة، بك الصداع، B مسحوق C، B C مسحوق التهاب المفاصل القوة.
الأسبرين / كربونات الكالسيوم النظامية.
الأسماء التجارية: باير المرأة الجرعة المنخفضة بالإضافة إلى الكالسيوم.
الأسبرين / كاريسوبرودول النظامية.
الأسماء التجارية: مجمع كاريزوبرودول، مجمع سوما.
الأسبرين / كاريسوبرودول / كودين النظامية.
الأسبرين / كلورفينيرامين / ديكستروميتورفان النظامية.
الأسماء التجارية: ألكا-سلتزر بالإضافة إلى الفورمولا الانفلونزا (الصيغة القديمة)
يستخدم الأسبرين / كلورفينيرامين / ديكستروميتورفان النظامية في علاج:
الأسبرين / كلورفينيرامين / ديكستروميتورفان / فينيليفرين النظامية.
الأسماء التجارية: ألكا-سلتزر بلوس كولد & أمب؛ السعال الفورمولا أقراص فوار.
الأسبرين / كلورفينيرامين / ديكستروميتورفان / فينيلبروبانولامين النظامية.
الأسبرين / كلورفينيرامين / فينيليفرين النظامية.
اسم العلامة التجارية: ألكا-سلتزر زائد الباردة الفورمولا تألق أقراص فوار الأصلي، ألكا-سلتزر زائد الباردة الفورمولا البرتقال زيست أقراص فوار، ألكا سيلتزر زائد الفورمولا الباردة الكرز انفجار أقراص فافورسنت.
الأسبرين / كلورفينيرامين / فينيل بروبانولامين النظامية.
الأسبرين / حمض الستريك / بيكربونات الصوديوم النظامية.
الأسماء التجارية: ألكا-سيلتزر الأصلي، آلام فاصلة الإغاثة، ألكا سلتزر الليمون الجير، برومو سيلتزر.
الأسبرين / الكودين النظامية.
الأسماء التجارية: إمبيرين مع كودين.
يستخدم الأسبرين / الكودين النظامية في علاج:
الأسبرين / ديكستروميتورفان / دوكسيلامين / فينيليفرين النظامية.
الأسماء التجارية: ألكا-سلتزر بلوس داي & أمب؛ ليلة الفورمولا الباردة (ليلة الباردة)، ألكا-سلتزر زائد ليلة الباردة الفورمولا أقراص فوار.
الأسبرين / ديكستروميتورفان / فينيليفرين النظامية.
الأسماء التجارية: ألكا-سلتزر بلوس داي & أمب؛ الفورمولا الباردة (يوم بارد)
الأسبرين / ديفينهيدرامين النظامية.
الأسماء التجارية: باير بيإم، ألكا-سلتزر بيإم.
الأسبرين / ديفينهيدرامين / فينيل بروبانولامين النظامية.
الأسبرين / ديبيريدامول النظامية.
الأسبرين / الهيدروكودون النظامية.
الأسماء التجارية: داماسون-P، أزدون، ألور 5/500، باناسال 5/500.
يستخدم الأسبرين / الهيدروكودون النظامية في علاج:
الأسبرين / ميبروبامات النظامية.
الأسبرين / ميثوكاربامول النظامية.
الأسماء التجارية: روباكسال.
يستخدم الأسبرين / ميثوكاربامول النظامية في علاج:
الأسبرين / نيفيديبين النظامية.
الأسماء التجارية: أدلات زل بلوس.
الأسبرين / أوميبرازول النظامية.
الأسبرين / أوكسيكودون النظامية.
الأسماء التجارية: بيركودان، إندودان، روكسيبرين، بيركودان-ديمي.
الأسبرين / بنتازوسين النظامية.
الأسماء التجارية: مجمع تالوين.
الأسبرين / فينيليفرين النظامية.
الأسماء التجارية: ألكا-سلتزر زائد صيغة الجيوب الأنفية.
الأسبرين / فينيلتولوكسامين النظامية.
أسماء العلامات التجارية: الزخم.
الأسبرين / برافاستاتين النظامية.
يستخدم الأسبرين / برافاستاتين الجهازية في علاج:
الأسبرين / السودوإيفيدرين النظامية.
الأسماء التجارية: أورسينوس.
تنويه: يتم تحديد المؤشرات والاستخدامات والتحذيرات للأدوية الفردية خارج الولايات المتحدة من قبل الهيئات التنظيمية المحلية في كل بلد أو منطقة. ويهدف الموقع الإلكتروني للمخدرات في المقام الأول إلى الجماهير في الولايات المتحدة وأقاليمها. المؤشرات والاستخدامات والتحذيرات على المخدرات منشورات معلومات المريض مشتقة من تسميات فدا المنتج ويمكن أن تختلف في بلدان خارج الولايات المتحدة الأمريكية. وقد بذل كل جهد ممكن لضمان أن تكون المعلومات المقدمة في هذه الصفحة دقيقة ومحدثة وكاملة، ولكن لم يتم ضمان أي ضمان لهذا الغرض. المخدرات لا تؤيد المخدرات، وتشخيص المرضى أو التوصية علاجات محددة. المعلومات الواردة في هذه الصفحة ليست بديلا عن الخبرة والمهارة والمعرفة والحكم من الممارسين الرعاية الصحية. وينبغي عدم تفسير عدم وجود تحذير لمجموعة معينة من المخدرات أو المخدرات بأي حال من الأحوال أن تشير إلى أن مجموعة المخدرات أو المخدرات آمنة وفعالة أو مناسبة لأي مريض معين. المخدرات لا تتحمل أي مسؤولية عن أي جانب من جوانب الرعاية الصحية تدار بمساعدة المعلومات المقدمة هنا. لا يقصد من المعلومات الواردة في هذه الوثيقة أن تغطي جميع الاستخدامات الممكنة، والاتجاهات، والاحتياطات، والتحذيرات، والتفاعلات المخدرات، الحساسية، أو الآثار السلبية. دائما استشارة الطبيب أو أخصائي الرعاية الصحية للحصول على المشورة الطبية.
الصيغة الكيميائية: C9H8O4.
إدبانك بانك إد: DB00945.
أتس كود (s): C10BX04، B01AC56، M01BA03، N02BA71، C10BX05، C10BX06، N02BA51، C10BX02، B01AC06، N02BA01، A01AD05، C10BX01، C10BX08.
مادة كيميائية، أساس، بسبب، الأسبرين.
اضغط للتكبير.
المخدرات تطبيقات الجوال.
أسهل طريقة للبحث عن المعلومات المخدرات، وتحديد حبوب منع الحمل، والتحقق من التفاعلات وإعداد السجلات الخاصة بك الدواء الشخصية. متاح لأجهزة أندرويد و يوس.
حول.
البنود & أمب؛ الإجمالية.
الاشتراك لتلقي الإخطارات كلما نشرت مقالات جديدة.
توفر الأدوية معلومات دقيقة ومستقلة عن أكثر من 24،000 عقاقير طبية، والأدوية بدون وصفة طبية والمنتجات الطبيعية. يتم توفير هذه المواد للأغراض التعليمية فقط وليس المقصود للحصول على المشورة الطبية والتشخيص أو العلاج. وتشمل مصادر البيانات ميكروميديكس & ريج؛ (تحديث 4 ديسمبر 2017)، سيرنر مولتوم والتجارة؛ (تحديث ديسمبر 5، 2017)، وولترز كلوير والتجارة؛ (تحديث ديسمبر 1، 2017) وغيرها. لعرض مصادر المحتوى والسمات، يرجى الرجوع إلى سياسة التحرير.
نحن نلتزم مع معيار هونكود للحصول على معلومات صحية جديرة بالثقة - تحقق هنا.
تسمية المواد الكيميائية.
مقدمة في التسميات الكيميائية.
ملاحظة: ستطبع هذه الوثيقة بتنسيق معد بشكل مناسب (11 صفحة)
التسميات الكيميائية هي موضوع كبير جدا إلى حد كبير لمعالجة شاملة، وأنه سيكون تحويل عديمة الفائدة لمحاولة القيام بذلك في دورة البداية. معظم طلاب الكيمياء التقاط الأسماء الكيميائية والقواعد التي تحكم لهم لأنها تسير جنبا إلى جنب.
ولكن لا يمكننا الحديث عن الكيمياء دون ذكر بعض المواد الكيميائية، وكلها لها أسماء و [مدش]؛ وغالبا، أكثر من واحد! كل ما سنحاول القيام به هنا هو تغطية ما تحتاج إلى معرفته لفهم الكيمياء في السنة الأولى. بالنسبة لأولئك منكم الذين يخططون للذهاب في الكيمياء، وتأتي الاشياء متعة حقا في وقت لاحق!
هناك أكثر من 100 مليون اسمه المواد الكيميائية. من يفكر في أسماء جميع هذه المواد الكيميائية؟ هل نحن في خطر نفاد الأسماء الجديدة؟ الجواب على السؤال الأخير هو & كوت؛ لا & كوت ؛، لسبب بسيط أن الغالبية العظمى من الأسماء ليست & كوت؛ فكر & كوت ؛؛ هناك قواعد تفصيلية لتخصيص الأسماء للمواد الكيميائية على أساس هياكلها. وتسمى هذه الأسماء المنهجية؛ فإنها قد تكون عاطفية بعض الشيء، ولكنها تحدد بشكل فريد مادة معينة. وتحدد هيئة دولية قواعد هذه الأسماء. ولكن من أجل جعل الفهرسة وتحديد الهوية أسهل، كل مادة كيميائية معروفة لها رقمها الخاص & كوت؛ الشخصية إد & كوت؛، والمعروفة باسم رقم سجل كاس. يتم إصدار حوالي 15،000 أرقام جديدة كل يوم.
الأسماء الشائعة والأسماء المنهجية.
أرقام سجل كاس هي أدوات أساسية للتنقل عبر غابة أسماء متعددة لمواد معينة. على سبيل المثال، الإيثانول، تش 3 تش 2 أوه، ويعرف أيضا باسم الكحول الإيثيلي، كحول الحبوب، الكحول المطلق، هيدروكسي إثيلين، و هيدرات الإيثيل †"ولكن كل يحمل نفس رقم السجل 64-17-5.
اعتبارا من يونيو 2015، مادة واحدة مع أكبر عدد من المرادفات هو البولي ايثيلين البلاستيك المشترك. لديها 9،409 أسماء!
العديد من المواد الكيميائية هي جزء كبير جدا من حياتنا التي نعرفها من قبل أسماء مألوفة، تماما مثل أصدقائنا الآخرين. مادة معينة قد يكون لها عدة أسماء مشتركة أو تافهة. سكر القصب العادي، على سبيل المثال، هو أكثر تعرف رسميا باسم & كوت؛ السكروز & كوت ؛، ولكن يسأل عن ذلك على مائدة العشاء بهذا الاسم من المرجح أن تكون محادثة سدادة، وأنا لن حتى المغامرة للتنبؤ النتيجة إذا حاولت باستخدام اسمها المنهجي في السياق نفسه:
& كوت؛ يرجى تمرير & ألفا؛ - D - Glucopyranosyl - (1،2) - وبيتا؛ - D-فريكتوفورانوسيد! & كوت؛
ولكن & كوت؛ سكروز & كوت؛ سيكون من المناسب تماما إذا كنت بحاجة إلى تمييز هذا السكر معين من مئات من السكريات الأخرى المسماة. المكان الوحيد الذي سوف تأتي عبر اسم منهجي مثل واحد غير عملي إلى حد ما المذكورة هنا هو عند الإشارة (في الطباعة أو في قاعدة بيانات الكمبيوتر) إلى السكر الذي ليس له اسم شائع.
وكانت المواد الكيميائية جزءا من نسيج الحضارة والثقافة لآلاف السنين، والكيمياء الحالية يحتفظ الكثير من هذه الأمتعة القديمة في شكل مصطلحات التي تربطها علاقات ثقافية وتاريخية خفية إضافة اللون والفائدة لهذا الموضوع. وقد وصلت إلينا العديد من الأسماء الكيميائية الشائعة بعد رحلات طويلة بشكل ملحوظ عبر الزمان والمكان، كما يوضح المثالان التاليان:
معظم الناس يمكن ربط اسم الأمونيا (نه 3) مع الغاز وجود رائحة نفاذة. فإن الاسم المنهجي "ثلاثي هيدريد النيتروجين" (والذي نادرا ما يستخدم) سوف اقول لكم صيغته. ما لن أقول لكم هو أن الدخان من حرق روث الإبل (الوقود الرئيسي في شمال أفريقيا) يتكثف على الأسطح الباردة لتشكيل وديعة بلورية. لاحظ الرومان القدماء لأول مرة هذا على جدران وسقف المعبد الذي كان المصريون قد بنيت على إله الشمس آمون في طيبة، وكانوا يطلقون على مادة أمونياك سال، وهذا يعني "ملح آمون". في عام 1774، وجد جوزيف بريستلي (مكتشف الأكسجين) أن تسخين سال الأمونيا تنتج غازا مع رائحة نفاذة، والتي اسمها T. بيرغمان اسمه "الأمونيا" بعد ثماني سنوات.
الخيمياء العربية قد أعطانا عددا من المصطلحات الكيميائية؛ على سبيل المثال، ويعتقد أن الكحول مستمد من العربية الخول أو الغول الذي كان معناه الأصلي مسحوق معدني تستخدم لتظلم الجفون المرأة (كوهل).
دخل الكحول اللغة الإنجليزية في القرن السابع عشر مع معنى & كوت؛ التسامي & كوت؛ مادة، ثم أصبح & كوت؛ روح نقية & كوت؛ من أي شيء، وأصبح مرتبطا فقط ب & كوت؛ روح النبيذ & كوت؛ في عام 1753. وأخيرا، في عام 1852، أصبح جزءا من التسميات الكيميائية التي تشير إلى فئة من مركب عضوي. ولكن لا تزال الممارسة الشائعة للإشارة إلى المادة المحددة تش 3 تش 2 أوه كما & كوت؛ الكحول & كوت؛ بدلا من ذلك إيثانول اسمها المنهجي.
الممارسة العامة بين الكيميائيين هي استخدام الأسماء الكيميائية الأكثر شيوعا كلما كان ذلك عمليا للقيام بذلك، وخاصة في التحدث المكتوب أو غير الرسمي المكتوب. بالنسبة للعديد من أبسط المركبات (بما في ذلك معظم تلك التي سوف تواجهها في دورة السنة الأولى)، والأسماء المنهجية والمشتركة هي نفسها، ولكن عندما يكون هناك اختلاف وإذا كان السياق يسمح بذلك، والاسم الشائع هو عادة فضل.
بعض الأسماء أكثر شيوعا من غيرها.
العديد من العناصر & كوت؛ الشائعة & كوت؛ والأسماء التي نشير إليها في هذا الدرس معروفة وتستخدم أساسا من قبل المجتمع العلمي. المواد الكيميائية المستخدمة في المنزل، والفنون، أو في صناعة اكتسبت التقليدية أو & كوت؛ شعبية & كوت؛ الأسماء التي لا تزال تستخدم على نطاق واسع. العديد، مثل سال الأمونيا المذكورة أعلاه، لديها قصص رائعة ليقول. وفيما يلي عينة مختصرة من بعض الأسماء التقليدية الأخرى:
يمكن العثور على قائمة أكثر شمولا من الأسماء المشتركة والتجارية هنا.
المعادن هي المواد الصلبة التي تحدث في الأرض التي تصنف وتسمى وفقا لتراكيبها (التي غالبا ما تختلف على مدى مستمر) وترتيب الذرات في الشبكات الكريستال. هناك حوالي 4000 اسمه المعادن. يتم تسمية العديد من الأماكن، والأشخاص، أو خصائص، وغالبا ما تنتهي مع - إيت. انظر هنا للحصول على قائمة واسعة.
أسماء الملكية.
الكيمياء هي صناعة رئيسية، لذلك ليس من المستغرب أن يتم بيع العديد من المواد تحت أسماء العلامات التجارية. هذا هو شائع بشكل خاص في صناعة المستحضرات الصيدلانية، والذي يستخدم أجهزة الكمبيوتر لإخراج أسماء التي يأملون أن تميز المنتج الجديد من تلك التي منافسيها. ولعل أشهرها هو الأسبرين الذي صاغ اسمه من قبل شركة باير الألمانية عام 1899. وقد استولت الحكومة الأمريكية على هذا الاسم التجاري بعد الحرب العالمية الأولى ولم تعد علامة تجارية محمية في ذلك البلد.
بعض الأسماء المثيرة للاهتمام.
أولئك الذين لا يعتقدون أن الكيميائيين لديهم روح الفكاهة يجب أن يكون إلقاء نظرة على هذا الموقع من قبل البروفيسور بول ماي من جامعة بريستول في المملكة المتحدة:
. والتي سوف يتمتع خصوصا من قبل الذكور في سن المراهقة من جميع الأعمار.
يبدأ تسمية المواد الكيميائية بأسماء العناصر. وقد اكتسب المكتشف عنصرا تقليديا الحق في تسمية ذلك، ويمكن للمرء أن يجد بعض التاريخ البشري والثقافي للاهتمام في هذه الأسماء، وكثير منها تشير إلى خصائص العنصر أو إلى المواقع الجغرافية. فقط بعض العناصر المكتشفة حديثا (والمصنوعة بشكل مصطنع) سميت باسم الناس.
بعض العناصر لم تكن حقا & كوت؛ اكتشف & كوت؛، ولكن كانت معروفة منذ العصور القديمة. وكثير من هذه لها رموز مستمدة من الأسماء اللاتينية للعناصر. هناك تسعة العناصر التي من المتوقع أن تعرف رموز اللاتينية المستمدة.
ما هو أقدم ذكر لعنصر معين؟ أحد المرشحين هو الأسطورة اليهودية القديمة من تدمير سدوم و غومورا بواسطة الكبريت (الكبريت) كما هو مسجل في سفر التكوين 19:24: & كوت؛ ثم امطر الرب على سدوم وعمورة الحجورة ونار من الرب من السماء. ومثل.
هناك الكثير من التاريخ والتقاليد في العديد من هذه الأسماء. على سبيل المثال، الاسم اللاتيني للزئبق، هيدارجيروم، يعني & كوت؛ المياه الفضة & كوت؛، أو كويكسيلفر. التسمية & كوت؛ كواك & كوت؛، كما طبقت على طبيب غير كفء، هو فساد الكلمة الفلمنكية لكسيلفر، ويستمد من استخدام مركبات الزئبق في الطب القرن 17. الاسم & كوت؛ الزئبق & كوت؛ هو من أصل خيميائي وبطبيعة الحال مشتقة من اسم الإله اليوناني بعد ذلك يدعى الكوكب. الخصائص الغامضة للعنصر، في نفس الوقت المعدني، السوائل، و فابوريزابل، تشير إلى نفس رسول مع قدم مجنح الذي الدوائر من خلال السماوات بالقرب من الشمس.
أسماء العناصر بلغات أخرى.
ما الذي يسمونه عنصر السترونتيوم في جورجيا (البلد، وليس الدولة)؟ الجواب: бѓЎбѓўбѓќбѓ бѓЄбѓ~бѓњбѓ~бѓЈбѓ> бѓ~. إذا الأحجار الكريمة مثل هذا فتن لك، إلقاء نظرة على إليمنتيمولوغي & أمب؛ عناصر مولتيديكت، والتي هي كل شيء عن أصول أسماء العنصر، وليس فقط في اللغة الإنجليزية، ولكن في 97 لغات مختلفة.
للحصول على معلومات عن عناصر التسمية باللغات الصينية واليابانية والكورية والفيتنامية، راجع صفحة ويكيبيديا هذه.
ويمكن الاطلاع على دليل ممتاز للتسمية الكيميائية على هذه الصفحة شودور.
وأشرطة الفيديو على التسميات الكيميائية الأساسية.
ويعتمد النظام المستخدم لتسمية المواد الكيميائية على طبيعة الوحدات الجزيئية المكونة للمركب. وعادة ما تكون هذه إما أيونات أو جزيئات؛ تطبق قواعد مختلفة على كل منها. في هذا القسم، نناقش أبسط ثنائي (اثنين ذرة) جزيئات.
أرقام في الأسماء.
وكثيرا ما يكون من الضروري التمييز بين المركبات التي توجد فيها نفس العناصر بنسب مختلفة؛ أول أكسيد الكربون كو وثاني أكسيد الكربون كو 2 مألوفة للجميع. وربما كان الكيميائيون يأملون في إضفاء الشرعية عليها كباحثين، واستخدام البادئات اليونانية (أحيانا اللاتينية) لتعيين أرقام داخل الأسماء؛ سوف تواجه هذه في كثير من الأحيان، ويجب أن تعرف لهم:
سترى أحيانا أسماء مثل دي الهيدروجين و دي الكلور تستخدم لتمييز الأشكال المشتركة من هذه العناصر (H 2، كل 2) من الذرات التي لها نفس الاسم عندما يكون مطلوبا للوضوح.
N 2 O 4 - رباعي أكسيد ثنائي النيتروجين [ملاحظة المفقودين السابقة حرف العلة] N 2 O - أكسيد النيتروجين [أكثر شيوعا، أكسيد النيتروز] سف 6 - سداسي فلوريد الكبريت P 4 S 3 - تيترافوسفوروس ثلاثي سلفيد [أكثر شيوعا، فسفور سيسكولفهيد] نا 2 هبو 4 - ثنائي فوسفات الهيدروجين الصوديوم.
H 2 S - كبريتيد الهيدروجين [نحن تخطي كل من دي وحادي]
وسوف يكون واضحا من هذه الأمثلة أن الكيميائيين هم في العادة من اتخاذ بعض الحريات في تطبيق البادئات الرقمية الصارمة للمواد الأكثر شيوعا المعروفة.
المركبات الثنائية من غير المعادن.
وعادة ما يكون من السهل جدا تسمية هذه المركبات المكونة من عنصرين لأن معظمها يتبع القاعدة المنهجية لإضافة اللاحقة إلى الاسم الجذري للعنصر الثاني، والذي عادة ما يكون أكثر & كوت؛ سالب & كوت؛ واحدة. وترد عدة أمثلة من هذا القبيل أعلاه.
ولكن كما ذكر أعلاه، هناك بعض الاستثناءات الهامة التي المشتركة أو ف H 2 O (المياه، وليس أكسيد الهيدروجين) /
H 2 O 2 (بيروكسيد الهيدروجين وليس ثاني أكسيد الهيدروجين) H 2 S (كبريتيد الهيدروجين، وليس كبريتيد الهيدروجين) NH3 (الأمونيا، وليس ثلاثي الهيدرات النيتروجين) نو (أكسيد النيتريك، وليس أول أكسيد النيتروجين) N 2 O (أكسيد النيتروز، وليس ثنائي النتروجين أكسيد) تش 4 (الميثان، وليس تيترايدريد الكربون)
أيون هو ذرة مشحونة كهربائيا أو جزيء و [مدش]؛ أي أن عدد الإلكترونات يختلف عن عدد البروتونات النووية. ويمكن اعتبار العديد من المركبات البسيطة، على الأقل بطريقة رسمية، على أنها تتكون من زوج من الأيونات التي تحمل علامات الشحنة المقابلة.
الأيونات الموجبة، والمعروفة أيضا باسم الكاتيونات، هي في معظمها تلك العناصر المعدنية التي تأخذ ببساطة اسم العنصر نفسه.
الكاتيونات غير المعدنية الهامة الوحيدة التي تحتاج إلى معرفته هي.
(في وقت لاحق، عند دراسة الأحماض والقواعد، وسوف تتعلم أن الأولين تمثل نفس الأنواع الكيميائية.)
الكاتيونات متعددة التكافؤ.
بعض الأيونات المعدنية متعددة التكافؤ، وهذا يعني أنها يمكن أن تحمل أكثر من شحنة كهربائية واحدة. لهذه الأسماء هناك أسماء منهجية تستخدم الأرقام الرومانية، والأسماء الشائعة القديمة والأقل تعقيدا التي تستخدم في الغالب الأسماء اللاتينية للعناصر، وذلك باستخدام النهايات - أوس و - إيك للدلالة على رسوم أقل وأعلى، على التوالي. (في الحالات التي يكون فيها أكثر من اثنين من قيم التهم ممكنة، يتم استخدام الأسماء المنهجية.) فقط تلك التي تحتاج إلى معرفتها في هذه الدورة هي التالية:
* أيون الزئبق هو كاتيون مزدوج فريد من نوعه في بعض الأحيان يمثل بشكل غير صحيح كما هغ +.
تشكل العناصر غير المعدنية عموما الأيونات السالبة (الأنيونات). تنتهي أسماء الأنيونات أحادية الذيل مع لاحقة من جانب:
وهناك عدد من الأنيونات متعددة الذرات الهامة التي، لأغراض التسمية، يمكن تقسيمها إلى عدة فئات. وهناك عدد قليل يتبع نمط للأنيونات أحادية الذرة:
الأكثر شيوعا الأكسجين التي تحتوي على الأنيونات (أوكسيانيونس) لها أسماء تنتهي في، ولكن إذا كان هناك متغير يحتوي على عدد قليل من ذرات الأكسجين، فإنه يأخذ لاحقة - ite.
الأيونات المذكورة أعلاه (باستثناء نترات) يمكن أيضا أن تتحد مع H + لإنتاج & كوت؛ حمض & كوت؛ أشكال وجود رسوم سلبية أصغر. ولأسباب تاريخية غامضة إلى حد ما، يكون لبعضها أسماء مشتركة تبدأ ب - والتي، على الرغم من تثبيطها رسميا، لا تزال تستخدم على نطاق واسع:
الكلور، وإلى حد أقل البروم واليود، وتشكيل سلسلة أكثر اتساعا من أوكسيانيونس التي تتطلب اصطلاح تسمية أكثر تعقيدا إلى حد ما:
هذه المركبات مشتقة رسميا من الأيونات الموجبة (الكاتيونات) والأيونات السالبة (الأنيونات) في نسبة تعطي وحدة محايدة كهربائيا.
أملاح، منها عادي & كوت؛ ملح & كوت؛ (كلوريد الصوديوم) هو المثال الأكثر شيوعا، وجميع المواد الصلبة في ظل الظروف العادية. وهناك عدد قليل من هذه (مثل كلوريد الصوديوم) يحتفظ الأيونات المكون ويسمى بشكل صحيح & كوت؛ الأيونية الصلبة & كوت ؛. في كثير من الحالات، ومع ذلك، فإن الأيونات تفقد طابعها مشحونة كهربائيا وتشكل إلى حد كبير غير الصلبة الأيونية الصلبة مثل كوكل 2 التي يتم وصفها هنا. مصطلح & كوت؛ المواد الصلبة المشتقة من أيون & كوت؛ يشمل كلا من هذه الفئات من المركبات.
يمكن أن تتحد معظم الكاتيونات والأنيونات الموصوفة أعلاه لتشكيل مركبات صلبة تعرف عادة بالأملاح. شرط واحد المهيمن هو أن مركب الناتجة يجب أن تكون محايدة كهربائيا: وبالتالي الأيونات كا 2 + و بر & ندش]؛ تجمع فقط في نسبة 1: 2 لتشكيل بروميد الكالسيوم، كبر 2. لأنه لا توجد صيغة أبسط أخرى ممكنة، ليست هناك حاجة لتسميته & كوت؛ ديبروميد الكالسيوم & كوت ؛.
وبما أن بعض العناصر المعدنية تشكل كاتيونات ذات رسوم إيجابية مختلفة، فإن أسماء المركبات الأيونية المستمدة من هذه العناصر يجب أن تحتوي على بعض المؤشرات على تهمة الموجبة. يستخدم الأسلوب القديم اللواحق - وس و - c للدلالة على رسوم أقل وأعلى، على التوالي. في حالات الحديد والنحاس، وتستخدم الأسماء اللاتينية من العناصر: الحديدية، كوبريك.
هذا النظام لا يزال يستخدم على نطاق واسع، على الرغم من أنه قد تم استبدالها رسميا من قبل نظام الأسهم أكثر دقة، إذا كان مرهقا قليلا حيث واحد يشير إلى تهمة الموجبة (في الواقع، عدد الأكسدة) عن طريق الأرقام الرومانية التالية رمز الموجبة. في كلا النظامين، وينتهي اسم أنيون في - ايدي.
يمكن اعتبار معظم الأحماض على أنها مزيج من أيونات الهيدروجين H + مع أنيون؛ وينعكس اسم أنيون في اسم الحمض. لاحظ، في حالة أوكسياسيدس، كيف لاحقة أنيون - ate و - تصبح - ic و - ous، على التوالي، في اسم الحمض. نعم، الكيمياء لديها قواعد مثل الكثير من أي لغة أخرى و [مدش]؛ والكثير من ذلك هو غير النظامية!
وبما أن المركبات العضوية (الكربون) تشكل الغالبية العظمى من جميع المواد الكيميائية المعروفة، فإن التسميات العضوية هي موضوع ضخم في حد ذاته. نقدم هنا فقط الجزء الأساسي جدا من ذلك الذي تحتاج إلى معرفته في الكيمياء في السنة الأولى و [مدش]؛ وأكثر من ذلك بكثير ينتظر أولئك منكم الذين هم لتجربة ملذات دورة الكيمياء العضوية في وقت لاحق.
تحديد طول سلسلة الكربون.
يتم بناء أبسط المركبات العضوية من سلاسل مستقيمة من ذرات الكربون التي تسمى بواسطة البادئات التي تشير إلى عدد من الكربون في السلسلة. باستخدام الاتفاقية C n للدلالة على سلسلة مستقيمة من الذرات n (لا تسأل حتى عن سلاسل متفرعة!)، وتعطى البادئات لأطوال سلسلة من 1 إلى 10 هنا:
كما ترون، سلاسل من C 5 فصاعدا استخدام البادئات عدد اليونانية، لذلك لم يكن لديك الكثير جديدة للتعلم هنا. أبسط هذه المركبات هي الهيدروكربونات التي لها الصيغة العامة C n H 2 n +2. وهي معروفة عموما باسم الألكانات، وأسماءهم جميعا الجمع بين البادئة العددية المناسبة مع نهاية - an:
يجب أن تحتوي جميع ذرات الكربون على أربع روابط مرتبطة بها؛ لاحظ اتفاقية مشتركة لا تظهر ذرات الهيدروجين صراحة.
المجموعات الوظيفية.
عن طريق استبدال واحد أو أكثر من ذرات الهيدروجين من سلسلة الكربون مع مجموعة وظيفية مناسبة، ويمكن الحصول على فئات مختلفة من المركبات. لإبقاء الأمور بسيطة قدر الإمكان، نقدم أمثلة فقط للألكانات ذات السلسلة المستقيمة مع بديل واحد. لاحظ أيضا أنه في C 3 وسلاسل أعلى، يمكن أن يكون البديل في أكثر من موقع واحد، مما أدى إلى العديد من الأيزومرات.
الكحول: مجموعة الهيدروكسيل.
الأحماض: مجموعة الكربوكسيل.
وهناك عدد قليل من الآخرين.
أشرطة الفيديو على التسميات العضوية.
ويحدد مدربون مختلفون متطلبات متفاوتة على نطاق واسع للتسمية الكيميائية. وربما يكون ما يلي أكثر التوقعات شيوعا:
يجب أن تعرف اسم ورموز على الأقل العناصر العشرين الأولى، وكذلك كل من الهالوجين ومجموعات الغاز النبيلة (مجموعات 17-18). اسم أي جزيء ثنائي، وذلك باستخدام البادئات القياسية لمدة 1-10. جميع الأيونات التي تواجه عادة. الأملاح والمركبات الأخرى المشتقة من الأيونات، بما في ذلك الأحماض المدرجة هنا. في بعض الدورات سوف لا تحتاج إلى معرفة - s / أسماء - ic للأملاح من النحاس والحديد، وما إلى ذلك، ولكن في الآخرين سوف. معرفة من مدربك الذي المركبات العضوية يجب أن تكون قادرة على تسمية.
&نسخ؛ 2004-2017 من قبل ستيفن لور - آخر تعديل 2017-07-26.
للحصول على معلومات حول هذا الموقع أو الاتصال بالمؤلف،
الصفحة الرئيسية للكتاب الظاهري Chem1 هي في chem1 / أكاد / virtualtextbook. html.
تم ترخيص هذا العمل بموجب ترخيص كريتيف كومونس أتريبوتيون 3.0 أونبورتيد.
تشيم 1 تسمية المواد الكيميائية تغطي مقدمة في التسميات الكيميائية لدورة في الكيمياء العامة. وهو جزء من كتاب الكيمياء العامة الظاهري، وهو كتاب مرجعي مجاني على الإنترنت للكيمياء العامة من قبل ستيفن السفلى من جامعة سيمون فريزر.
ويغطي هذا الفصل المواضيع التالية: أسماء ورموز العناصر، والأسماء الشائعة والمنهجية، وتسمية الجزيئات الثنائية، والأرقام في الأسماء، وتسمية الأيونات والأملاح والأحماض، والمركبات العضوية. ويمكن الوصول إليها مباشرة في chem1 / أكاد / ويبتكست / إنترو / إنت-5.html.
يتم توجيه هذه المواد بشكل رئيسي على مستوى الكلية في السنة الأولى، ولكن الكثير منها هو أيضا مناسبة لطلاب المدارس الثانوية. وهو مرخص بموجب رخصة المشاع الإبداعي 3.0 نسبية غير المسددة.
الواجبات المنزلية 6 الجزء 2 الخوف من القمل بيديكولوفوبيا.
انقر لتعديل تفاصيل المستند.
انقر لتعديل تفاصيل المستند.
شارك هذا الرابط لصديق:
معظم الوثائق الشعبية ل كلسيف 217.
محاضرة 8 جامعة ميشيغان كلسيف 217 - شتاء 2013 كلسيف 217 الدروس 13 & أمب؛ 14: النظام البصري الإناث النظام التناسلي الملاحظات اللغوية.
محاضرة 9 جامعة ميشيغان كلسيف 217 - شتاء 2013 كلسيف 217 الدروس 15 و 16: الجهاز البولي التناسلي للدم والأنظمة اللمفاوية.
محاضرة 10 جامعة ميشيغان كلسيف 217 - شتاء 2013 كلسيف 217 الدرس 17: الجهاز العضلي الهيكلي الإعلانات تعديل مفتاح الإجابة على كتو.
محاضرة 11 جامعة ميشيغان كلسيف 217 - شتاء 2013 للنهائي: 1.Prefixes واللاحقات، وخاصة في الدروس 1 & أمب؛ 2 & أمب؛ 8. 2. وردس على ر.
HW4 ملاحظات جامعة ميشيغان كلسيف 217 - شتاء 2013 كلسيف 217 ملاحظات على الواجبات المنزلية 4 (الدروس 5 و 6) الدرس 5 أكو (s) -، أكو (s) -: واحد من ال.
HW4 إجابات جامعة ميشيغان كلسيف 217 - شتاء 2013 براديليكسيا هبوفرينيا لاباروكوليستيستوتومي سابروفيت بوليفراسيا ميلوبوييزيس ديسمن.
شوهدت مؤخرا.
دراسة على الذهاب.
مواد أخرى ذات صلة.
A أنتيبيوتس في بريفيكس بريفيكس هذه هي ديريفاتس أوف السيفالوسبورين من جامعة ميشيغان كلسيف 217 - خريف 2014 كلسيف 217 المغادرة من الكتاب المدرسي: المفردات المخدرات (من بين أمور أخرى) تافهة (
محاضرة 5 جامعة ميشيغان كلسيف 217 - شتاء 2013 كلسيف 217 نهاية اليونانية وبدء الدروس اللاتينية 6، 7، & أمب؛ 8 نصفي 1 الأسبوع المقبل.
17 التأثيرات الأخرى على اللغة الإنجليزية الطبية الجدير بالذكر في تمرير جامعة العربية من ميشيغان كلسيف 217 - ربيع 2014 كلسيف 217 أصول المصطلحات الطبية تيشنيكاليا المنهج متاح على كتولس سي.
اللاحقات الكيميائية في الدرس 2 أوز للسكريات يأتي من الجلوكوز الفرنسي جامعة ميتشيغان كلسيف 217 - ربيع 2014 قواميس أي قاموس طبي أو (أفضل) قاموس أوكسفورد الإنكليزية على الانترنت:
Homework5Notes جامعة ميشيغان كلسيف 217 - خريف 2014 كلسيف 217 الواجبات المنزلية 5 ملاحظات (الدروس 7 و 8) يرجى التأكد من قراءة منزل مفصل.
من الاسم يتم تعديل الصفة حتى لن تنتهي بنفس الطريقة جامعة ميشيغان كلسيف 217 - شتاء 2013 كلسيف 217 الواجبات المنزلية 5 ملاحظات (الدروس 7 و 8) هام: وقد تم تقسيم الواجبات المنزلية 5 إنت.
صفحة 8 & # 47؛ 36.
تظهر هذه المعاينة صفحات المستند 8 - 16. قم بالتسجيل لعرض المستند الكامل.
الحصول على دورة البطل.
القانونية.
اتصل بنا.
حقوق الطبع والنشر © 2017. بالطبع البطل، وشركة الخصوصية الشروط.
بالطبع لا ترعى بطل أو أقرتها أي كلية أو جامعة.
الاعتراف بالكيانات الكيميائية: الجمع بين النهج القائمة على القاموس والنهج القائم على القواعد.
اقتباسات.
BioEntities.
مقالات ذات صلة.
روابط خارجية.
الاعتراف بالكيانات الكيميائية: الجمع بين النهج القائمة على القاموس والنهج القائم على القواعد.
الملحق.
خلفية.
وقد شهد العقد الماضي زيادة كبيرة في عدد المنشورات في الكيمياء. إن الحجم المتزايد باستمرار من الوثائق المتاحة يجعل من الصعب على نحو متزايد استخراج المعلومات الجديدة ذات الصلة من هذه النصوص غير المهيكلة. ويدعو التحدي تشيمدنر بيوكريتيف تطوير نظم للاعتراف التلقائي للمواد الكيميائية في النص (مهمة سيم) وترتيب المركبات المعترف بها على مستوى الوثيقة (مهمة سدي). قمنا بالتحقيق في نهج المجموعة حيث يتم استخدام التعرف على الكيانات القائم على القاموس جنبا إلى جنب مع التعرف على القواعد النحوية لاستخراج المركبات من النص. وقد قمنا بتقييم أداء عشر موارد معجمية تجارية ومتوفرة بشكل عام باستخدام نظام الفهرسة المفتوحة المصدر (بيرجرين)، جنبا إلى جنب مع ثلاثة معرفات مختلفة للمركبات الكيميائية ومجموعة من التعبيرات العادية للتعرف على معرفات قواعد البيانات الكيميائية. كما تم أيضا دراسة تأثير قوائم التوقف المختلفة، ومطابقة حساسية الحالة، واستخدام معلومات التقطيع. ركزنا على الموارد المعجمية التي توفر معلومات التركيب الكيميائي. لترتيب المركبات المختلفة الموجودة في النص، استخدمنا درجة الثقة الثقة على أساس نسبة تطبيع للترددات المدى في المجلات الكيميائية وغير الكيميائية.
استخدام قوائم وقف كلمة تحسنت كثيرا في أداء الاعتراف القائم على القاموس، ولكن لم يكن هناك فائدة إضافية من استخدام المعلومات تشونكينغ. مزيج من شيبي و همدب كما الموارد المعجمية، أداة ليدمين للاعتراف القائم على القواعد، والتعبيرات العادية، تفوق أي من الأنظمة الفردية. في مجموعة الاختبار، كان F - عشرات 77.8٪ (استدعاء 71.2٪، والدقة 85.8٪) لمهمة سيم و 77.6٪ (استدعاء 71.7٪، والدقة 84.6٪) لمهمة سدي. وكانت المصطلحات الفائتة تعزى أساسا إلى القضايا توكينيزاتيون، وضعف الاعتراف بالصيغ، والاقتران الأجل.
الاستنتاجات.
قمنا بتطوير نظام مجموعة يجمع بين القائم على القاموس والنهج القائمة على قواعد للكيميائية اسمه الاعتراف الكيان، متفوقة على أي من النظم الفردية التي اعتبرناها. النظام قادر على توفير معلومات هيكل لمعظم المركبات التي تم العثور عليها. ومن المرجح أن يؤدي تحسين الرموز المميزة والاعتراف الأفضل بأنواع معينة من الكيانات إلى زيادة تحسين أداء النظام.
خلفية.
وقد شهد العقد الماضي زيادة هائلة في عدد المنشورات الكيميائية في المؤلفات العلمية. إن الحجم المتزايد باستمرار من الوثائق المتاحة يجعل من الصعب على نحو متزايد العثور يدويا واستخراج المعلومات ذات الصلة من هذه النصوص [1،2]. إن الفهرسة التلقائية للمنشورات الفردية من قبل الكيانات الكيميائية المذكورة فيها، يمكن أن تجعل من السهل العثور على معلومات جديدة. ترتيب هذه الكيانات الكيميائية من قبل الثقة الاعتراف يمكن أن يكون مفيدا في الحكم على أهمية المنشور. أيضا، معرفة موقع كل ذكر للمركبات الكيميائية في هذه المنشورات هو استخدام لإقامة علاقات مع كيانات أو مفاهيم أخرى [3].
ويمكن اتخاذ نهج مختلفة لاستخراج النصوص لاستخراج الكيانات الكيميائية المسماة من النص. وقد تم تصنيف النهج المختلفة على أساس القائم على القاموس، القائم على التشكل (أو النحوي)، ومقرها السياق [3]. In dictionary-based approaches, different matching methods can be used to detect matches of the dictionary terms in the text [3]. This requires good-quality dictionaries. The dictionaries are usually produced from well-known chemical databases. This approach may well capture non-systematic chemical identifiers, such as brand or generic drug names, which are source dependent and are generated at the point of registration. The drawback of a dictionary approach is that it is nearly impossible to also include all systematic chemical identifiers, such as IUPAC names [4] or SMILES [5], which are algorithmically generated based on the structure of the chemical compound and follow a specific grammar [6]. These predefined grammars are sets of rules or guidelines developed to refer to a compound with a unique textual representation (systematic term or identifier). These terms should have a one-to-one correspondence with the structure of the compound. Grammar-based approaches expand their extractions through the capture of systematic terms by utilizing these sets of rules, for example by means of finite state machines [7]. Therefore grammar-based approaches can extract systematic terms that are missing from the dictionaries. Both dictionary-based and grammar-based approaches may suffer from tokenization problems [3]. Following the third approach, context-aware systems use machine learning techniques and natural language processing (NLP) to capture chemical entities. Machine learning techniques utilize the manually annotated chemical terms in a training set of documents to automatically learn and define patterns to extract terms from text [3]. The drawback of machine learning approaches is the need for a sufficiently large annotated corpus for training the system.
Extraction of chemical entities from text has shown to be difficult. Among the main reasons are the large number of terms and synonyms within the chemical domain, the failure to follow guidelines when creating systematic terms by authors, the use of characters such as hyphens and commas within chemical terms, and the ambiguity and inconsistency within and across chemical databases [2,6,8]. Studies have tackled these difficulties using the approaches previously mentioned. Hettne et al. [9] extracted chemical terms from text using a dictionary-based approach (through a system called Peregrine [10]). Funk et al. [11] evaluated the performance of three different dictionary-based systems (MetaMap [12], NCBO Annotator [13], and ConceptMapper [14]) by examining different parameters over multiple ontologies. Lowe et al. developed Opsin, which uses a grammar to transfer chemical nomenclature into structures [15].
In a later study Lowe et al. [16] further improved dictionary-based approaches by introducing 485 grammar-based rules to identify systematic terms. Others (e. g., Leaman et al. [17]) have investigated machine-learning approaches with a focus on conditional random fields (CRFs) [18], hidden mark models (HMMs), and maximum entropy markov models (MEMMs) [19] to extract chemical terms from text. In a recent study, Campos et al. [20] developed Neji, an open source package that integrates dictionary-based and machine-learning approaches to extract biomedical terms from text.
The BioCreative CHEMDNER challenge [8] intends to encourage the development of systems that can index chemical entities (especially the ones that are associated with a chemical structure) in scientific journals. Challenge participants were invited to submit results for two different tasks. The chemical document indexing (CDI) subtask pursues the creation of a list of the chemical entities in a document, ranked according to their confidence of recognition [8]. The chemical entity mention recognition (CEM) subtask aims at establishing the location of every mentioned chemical entity within a document [8]. The CHEMDNER organizers provided the participants with a manually annotated gold standard corpus [21] for training their systems. Overall 65 groups registered for the challenge and 27 groups (both academic and commercial) submitted results [8].
We investigated an ensemble approach where dictionary-based named entity recognition is used along with grammar-based recognizers and chemical toolkits to extract compounds from text. We analyzed the performance of ten different commercial and publicly available lexical resources using Peregrine, an open source indexing system [10,22], along with three different chemical compound recognizers. Different combinations of resources and recognizers were explored to find the best combination to extract the compounds.
Our approach was to extract non-systematic chemical identifiers using dictionary-based methods and systematic identifiers using grammar-based methods. We extracted compound family names using a defined ChEBI family dictionary, and database identifiers using a set of manually defined regular expressions. We merged the extractions of these systems. We first concentrated on the CEM subtask where we carried out chemical entity mention recognition. For the CDI subtask we determined confidence scores for all recognized terms and used these to rank the mentions.
The CHEMDNER corpus [21] was used for the development and the evaluation of our system. The corpus consists of 10,000 manually annotated Medline abstracts divided in a training set and a development set (3,500 abstracts each), and a test set (3,000 abstracts). An additional sample dataset with 30 abstracts was also made available through the corpus. The abstracts in the test set were provided as part of a blinded set of 20,000 abstracts (participants did not know which of these abstracts were part of the test set), which the teams had to process in the evaluation phase of the challenge. The corpus has been annotated with the following entity types: abbreviation (e. g., "DMSO"), family (e. g., "Iodopyridazines"), formula (e. g., "(CH3)2SO"), identifier (e. g., "CHEBI:28262"), multiple (e. g., "thieno2,3-d and thieno3,2-d fused oxazin-4-ones"), systematic (e. g., "2-Acetoxybenzoic acid"), trivial (e. g., "Aspirin"), and undefined (e. g., "C4-C-N-PEG9"), concentrating on mentions with practical relevance as to potential target applications (focusing on chemical entities with structures) [21]. Therefore general compounds not associated with chemical structures were not annotated throughout the corpus. The combination of sample set, training set, and development set, collectively called the training material further on, was used to develop the ensemble system.
Lexical resources.
We extracted all the terms (a term denoting a compound and consisting of one or more words) from the databases described below, including brand names, synonyms, trade names, generic names, research codes, Chemical Abstracts Service (CAS) numbers, and any other compound-relevant information. Since we wanted to focus on compounds with structures, only records with MOL file representations of chemical structures [23] were extracted.
Chemical Entities of Biological Interest (ChEBI) is a freely accessible dictionary of small molecular entities. Manually checked and annotated (three star) compounds and their associated MOL file representations of chemical structures were extracted, including all synonyms, brand names, ChEBI names, and International Nonproprietary Names (INNs).
ChEMBL is a freely accessible database of bioactive molecules with drug-like properties. Chemical records are manually curated and standardized. Relevant information was extracted from ChEMBL records with associated MOL files.
ChemSpider [26]
The ChemSpider database is a freely accessible chemical structure database, owned by the Royal Society of Chemistry [27]. It contains structures, properties and associated information for compounds gathered from more than 470 data sources. The information in the database is validated automatically by robot software, and manually by annotators and crowdsourcing [26,28,29]. We only used the subset of compounds that were manually validated.
DrugBank [30]
DrugBank is a freely accessible database containing information on drugs and drug targets. Most of the data in DrugBank is expertly curated from primary literature sources [31]. All synonyms, brand names, CAS numbers, INNs, and generic names were extracted from DrugBank records with MOL files.
The Human Metabolome Database (HMDB) contains human body-related small molecule metabolites information. The database links chemical, clinical and biological data. All compounds within HMDB are manually annotated by at least two annotators [33].
NIH Chemical Genomics Center Pharmaceutical Collection (NPC) contains clinical approved drugs from the USA, Europe, Canada and Japan. The data are automatically screened for curation [34]. The NPC browser 1.1.0 was used to extract synonyms, CAS numbers, and structure names for compounds with structures.
Therapeutic Target Database (TTD) contains known and explored therapeutic targets and their corresponding drugs. Targets are only included in TTD if they have been described in the literature [36]. All synonyms and drug names were extracted.
PubChem [37]
PubChem is a database that provides information regarding biological activities of small molecules. PubChem stores molecular structures and bioassay data from different contributors [37]. A subset of compounds likely to have structure-activity relationships and/or other biological annotations [38] with all of their corresponding synonyms derived from PubChem substances were downloaded.
In addition to the databases above, which all contain information on compound structure, we also explored two large lexical resources that do not provide structure information.
The joined lexical resource Jochem is a dictionary of small molecules and drugs, containing information from multiple sources. The dictionary is designed for text mining and all integrated data have been filtered, curated and disambiguated automatically [9]. All compounds and their corresponding information were extracted from Jochem.
The Unified Medical Language System (UMLS) is a collection of biomedical concepts from different lexical resources grouped by 135 different semantic types [39]. UMLS provides a mapping among these lexical resources. Automatic auditing tools are used to discover and resolve possible errors [40,41]. Concepts belonging to a subset of 21 chemical-related semantic types were selected and extracted from UMLS.
To capture family names, we also created a dictionary from the ChEBI ontology where we only took parent compounds that did not appear in the ChEBI three-star database, assuming that these terms have a high likelihood of being a family name. We call this dictionary ChEBI family .
Table Table1 1 shows the number of compounds and the number of terms for each of the resources. The total number of unique (case-sensitive) terms was 25,795,580.
Stop words.
In a recent study, Funk et al. [11] described the effect of different parameters such as use of stop words on automatic extraction of biomedical concepts from text. In this study we investigate the influence of stop words on automatic extraction of chemical terms from text. Several stop-word lists were analyzed for their ability to improve system performance, viz. English basic words (100 words) [42], the PubMed stop-word list (133 words) [43], the Jochem stop-word list (258 words) [9], and stop-words derived from the CHEMDNER annotation guidelines (116 words) [21]. Terms found by dictionary-based or grammar-based matching were disregarded if they were part of the stop-word lists. The basic English stop-word list and the PubMed stop-word list contain common English words, with 51 shared terms like "about", "all", "most", and "make". The Jochem stop-word list and the CHEMDNER derived stop-word list focused on more specific ambiguous terms, such as "crystal" or "acid" for the Jochem set, and "insulin" or "lead" for the CHEMDNER set. These two sets only shared five words.
Dictionary-based recognition.
We employed the Peregrine tagger [10,22] to analyze the performance of the individual terminological resources. Tokenization of text that contains chemical terms can be complicated as compound names may include punctuation, such as commas or brackets. We used Peregrine with the tokenizer previously developed by Hettne et al. [9]. All the terms from the terminological resources were used to index the training material with different settings for case sensitivity and noun-phrase (NP) chunking.
Case sensitivity.
To study the effect of case sensitivity of characters within chemical names on the performance of the system, we indexed the text in separate runs with different matching settings: case insensitive, case sensitive, and partial case sensitive (only case sensitive for abbreviations, defined as terms where the majority of characters consists of capitals and digits, e. g. "BaTiO3").
NP chunking.
Assuming that chemical compounds will mostly be present in the noun phrases of a sentence, the experiments were also repeated by only feeding noun phrases extracted with the OpenNLP chunker [44] to Peregrine. The OpenNLP chunker has previously been shown to score best in performance and usability on NP recognition in biomedical text [45].
Grammar-based recognition.
A number of public and commercial software packages that can find chemical entities in text were used for the grammar-based recognition approach. ChemAxon's Document-to-Structure toolkit (D2S) [46], NextMove's LeadMine [47], and OSCAR 4 [48] were used for this purpose. These tools have also implemented grammar-based recognition of systematic chemical identifiers. D2S uses grammars along with dictionaries to extract chemicals from text. D2S can also extract information from optical character recognition text and has the ability to recognize chemical structures from text (image extraction) [46]. NextMove's LeadMine uses a filtered dictionary along with 485 rules (grammars defined for chemical nomenclatures naming) to find and extract systematic names. The tool provides automatic spelling correction which allows the tool to extract misspelled terms from documents. The tool also supports multiple languages [47]. Oscar is an open-source software package for extracting named entities from chemical publications. The tool uses different types of models (such as a Bayesian model, pattern recognition, and a Maximum Entropy Markov Model) to extract terms from documents [48]. All the tools were used with their default settings, without further training, adjustment or tuning.
Regular expressions.
Database identifiers of compounds are one of the entity types annotated in the CHEMDNER corpus [21], e. g., LY541850 or AMN082. This subset was used to define a set of regular expressions that served to index the abstracts for chemical database identifiers. As an example, "LY[\ ] [1-9][0-9] " captures the letters "LY" followed by a space (optional) and six or seven digits (the first of which is not 0).
Ensemble system.
The stop-word lists were employed for both dictionary-based and grammar-based recognition. The dictionary-based recognition was applied using different settings for case sensitivity and NP chunking. We used the BioCreative evaluation script [49] to calculate precision, recall, and F-score (using exact matching of entity boundaries without considering entity type). The scores for the grammar-based recognizers and the regular expressions were also calculated in the same manner. We then heuristically selected different combinations of terminological resources, grammar-based recognizers and regular expressions, and assessed the performance of each ensemble. Our strategy was to have at least one system from each approach. The ensemble system merged the outputs of the various systems. All combinations of up to three lexical resources, the grammar-based recognizers, and the regular expressions were assessed, and the ensemble system with the highest F-score was determined. For comparison, we also investigated a simple voting scheme, where a term is accepted if the number of resources and systems by which the term is found, is at least equal to a voting threshold.
In the final setup we tried to improve our system by extending our dictionary with all gold-standard annotations from the training material that our system initially missed. Further improvement was reached by singling out indexed terms that overlapped. In these cases, the longest term (greater number of characters) was kept. If the terms had the same number of characters, they were ranked based on the subsystems that extracted them: regular expressions, grammar-based, dictionary-based (decreasing priority). If any or both of the overlapping terms were captured by more than one system, the term with highest priority was chosen. In rare cases where the overlapping terms had the same size and the same priority, one term was randomly chosen.
To perform the CDI subtask, we needed a sorted list of unique mentions of the chemical terms in each document. The terms should be ranked according to an estimated confidence of recognition. We therefore determined a "confidence score" for each chemical term as follows. Abstracts from the whole of Medline were divided into two subgroups based on subject categories from the ISI Web of Knowledge [50] (Table (Table2). 2 ). The first group consisted of 1,979,485 abstracts from chemical journals, employing the same subject categories as described in the CHEMDNER guidelines [21]. The second group contained 73,603 abstracts from non-chemical journals (e. g., journals in the subject category "Agricultural economics & policy") carefully chosen through the ISI Web of Knowledge classification. All abstracts were indexed by Peregrine with all lexical resources. We assumed that chemical terms would be present more frequently in chemical abstracts than in non-chemical abstracts. For each term, the ratio of the tf*idf (term frequency times inverse document frequency) scores for both abstract sets was computed and transformed into a confidence score between zero and one: if ratio < 1 then score = ratio * 0.5 else score = 1 - 0.5/ratio. A term with high confidence is found more frequently in chemical abstracts than in non-chemical abstracts and therefore is likely to be a chemical term. Vice versa, a term with low confidence is likely to be non-chemical, or highly ambiguous. For example, the drug "Indomethacin" (with DrugBank id DB00328) was found 15,421 times in the chemical abstracts and only once in the non-chemical abstracts, resulting in a high confidence score of 0.99. The ambiguous term "Merit" (synonym of "Imidacloprid" with HMDB id HMDB40292) was found 779 times in the chemical and 101 times in the non-chemical abstracts and obtained the low score of 0.14 after normalization.
The confidence score was taken to rank the term. If it was not available (due to time constraints for the challenge we did not compute scores for terms only captured by regular expressions or grammar-based recognition, which took much more processing time than dictionary-based recognition), the term was ranked according to the precision of the system that indexed the term. In cases where multiple systems indexed the term the highest score was applied.
Individual systems.
Table Table3 3 shows the baseline performance of the dictionary-based and grammar-based named entity recognition with and without stop-word removal on the 7030 abstracts in the training material. The dictionary-based named entity recognition was performed with case sensitive matching.
The baseline F-scores without stop-word removal fluctuate between 12.8% and 57.8%, with Jochem, ChemAxon and LeadMine performing the best. ChEMBL obtained a high precision of 87.9% but with a poor recall of 18.7%. Oscar, PubChem and Jochem had the highest recalls, but with moderate to poor precisions. ChEBI Family gained the lowest F-score, which can be explained by the fact that its scope was limited to chemical family names. Further analysis revealed that 40.3% of the annotated family names were captured by ChEBI Family. The low precision of ChEBI Family is mainly due to the presence of terms such as "role", "proteins", "inhibitors", "metabolites", which are not blocked as they are not present in the stop-word list. The use of the stop-word lists greatly improved the precision and F-score of the majority of resources. The performance of ChEMBL and ChemAxon remained nearly constant showing that these systems extract few of the stop words in our lists. Use of the stop-word lists hardly affects recall, with a largest decrease of only 1.1% for PubChem.
Table Table4 4 gives a further breakdown of the performance improvement for the individual stop-word lists that were used. Clearly, the largest improvements are seen for the Basic English terms (up to 23.7 percentage points with an average of 4.1) and the PubMed stop-word list (up to 22.3 percentage points with an average of 3.6). Among the terms that had a large effect on precision were basic English terms such as "In" (extracted 32367 times of which only 5 are annotated in the corpus as Formula) and "As" (extracted 7087 times of which 33 cases are annotated as Formula). Many more general terms were also extracted mostly as false positives, such as "protein", "DNA", "insulin", and "water".
Case sensitivity.
To study the influence of case sensitivity on the dictionary-based approach, we indexed the training data using case insensitive, case sensitive, and partial case sensitive matching for all terminological resources (Table (Table5). 5 ). The results did not show a large difference in most of the cases although (partial) case sensitive matching improved the F-score of ChEBI by 7.1 percentage points and reduced the score of TTD by 2.7 percentage points.
NP chunking.
To study the possible gain through NP chunking on dictionary-based approaches, we applied the OpenNLP chunker to extract noun phrases from the training material. The noun phrases were then indexed with Peregrine using all terminological resources. Table Table6 6 shows higher precision and F-scores for most of the systems as compared to the baseline values (cf. Table Table3), 3 ), in particular for PubChem and ChEBI. As expected, recall drops, but only by 0.3 to 1.9 percentage points.
The removal of stop-words in combination with the NP chunking system gives a further improvement of performance, but to a much smaller extent than for the baseline system. This is largely because most of the stop-words are not part of the noun phrases and disregarding them has no effect. Based on a comparison between the performances in Table Table3 3 and Table Table6 6 we decided to dispense with NP chunking as there was no gain.
Regular expressions.
The regular expressions detected 44.4% of the chemical database identifiers, with a precision of 90.4%. Further analysis of the false-positive and false-negative detections showed many partial extractions, e. g., "LY2090314" was extracted as an identifier while a prefix had also been annotated as part of the identifier ("[(14)C]LY2090314").
Ensemble system.
We evaluated different combinations of terminological resources (applying different case-sensitivity settings), grammar-based recognizers, and regular expressions on the training data. The ensemble system with the best F-score consisted of the combination of ChEBI, HMDB, LeadMine, and the regular expressions, yielding an F-score of 66.6% (Table (Table7 7 ).
The dictionaries performed best with case-sensitive matching but the differences with partial case-sensitive and with case-insensitive matching were marginal. Further addition of terminological resources to the ensemble system improved recall but decreased precision to a larger extent. For example, the addition of PubChem provided the largest increase in recall (about 7 percentage points), but decreased precision with about 8.9 percentage points, resulting in a drop in F-scores of 2.1 percentage points. Also note that the ensemble system had a better F-score than any of the individual systems (cf. Table Table3). 3 ). When we applied a voting approach, using all our sources and resources and varying the voting threshold between 1 and 15, the best F-score was 65.3% (precision 76.6%, recall 56.9%) for a threshold of 4.
We further analyzed the number of unique true positives (TPs) per entity type found by each of the systems within the ensemble system (Table (Table8). 8 ). From a total of 37469 TPs captured by the ensemble system, 4139 cases were unique to ChEBI (mostly formula and abbreviation), 1878 were unique to HMDB (mostly trivial and abbreviation), 9480 cases were unique to LeadMine (mostly systematic terms) and 280 cases were unique to Regular expressions.
We tried to further improve our system by expanding our dictionary with the gold-standard annotations from the training material that were missed by our system. This greatly improved the recall and F-score values (Table (Table7), 7 ), although these estimates are optimistically biased since we evaluated the performance on the same dataset from which the newly added terms were derived. We also added all false-positive terms, i. e., terms indexed by our system but not annotated within the corpus (e. g., "peptide" and "carcinogen"), to our stop-word list, which further improved performance. Furthermore, we removed the shorter of two overlapping terms, which added 2.5 percentage points to the F-score, to reach 90.9% for the CDI task and 89.5% for the CEM task.
We submitted various runs to evaluate the system performance on the test set for both the CDI task and the CEM task (Table (Table9). 9 ). The F-score of the baseline ensemble system improved by 9 percentage points after adding the false-negative terms of the training material to the dictionary and the false-positive terms to the stop-word list. A small further improvement was seen after the removal of overlapping terms, corroborating our findings on the training material. The best ensemble system obtained F-scores of 77.6% and 77.8% for the CDI and CEM tasks, respectively. Additional runs with a more recall-oriented system that included PubChem improved recall only slightly (about 3 percentage points) but greatly reduced precision (about 16 percentage points). We also tested whether removal of dictionary terms with low confidence scores would further improve the results, but this was not the case.
نقاش.
Extracting chemical terms from unstructured text has proven to be a difficult task [3]. Here we present an ensemble approach that combines a grammar-based approach to capture systematic chemical identifiers with a dictionary-based approach and regular expressions to capture non-systematic names. The ensemble system performed better than any individual system. Stop-word removal was shown to greatly improve system performance, as did the addition of false-negative and false-positive terms from the training material to the dictionary and stop-word list, respectively. The effect of different types of case-sensitive matching, use of NP chunking, and removal of dictionary terms that were likely to be highly ambiguous or non-chemical, did not essentially change the performance.
Our initial assumption about the beneficial effect of NP chunking on compound recognition was only partially met, in that the use of NP chunking alone improved performance but there was no additional value in combination with stop-word removal (cf. table table6). 6). In a previous study by Kang et al. [51] dictionary-based recognition of diseases in scientific abstracts was improved by employing NLP techniques, including NP chunking. However, in that study only a small stop-word list was used. Also, chunk recognition in disease-related abstracts may be easier than in chemical abstracts, which can contain complex chemical names with multiple punctuation marks (e. g., hyphens, brackets).
On the test set, our best ensemble system achieved F-scores of 78% for both challenge tasks. The results of our ensemble system on the training material are much better than on the test set (cf. Tables Tables7 7 and and9), 9 ), but clearly this is due to the fact that we used the training data to improve the system. However, if we compare the baseline ensemble system, for which no training was needed, the F-scores on the training and test sets were almost similar for the CDI and CEM tasks.
From the 27 teams that participated in the BioCreative CHEMDNER challenge, 20 teams used machine-learning methods to extract chemical terms from text. The most frequently used method was CRF [8]. The best scoring system for the CDI subtask [52] managed to gain a precision of 87%, a recall of 89%, and an F-score of 88%. This system uses CRF along with word clustering to extract terms. The state of the art system for the CEM subtask [17] obtained 89% precision, 86% recall, and 87% F-score. This system also uses CRF along with several pre-processing steps to extract chemical terms from text. With an F-score that was about 10 percentage points lower than the best systems, our ensemble system ranked eighth for the CDI task and seventh for the CEM task. Tuning of the grammar-based systems that we considered, could have resulted in a higher F-score. For example, LeadMine also participated in the challenge as a separate software system [16]. After tuning, LeadMine achieved an F-score that was nine percentage points higher than our ensemble system, and 32 percentage points higher than the baseline LeadMine system that we used. Also ChemAxon participated in the challenge and obtained an F-score of 77% (an increase of 22 percentage points compared to the version we used). Among the teams who used lexical resources, ChEBI, PubChem and DrugBank were most often used; 13 teams also used a stop-world list. Irmer et al. [53] used a dictionary-based approach along with modules to recognize formulas or handle specific scenarios (such as abbreviation or acronym expansion) and obtained an F-score of 77%. They introduced a set of words in a so-called grey list. Terms in this list were only annotated in specific circumstances. Some systems (e. g. [54]) also tried to create an ensemble system by combining machine learning, dictionary-based approaches and regular expressions, but obtained lower F-scores than our ensemble system. Finally, in our approach the ensemble system merges the outputs of a selected set of individual systems. Our results indicate that this approach produced a better result than a simple voting scheme. However, we did not explore more sophisticated approaches, such as weighted voting or integration into a learning framework [55]. Application of these techniques may further improve the performance of an ensemble system.
Our approach has several advantages. First, use of the terminological resources and grammar-based recognizers did not have to be trained. This is an advantage over machine-learning approaches that require a large training set, which is laborious and expensive to create. On the other hand, our results also indicate that a substantial performance improvement can be gained by using the training data to expand the dictionary and the stop-word list. Thus, if training data are available, they can straightforwardly be used to improve system performance for both dictionary-based and grammar-based approaches.
A second advantage is that our system can provide structures for most of the found terms. Although the supply of information about structures was not required for the CHEMDNER tasks, chemists are generally interested in the chemical structure of a chemical identifier recognized in text. The terminological resources in the ensemble system (ChEBI and HMDB) contained MOL files, and also the grammar-based method (LeadMine) can provide structures for the extracted terms. Only the terms extracted with the regular expressions and terms that were added based on the training data, are not linked to structure information.
There are also several limitations. While the precision of our best ensemble system was an acceptable 86%, the recall was a more modest 71%. Including other dictionaries in the ensemble improved recall, but deteriorated precision to a much larger extent. Also, we noticed that many of the missed chemical terms were due to tokenization issues, e. g., the formulas "WC" and "Na" were missed in the context of "(nano-WC)" and "(I(Na))", respectively (PMID 22954532). Improvement of our tokenizer will further be investigated.
Another limitation of the current ensemble system is that some of the entity types were poorly recognized, in particular the entity types Multiple and Formulas. Terms of these types are not well covered in our dictionary. Better recognition may be possible by the use of regular expressions specifically developed for these types.
Finally, it should be noted that we used the grammar-based recognition tools with their default parameter settings, and did not try to tune them to the tasks at hand. Further improvements may be possible if such tuning were done.
استنتاج.
We developed an ensemble system that combines dictionary-based and grammar-based approaches to chemical named entity recognition, and obtained F-scores of 78% on the two CHEMDNER challenge tasks. The baseline version of the system did not require training, but we were readily able to improve performance by making use of the available training data. The system is capable of providing structure information for most of the compounds that are found. Improved tokenization and better recognition of specific entity types will likely further increase system performance.
تضارب المصالح.
The authors declare that they have no competing interests.
مساهمات المؤلفين.
SA extracted and processed the data. SA, KH, EvdH, and EvM analyzed the data. JK supervised and coordinated the project. SA drafted the manuscript and KH, EvdH, EvM, and JK revised it. All authors read and approved the final manuscript.
شكر وتقدير.
This study and the funding for the publication were made possible by a grant provided by AstraZeneca to SAA. KH and EvdH were founded by the Seventh Framework Programme of the European Commission (Digital Libraries and Digital Preservation area ICT-2009.4.1 project reference 270192) (Wf4Ever). The authors would like to acknowledge NextMove Software for providing access to LeadMine, and the Royal Society of Chemistry for making ChemSpider available to us for research purposes. We also would like to thank ChemAxon for providing a license to their cheminformatics software. Finally, we thank Bharat Singh for providing valuable suggestions.