Tìm tất cả các lần xuất hiện của một khóa trong từ điển và danh sách lồng nhau

Question 1

Tôi có một từ điển như thế này:

{ "id" : "abcde",
  "key1" : "blah",
  "key2" : "blah blah",
  "nestedlist" : [ 
    { "id" : "qwerty",
      "nestednestedlist" : [ 
        { "id" : "xyz",
          "keyA" : "blah blah blah" },
        { "id" : "fghi",
          "keyZ" : "blah blah blah" }],
      "anothernestednestedlist" : [ 
        { "id" : "asdf",
          "keyQ" : "blah blah" },
        { "id" : "yuiop",
          "keyW" : "blah" }] } ] }

Về cơ bản là một từ điển với danh sách, từ điển và chuỗi được lồng vào nhau, có độ sâu tùy ý.

Cách tốt nhất để duyệt qua điều này để trích xuất các giá trị của mọi khóa "id" là gì? Tôi muốn đạt được tương đương với truy vấn XPath như "// id". Giá trị của "id" luôn là một chuỗi.

Vì vậy, từ ví dụ của tôi, đầu ra tôi cần về cơ bản là:

["abcde", "qwerty", "xyz", "fghi", "asdf", "yuiop"]

Thứ tự không quan trọng.

Question 2

Tôi thấy phần Q / A này rất thú vị, vì nó cung cấp một số giải pháp khác nhau cho cùng một vấn đề. Tôi đã lấy tất cả các chức năng này và thử nghiệm chúng với một đối tượng từ điển phức tạp. Tôi đã phải loại bỏ hai chức năng ra khỏi thử nghiệm, vì chúng phải nhận nhiều kết quả không thành công và chúng không hỗ trợ trả về danh sách hoặc phân số dưới dạng giá trị, điều mà tôi thấy cần thiết, vì một hàm nên được chuẩn bị cho hầu hết mọi dữ liệu sắp tới.

Vì vậy, tôi đã bơm các chức năng khác trong 100.000 lần lặp qua timeitmô-đun và kết quả đầu ra như sau:

0.11 usec/pass on gen_dict_extract(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
6.03 usec/pass on find_all_items(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0.15 usec/pass on findkeys(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
1.79 usec/pass on get_recursively(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0.14 usec/pass on find(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -
0.36 usec/pass on dict_extract(k,o)
- - - - - - - - - - - - - - - - - - - - - - - - - - - - -

Tất cả các hàm đều có cùng một kim để tìm kiếm ('ghi nhật ký') và cùng một đối tượng từ điển, được cấu tạo như thế này:

o = { 'temparature': '50', 
      'logging': {
        'handlers': {
          'console': {
            'formatter': 'simple', 
            'class': 'logging.StreamHandler', 
            'stream': 'ext://sys.stdout', 
            'level': 'DEBUG'
          }
        },
        'loggers': {
          'simpleExample': {
            'handlers': ['console'], 
            'propagate': 'no', 
            'level': 'INFO'
          },
         'root': {
           'handlers': ['console'], 
           'level': 'DEBUG'
         }
       }, 
       'version': '1', 
       'formatters': {
         'simple': {
           'datefmt': "'%Y-%m-%d %H:%M:%S'", 
           'format': '%(asctime)s - %(name)s - %(levelname)s - %(message)s'
         }
       }
     }, 
     'treatment': {'second': 5, 'last': 4, 'first': 4},   
     'treatment_plan': [[4, 5, 4], [4, 5, 4], [5, 5, 5]]
}

Tất cả các chức năng đều cho kết quả giống nhau, nhưng sự khác biệt về thời gian là rất lớn! Hàm gen_dict_extract(k,o)là hàm của tôi được điều chỉnh từ các hàm ở đây, thực ra nó khá giống với findhàm từ Alfe, với sự khác biệt chính là tôi đang kiểm tra xem đối tượng đã cho có hàm iteritems hay không, trong trường hợp các chuỗi được truyền trong quá trình đệ quy:

def gen_dict_extract(key, var):
    if hasattr(var,'iteritems'):
        for k, v in var.iteritems():
            if k == key:
                yield v
            if isinstance(v, dict):
                for result in gen_dict_extract(key, v):
                    yield result
            elif isinstance(v, list):
                for d in v:
                    for result in gen_dict_extract(key, d):
                        yield result

Vì vậy, biến thể này là nhanh nhất và an toàn nhất trong các chức năng ở đây. Và find_all_itemscực kỳ chậm và xa thứ hai chậm nhất get_recursivleytrong khi phần còn lại, ngoại trừ dict_extract, là gần nhau. Các chức năng funvà keyHolechỉ hoạt động nếu bạn đang tìm kiếm chuỗi.

Khía cạnh học tập thú vị ở đây :)

Question 3

d = { "id" : "abcde",
    "key1" : "blah",
    "key2" : "blah blah",
    "nestedlist" : [ 
    { "id" : "qwerty",
        "nestednestedlist" : [ 
        { "id" : "xyz", "keyA" : "blah blah blah" },
        { "id" : "fghi", "keyZ" : "blah blah blah" }],
        "anothernestednestedlist" : [ 
        { "id" : "asdf", "keyQ" : "blah blah" },
        { "id" : "yuiop", "keyW" : "blah" }] } ] } 


def fun(d):
    if 'id' in d:
        yield d['id']
    for k in d:
        if isinstance(d[k], list):
            for i in d[k]:
                for j in fun(i):
                    yield j

>>> list(fun(d))
['abcde', 'qwerty', 'xyz', 'fghi', 'asdf', 'yuiop']

Question 4

d = { "id" : "abcde",
    "key1" : "blah",
    "key2" : "blah blah",
    "nestedlist" : [
    { "id" : "qwerty",
        "nestednestedlist" : [
        { "id" : "xyz", "keyA" : "blah blah blah" },
        { "id" : "fghi", "keyZ" : "blah blah blah" }],
        "anothernestednestedlist" : [
        { "id" : "asdf", "keyQ" : "blah blah" },
        { "id" : "yuiop", "keyW" : "blah" }] } ] }


def findkeys(node, kv):
    if isinstance(node, list):
        for i in node:
            for x in findkeys(i, kv):
               yield x
    elif isinstance(node, dict):
        if kv in node:
            yield node[kv]
        for j in node.values():
            for x in findkeys(j, kv):
                yield x

print(list(findkeys(d, 'id')))

Question 5

def find(key, value):
  for k, v in value.iteritems():
    if k == key:
      yield v
    elif isinstance(v, dict):
      for result in find(key, v):
        yield result
    elif isinstance(v, list):
      for d in v:
        for result in find(key, d):
          yield result

CHỈNH SỬA: @Anthon nhận thấy rằng điều này sẽ không hoạt động đối với các danh sách lồng nhau trực tiếp. Nếu bạn có điều này trong đầu vào của mình, bạn có thể sử dụng điều này:

def find(key, value):
  for k, v in (value.iteritems() if isinstance(value, dict) else
               enumerate(value) if isinstance(value, list) else []):
    if k == key:
      yield v
    elif isinstance(v, (dict, list)):
      for result in find(key, v):
        yield result

Nhưng tôi nghĩ phiên bản gốc dễ hiểu hơn nên tôi sẽ bỏ nó đi.

Question 6

Một biến thể khác, bao gồm đường dẫn lồng nhau đến các kết quả được tìm thấy ( lưu ý: phiên bản này không xem xét danh sách ):

def find_all_items(obj, key, keys=None):
    """
    Example of use:
    d = {'a': 1, 'b': 2, 'c': {'a': 3, 'd': 4, 'e': {'a': 9, 'b': 3}, 'j': {'c': 4}}}
    for k, v in find_all_items(d, 'a'):
        print "* {} = {} *".format('->'.join(k), v)    
    """
    ret = []
    if not keys:
        keys = []
    if key in obj:
        out_keys = keys + [key]
        ret.append((out_keys, obj[key]))
    for k, v in obj.items():
        if isinstance(v, dict):
            found_items = find_all_items(v, key, keys=(keys+[k]))
            ret += found_items
    return ret

Question 7

Tôi chỉ muốn lặp lại câu trả lời tuyệt vời của @ hexerei-software bằng cách sử dụng yield fromvà chấp nhận các danh sách cấp cao nhất.

def gen_dict_extract(var, key):
    if isinstance(var, dict):
        for k, v in var.items():
            if k == key:
                yield v
            if isinstance(v, (dict, list)):
                yield from gen_dict_extract(v, key)
    elif isinstance(var, list):
        for d in var:
            yield from gen_dict_extract(d, key)

Question 8

Hàm này tìm kiếm đệ quy một từ điển có chứa các từ điển và danh sách lồng nhau. Nó xây dựng một danh sách được gọi là fields_found, chứa giá trị cho mỗi lần trường được tìm thấy. 'Trường' là từ khóa tôi đang tìm kiếm trong từ điển và các danh sách và từ điển lồng nhau của nó.

def get_recursently (search_dict, field):
    "" "Thực hiện một câu lệnh với các danh sách và dấu tích lồng nhau,
    và tìm kiếm tất cả các dấu hiệu cho một khóa của trường
    đã cung cấp.
    "" "
    fields_found = []

    cho khóa, giá trị trong search_dict.iteritems ():

        trường if key ==:
            fields_found.append (giá trị)

        elif isinstance (value, dict):
            results = get_recursently (giá trị, trường)
            để biết kết quả:
                fields_found.append (kết quả)

        elif isinstance (giá trị, danh sách):
            cho mặt hàng có giá trị:
                if isinstance (item, dict):
                    more_results = get_recursently (mục, trường)
                    cho another_result trong more_results:
                        fields_found.append (another_result)

    return fields_found

Question 9

Đây là cú đâm của tôi vào nó:

def keyHole(k2b,o):
  # print "Checking for %s in "%k2b,o
  if isinstance(o, dict):
    for k, v in o.iteritems():
      if k == k2b and not hasattr(v, '__iter__'): yield v
      else:
        for r in  keyHole(k2b,v): yield r
  elif hasattr(o, '__iter__'):
    for r in [ keyHole(k2b,i) for i in o ]:
      for r2 in r: yield r2
  return

Ví dụ.:

>>> findMe = {'Me':{'a':2,'Me':'bop'},'z':{'Me':4}}
>>> keyHole('Me',findMe)
<generator object keyHole at 0x105eccb90>
>>> [ x for x in keyHole('Me',findMe) ]
['bop', 4]

Question 10

Theo dõi câu trả lời của phần mềm @hexerei và nhận xét của @ bruno-bronosky, nếu bạn muốn lặp lại danh sách / bộ khóa:

def gen_dict_extract(var, keys):
   for key in keys:
      if hasattr(var, 'items'):
         for k, v in var.items():
            if k == key:
               yield v
            if isinstance(v, dict):
               for result in gen_dict_extract([key], v):
                  yield result
            elif isinstance(v, list):
               for d in v:
                  for result in gen_dict_extract([key], d):
                     yield result

Lưu ý rằng tôi đang chuyển một danh sách có một phần tử ([key]}, thay vì khóa chuỗi.